首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
网页重现是利用相关技术方法、工具来恢复网页原貌。文章结合Warrick和Past Web Browser等实际案例分析了基于网络资源长期保存的网页重现技术在网站恢复、网站重建、历史页面重现应用的方法、过程、效果,为相关研究提供了参考价值。该文为2009年第七期“网络信息资源保存”专题文章之一。  相似文献   

2.
观点集锦     
国外Web Archive项目对我国的启示网络信息资源已成为世界最大的信息资源库,许多网页具有重要的社会、经济等价值,对网络信息资源进行保存,建立Web Archive(网页档案馆)十分必要和迫切。1996年,澳大利亚国家图书馆发起了对安达莉亚在线出版物、具有重要文化价值网站开展的长期保存  相似文献   

3.
web长期保存既存在管理方面的困扰,也存在技术方面的困扰.管理困扰包括保存的合法性、保存内容的选择、恶意软件的去留、网页的去重,技术困扰包括网页收割工具的局限性、web保存的真实性、时间一致性、保存格式的有效性.另外,集体贡献型网站的保存还存在一些特殊的困扰,包括网站抓取的困扰、产权许可的困难、保存动机的缺失等.参考文献11.  相似文献   

4.
近几年,中文网络资源总量增长速度惊人,主要体现在域名数、网站数等实际指标的增长。截止到2003年底,中国域名数量首次突破百万大关,全国网站接近60万个,网民已达7950万。从网站的性质与服务内容来看,企业网站数的比例已超过整个网站总数的70%;商业网站为8.2%,政府网站为3.2%。网页总数为3.1亿多,平均每个网站的网页数为520.3个。网络资源不仅体现在数量上,在信息质量上也逐渐提高。政府网站与商业网站提供的交互服务、信息内容,都呈递增状态。总的来说,我国的网络信息资源已有较大发展,但却依然存在信息资源分布杂乱,信息资源建设不平衡、…  相似文献   

5.
检索过程中,关键词灵活、易用,检索效率低。通过中文域名与关键词相结合技术对Web上生物学资源检索途径进行研究,通过泛域名解析技术、重定向技术和添加算法,实现生物学的站点、专题与网页的搜索技术。  相似文献   

6.
任辉 《图书情报工作》2007,51(9):127-130
基于数字图书馆用户的关键词信息查询问题,提出一种泛中文域名与关键词超链接实现方法。通过设立关键词表、利用泛中文域名的解析技术与重定向技术和添加链接算法,实现网页中全中文专业术语、通用词都能点击和按关键词加域名方式直接访问到相应站点、专题、网页或搜索页。本实验通过建立关键词库、完成关键词地址导向、泛中文域名的解析实现、超连接添加技术4个过程实现。  相似文献   

7.
网络信息资源的重组与开发利用   总被引:2,自引:0,他引:2  
近几年,中文网络资源总量增长速度惊人,主要体现在域名数、网站数等实际指标的增长.截止到 2003年底,中国域名数量首次突破百万大关,全国网站接近 60万个,网民已达 7950万.从网站的性质与服务内容来看,企业网站数的比例已超过整个网站总数的 70%;商业网站为 8. 2%,政府网站为 3. 2%.网页总数为 3. 1亿多,平均每个网站的网页数为 520. 3个.网络资源不仅体现在数量上,在信息质量上也逐渐提高.政府网站与商业网站提供的交互服务、信息内容,都呈递增状态.总的来说,我国的网络信息资源已有较大发展,但却依然存在信息资源分布杂乱,信息资源建设不平衡、资源配置不合理等问题.我国在信息基础结构以及信息资源的统一协调等方面存在较多的问题.如网络建设各自为政,网络结构层层隶属,网络信息资源开发分散、重复现象严重,因此必须加强行业、部门、系统间网络信息资源的重组与优化.  相似文献   

8.
中文WEB资源保存现状与思考   总被引:4,自引:0,他引:4  
近年来,中文Web资源迅速增长,它们是中华文化遗产的一部分,理应得到保存。该文评述Web资源及其保存现状,揭示中文Web资源保存面临的几个主要问题:中文Web空间的划定问题、著作权问题、资金问题、组织与管理机制、中文Web档案馆建设等,并提出笔者的一些意见与思考。  相似文献   

9.
统计了刊载H5N1型禽流感信息的网页和网站,根据布拉德福定律确定出核心网站,并对网站类型及域名进行分析,为H5N1禽流感方面研究人员提供网络信息。  相似文献   

10.
从WEB技术看档案网站的发展   总被引:1,自引:0,他引:1  
本文从技术角度将Web网站划分成4个层次:静态网页层次、动态网页层次、内容管理层次、网站集群层次,对不同网站所用的技术和其实现的功能进行了分析,得出了技术决定功能的结论,进而对档案网站进行了分析,指出档案网站要实现其功能,必须提高其技术水平。  相似文献   

11.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

12.
汉语分词对中文搜索引擎检索性能的影响   总被引:3,自引:0,他引:3  
金澎  刘毅  王树梅 《情报学报》2006,25(1):21-24
针对中文网页的特点,研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用网页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。  相似文献   

13.
《Research Strategies》2001,18(1):85-93
Course-related library Web pages can be designed to introduce students to an academic library Web site and provide access to information relevant to specific courses. These pages are most often developed to support a library instruction session. The author's course-related pages are designed on a template that includes the main features of the library Web site (e.g., links to the online catalog, reference information, and interlibrary loan request forms), a list of pertinent online indexes and databases, links to electronic journals, and recommended Web sites. Technical and organizational issues related to creating and maintaining such pages are discussed, as are outreach efforts and faculty/student response to incorporating this type of Web page into library instruction. A sample evaluation form and a list of selected course-related library Web sites are included as appendices.  相似文献   

14.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

15.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。  相似文献   

16.
Web sites are increasingly used by academic libraries to promote key services and collections to teaching faculty. This study analyzes the content, location, language, and technological features of fifty-four academic library Web pages designed especially for faculty to expose patterns in the development of these pages.  相似文献   

17.
Web页面中文文本主题的自动提取研究   总被引:14,自引:1,他引:13  
韩客松  王永成  滕伟 《情报学报》2001,20(2):217-223
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。  相似文献   

18.
依据Web 页面和W eb 站点可以被搜集和分类, 文章探讨的主题是:WWW 构成图书馆。结论是:Web 不是数字化图书馆, 但是图书馆可以从Web 中选择搜集材料。Web 文献有两种变化形式。第一种变化形式是本文所谈论的“持续性”; 第二种变化形式是W eb 页面或Web 站点信息的变化。本文力求更进一步认识Web 页面和Web 站点的生存期, 生存期的变化会影响具有Web 信息的图书馆的完整性和有效性, 然而如果能够认识这些变化就可以进行控制和管理。  相似文献   

19.
Web挖掘技术在电子商务中的应用研究   总被引:16,自引:0,他引:16  
刘培刚 《情报学报》2002,21(6):680-685
本文基于国内外最新研究成果对电子商务中应用的Web挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题 ,给出了基于Web日志的客户群体聚类算法及Web页面聚类算法。利用这些Web挖掘技术可有效挖掘用户个性特征 ,从而指导电子商务网站资源的组织和分配。  相似文献   

20.
阐述图书馆规范控制工作的定义,认为规范工作是一个建立、跟踪、维护、使用和评估规范记录的全过程,是提高文献检索效率与工作效率的有效措施。以图书馆必做的名称规范工作为例,探讨如何利用网络信息轻松快捷地完成规范记录的具体操作措施,指出规范控制工作中合理利用网络信息是必要的,也是可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号