首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 93 毫秒
1.
模板处理在数字化文献中的应用   总被引:1,自引:0,他引:1  
王宁 《云南图书馆》2001,(1):43-45,49
介绍了数字图书馆和模板处理的含义及其主要内容,详细阐述了模板处理在数字化文献环境中的主要应用领域,即利用模板建立引用数据库,从电子刊物中抽取信息等,并探讨了在元数据中利用模板自动抽取信息的一些原理及方法。  相似文献   

2.
一、模板处理应用在数字化图书馆中 模板处理是信息抽取过程中的一种特殊技巧,它涉及自然语言的处理方法NLP(Natu-ral Language Process),利用自然语言的优势,先将图像、声音等多媒体信息的内容用文字进行确切的描述,揭示其内在的各种语义相关性、时空关联性,形成描述性的自由文本,然后直接从数据的正文中抽取数据或者从包含数据的文本中形成可识别模式,再从中抽取信息.  相似文献   

3.
本介绍了因特网概况及其主要查询工具的一些情况,阐述了信息抽取、信息检索的定义及其相互关系。主要介绍了模板处理的含义、应用过程及其主要应用领域,并探讨了模板处理方法的研究及开发工作。  相似文献   

4.
王宁 《图书馆》2002,32(1):46-48
本文主要介绍了在数字化的信息环境下,模板处理、先组式主题索引和后组式主题索引的定义及其内容。着重探讨了先组题索引系统利用模板处理的一些原则及方法。  相似文献   

5.
王宁 《图书馆建设》2001,32(1):77-78
本文主要介绍了数字化的信息环境下的模板处理、先组式主题索引和后组式主题索引的定义及其内容,着重探讨了先组式主题索引系统利用模板处理的一些原则及方法。  相似文献   

6.
董旻  方曙 《图书情报工作》2007,51(10):25-28
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。  相似文献   

7.
张艳 《图书情报工作》2010,54(14):107-130
提出一个RSS级别的网页主题内容抽取方法与系统,利用RSS feed中的少量entry信息训练得到主题内容模板,通过模板可以对RSS feed下的所有网页进行主题内容抽取。该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,能实时侦测模板的变化。从实验结果来看,该方法和系统有很高的召回率和准确率。  相似文献   

8.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

9.
文章在Web of Science等影响力较大的国际数据库中检索内容与“科技文献”和“信息抽取”相关的文献,经设定条件筛选后获得63篇相关文献。回顾相关文献,从抽取的信息与抽取的方法两个角度进行分类与分析,总结该领域已有的研究成果和存在的不足。从科技文献中抽取的信息主要为结构化信息、显式信息和隐式信息,最新最先进的抽取方法主要集中在机器学习、自然语言处理和统计学中。语义信息的抽取有一定的进步空间及挑战性,灵活结合机器学习和自然语言处理方法是处理此领域问题的未来趋势。  相似文献   

10.
从文本中抽取信息的过程可粗略地分解为文本分析和信息抽取两个阶段。我们开发了一个原型系统,可以把一个自由文本转换成一个结构化的文本表示,然后就可用于自动建立数据库,以用于信息检索系统。该系统采用了基于结构化关键词的文本分析方法,并用一个结构模板指定描述部位和控制信息的抽取。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号