首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
模板处理的含义及其主要内容。详细阐述了模板处理在数字化文献环境中的主要应用领域:利用模板建立引用数据库,从电子刊物中抽取信息等。并探讨了在元数据中利用模板自动抽取信息的一些原理及方法。  相似文献   

2.
本介绍了因特网概况及其主要查询工具的一些情况,阐述了信息抽取、信息检索的定义及其相互关系。主要介绍了模板处理的含义、应用过程及其主要应用领域,并探讨了模板处理方法的研究及开发工作。  相似文献   

3.
一、模板处理应用在数字化图书馆中 模板处理是信息抽取过程中的一种特殊技巧,它涉及自然语言的处理方法NLP(Natu-ral Language Process),利用自然语言的优势,先将图像、声音等多媒体信息的内容用文字进行确切的描述,揭示其内在的各种语义相关性、时空关联性,形成描述性的自由文本,然后直接从数据的正文中抽取数据或者从包含数据的文本中形成可识别模式,再从中抽取信息.  相似文献   

4.
王宁 《图书馆》2002,32(1):46-48
本文主要介绍了在数字化的信息环境下,模板处理、先组式主题索引和后组式主题索引的定义及其内容。着重探讨了先组题索引系统利用模板处理的一些原则及方法。  相似文献   

5.
董旻  方曙 《图书情报工作》2007,51(10):25-28
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。  相似文献   

6.
王宁 《图书馆建设》2001,32(1):77-78
本文主要介绍了数字化的信息环境下的模板处理、先组式主题索引和后组式主题索引的定义及其内容,着重探讨了先组式主题索引系统利用模板处理的一些原则及方法。  相似文献   

7.
从文本中抽取信息的过程可粗略地分解为文本分析和信息抽取两个阶段。我们开发了一个原型系统,可以把一个自由文本转换成一个结构化的文本表示,然后就可用于自动建立数据库,以用于信息检索系统。该系统采用了基于结构化关键词的文本分析方法,并用一个结构模板指定描述部位和控制信息的抽取。  相似文献   

8.
张艳 《图书情报工作》2010,54(14):107-130
提出一个RSS级别的网页主题内容抽取方法与系统,利用RSS feed中的少量entry信息训练得到主题内容模板,通过模板可以对RSS feed下的所有网页进行主题内容抽取。该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,能实时侦测模板的变化。从实验结果来看,该方法和系统有很高的召回率和准确率。  相似文献   

9.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

10.
基于主题地图的异构知识集成*   总被引:2,自引:1,他引:2  
大型企业和科研机构所处理的信息通常是分布式的,这些信息除了分散在不同的数据库中之外,还以类型各异的文档形式独立存在。为了抽取信息资源中隐含的知识,需要探索数据库及存档文件,把其中有用的知识单元一一挑选出来。为了从整体上对抽取的知识加以把握,还需要把这些知识片段有机地整合起来。本文提出基于主题地图的知识集成系统TMKIS,将信息资源的本体表示规范、存储方式、自动抽取方式、合法性验证以及浏览方式有机地结合起来,利用主题地图技术,处理异构的信息资源,实现异构知识集成的目标。  相似文献   

11.
文章在Web of Science等影响力较大的国际数据库中检索内容与“科技文献”和“信息抽取”相关的文献,经设定条件筛选后获得63篇相关文献。回顾相关文献,从抽取的信息与抽取的方法两个角度进行分类与分析,总结该领域已有的研究成果和存在的不足。从科技文献中抽取的信息主要为结构化信息、显式信息和隐式信息,最新最先进的抽取方法主要集中在机器学习、自然语言处理和统计学中。语义信息的抽取有一定的进步空间及挑战性,灵活结合机器学习和自然语言处理方法是处理此领域问题的未来趋势。  相似文献   

12.
针对目前Web信息的混乱的特点,本文提出了利用信息抽取技术来处理Web信息的方案。  相似文献   

13.
信息抽取在竞争情报中的应用研究   总被引:1,自引:1,他引:1  
简要介绍信息抽取的特点和抽取的信息类型,概述信息抽取技术在竞争情报中的应用;在此基础上,提出基于信息抽取技术的竞争情报系统的体系架构,主要包括信息抽取引擎、数据转换与集成、数据清洗、数据装载等,研究信息抽取引擎中封装器的实现方式,并从系统采用的机制和方式、系统功能侧重点、系统的自动化程度等方面分析国外基于信息抽取技术的竞争情报系统的特点。  相似文献   

14.
网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法.在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取方法的分析基础上,使用基于包装器归纳方式并在规则生成模块中采用专家模式,设计一种基于样本学习的新闻抽取方法,通过人工分析网页源代码制定和修改抽取规则,然后根据抽取规则进行信息自动抽取,以提高舆情搜索引擎的精度和质量.  相似文献   

15.
为了提高信息抽取过程中的语义深层次的理解和准确率,本文提出了一种基于领域本体和语块分析的语义信息抽取方法,在详细说明其信息抽取模型的基础上,重点针对命名实体识别、词性组合模板、基于本体的三元组和二元组规则等关键问题进行了深入的分析和研究,提出了相应的解决方法,并进行了相关试验性研究.结果表明:采用本文所述的系统结构及其技术构建文本信息抽取系统是可行的,其能在深层次语义理解的基础上进一步提高信息抽取的准确率.  相似文献   

16.
信息抽取技术及其在数字图书馆中的应用前景分析   总被引:18,自引:1,他引:18  
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识) , 它提供了一条从浩瀚的信息堆积中抽取出与用户相关的信息的一条思路。文章分析了信息抽取的主要概念、主要研究活动、信息抽取的类型和信息抽取系统的一般结构, 并提出在数字图书馆的建设中, 信息抽取技术能够在数字内容的自动标引、元数据获取、数据挖掘、情报研究分析、大型知识库数值库建设、参考咨询等方面发挥重要的作用。  相似文献   

17.
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识),它提供了一条从浩瀚信息堆积中抽取出与用户相关信息的一条思路.本文分析了信息抽取的主要概念、信息抽取的现状及类型,提出了在数字图书馆的建设中,信息抽取技术在数字内容的自动标引、数据获取、数据挖掘、情报研究分析、参考咨询等方面发挥重要的作用.  相似文献   

18.
基于XML的PDF文档信息抽取系统的研究*   总被引:3,自引:0,他引:3  
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。  相似文献   

19.
基于领域本体的信息抽取模式生成与系统实现   总被引:1,自引:0,他引:1  
马静  吴一占  刘思峰 《情报学报》2008,27(2):193-198
面对情报工作者日益增长的从Internet中及时获取特定信息或知识的需求,本文展开了web信息抽取技术在情报领域的应用研究.目前,信息抽取模式的自动获取成为一个技术难点,本文尝试引入基于领域本体的半自动抽取模式获取算法,该方法在领域本体的概念层次关系、属性特征和实例的结构本体指导下,选择其主要特征属性为匹配目标,自动学习并获取抽取模式.利用该算法到直升机产品信息抽取,运行结果验证:该算法简单有效,获得了较高的抽取效率和较准确的抽取结果.  相似文献   

20.
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识),它提供了一条从浩瀚信息堆积中抽取出与用户相关信息的一条思路。本文分析了信息抽取的主要概念、信息抽取的现状及类型,提出了在数字图书馆的建设中,信息抽取技术在数字内容的自动标引、数据获取、数据挖掘、情报研究分析、参考咨询等方面发挥重要的作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号