首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 781 毫秒
1.
文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则的方法的确可以正确抽取出术语,而且,通过与现有算法的比较,可以发现,关联规则在算法实现难度和算法占用资源方面具有较明显的优势。  相似文献   

2.
专利是一种重要的情报分析数据来源,由于专利使用的术语比论文更为抽象等原因,基于统计的信息抽取效果并不理想。文章利用文档结构的特点以及专利写作过程中的常用特色词汇,在利用条件随机场这种概率模型的基础上,提出了集成基于规则的专利摘要信息抽取方法。系统参加亚洲语言信息检索测评会议专利挖掘之技术趋势图谱子任务,取得较好的成绩,证实其系统的实用性与高效性。  相似文献   

3.
基于规则的信息抽取,设计了信息抽取的规则文档,再利用XML技术对PDF格式的台湾科技文献进行信息抽取,并将所得的结构化数据导入SQLSERVER数据库,最后利用ASP技术构建一个方便、智能的信息检索平台。  相似文献   

4.
网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法.在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取方法的分析基础上,使用基于包装器归纳方式并在规则生成模块中采用专家模式,设计一种基于样本学习的新闻抽取方法,通过人工分析网页源代码制定和修改抽取规则,然后根据抽取规则进行信息自动抽取,以提高舆情搜索引擎的精度和质量.  相似文献   

5.
探讨一种新的文档分类方法——基于本体的规则分类法。该方法首先根据分类体系建立每个类的本体,然后根据本体和规则对网页的主要标记信息进行分类。实验表明,这种方法比Rocchio分类法查全率略低,但查准率较高。  相似文献   

6.
董旻  方曙 《图书情报工作》2007,51(10):25-28
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。  相似文献   

7.
计算机自动语义分析是当前制约自然语言信息检索、信息抽取与机器翻译等应用技术发展的一个瓶颈问题.语义角色标注是语义分析的一种主要实现方式,而目前语义角色的自动标注主要采用基于统计的方法,由于训练数据的规模有限、语义角色类型多,面临严重的数据稀疏问题,处理结果一致性差.本文则采取基于规则的方法,选择汉语框架语义知识库(CFN)所提供的框架和框架元素作为语义标注体系,利用CFN的语义标注句子库,根据短语类型、句法功能以及短语内部构成和外部语境等其他句法语义特征分析框架元素的实现规律,构建语义标注规则,经测试取得了令人满意的结果,为解决语义分析问题探索了一条可行的路线.  相似文献   

8.
从馆际互借的基本理论入手,以国家图书馆、CASHL为例对我国现有图书馆、信息机构的馆际互借规则进行了比较分析,总结出我国图书馆馆际互借规则存在的问题并提出了相应的解决对策。  相似文献   

9.
面向科技文献的混合语义信息抽取方法研究   总被引:1,自引:0,他引:1  
针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题,综合运用语义标注技术、规则抽取技术以及正则表达式技术,提出一种面向科技文献的混合语义信息抽取方法。该方法首先对科技文献进行语义标注,得到相关学术术语。然后,构造抽取规则,抽取文献提及的与具体性能指标相关的句子。最后,采用正则表达式技术从相关句子中精确抽取出关键性能指标。对碳纳米管研究领域科技文献语义的信息抽取证明,该方法能迅速、有效和准确地抽取科技文献主要创新研究内容和性能指标。  相似文献   

10.
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。  相似文献   

11.
12.
一种通用HTML网页主题信息提取方法*   总被引:9,自引:0,他引:9  
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。  相似文献   

13.
HTML到XML转换技术的研究与实现   总被引:2,自引:0,他引:2  
网络上大多数的信息都是用HTML写的,这种语言不能处理网络上的很多需求,因为它只是一种用于浏览信息的语言,不能表达数据本身,网络还没有形成一个良好的结构化文档的存贮,而只是一个可变的HTML页的聚集,我们迫切希望来自网络资源的信息以一种结构化的方式来存贮。XML和它的各种扩展功能如数据模型、查询语言等是实现结构化方式的一种,是一种元语言,可以弥补很多HTML的不足。未来的网页会使用具有很好结构化的XML语言,但是现在这一阶段是过渡阶段,必须思考一种方法来实现HTML到XML的转换.以更好地利用网络资源。本文提出了一种实现HTML到XML转换的方法。  相似文献   

14.
XML搜索引擎探微   总被引:3,自引:0,他引:3  
在简述XML的基础上,从现有的搜索引擎的缺陷、开发XML搜索引擎的条件、XML搜索引擎的分类及其构成等方面出发,对XML搜索引擎进行比较详尽的探讨。  相似文献   

15.
XML信息检索探究   总被引:4,自引:0,他引:4  
廖述梅  万常选  徐升华 《情报学报》2007,381(2):229-234
XML文档是具有层次结构和文本内容的半结构化数据。现有的Web信息检索是基于HTML文档的关键词全文检索,无法胜任XML元素粒度的检索;同时,XML数据库检索实现的是精确查找,检索结果无排序支持。因此,融合信息检索和数据库技术研究XML检索问题成为必然。本文从XML检索的问题域出发,阐述了XML信息检索(XML IR)的国内外研究现状与特点,并分析了目前XML IR的热点和难点问题。  相似文献   

16.
简述PDF信息抽取过程中采用的转换工具及抽取语言,简析PDFTOHTML格式转换后的中间文档,分析PDF科技论文首页元数据存在的问题,给出对以上问题的解决方案。  相似文献   

17.
Internet 上蕴藏着丰富的信息资源, 对于刚开始介入WWW 的人们都迫切需要寻找有关WWW 资料, 例如象: 什么是HTML 语言? 如何用HTML 语言编写超文本? 如何获取并使用各种相关的浏览器? 如何建立WWW 服务器? 如此等等, 而他们又往往不知从何下手。本文提供了一些信息的来源, 人们可以取来使用, 并可以继续顺其线索去发现更多宝贵的资源。  相似文献   

18.
搜索引擎中Robot搜索算法的优化   总被引:15,自引:0,他引:15  
目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 ,本文的优化算法可以较大程度地改进搜索引擎的整体性能  相似文献   

19.
XML及其在图书馆和情报检索中的应用   总被引:40,自引:4,他引:36  
与HTML 和SGML 相比, XML 更适合运用于Web 环境, 用以表达信息的语义和结构。XML 将对Web 产生重大影响, 并影响图书馆参与Web 信息资源组织和整理的方式。对HTML﹑SGML 和XML 进行了比较, 阐述了XML 影响图书馆的诸多因素, 并对用于检索XML 文档的情报检索技术和XML 对情报检索的帮助进行探讨。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号