首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识),它提供了一条从浩瀚的信息堆积中抽取出与用户相关信息的一条思路.文章分析了信息抽取的概念、主要分析了信息抽取的类型和功能.随着信息抽取技术走向成熟,必将在未来的互联网及数字化图书馆中发挥重大的作用.  相似文献   

2.
伴随着互联网的飞速发展,网络上的信息资源呈现出井喷态势,如何从海量的信息中抽取出自己需要的信息已经变得越发的困难。在分析现有Web信息抽取技术现状及面临的挑战的基础上,设计了一种基于文本标签属性的Web新闻信息抽取模型。主要介绍了基于标签的Web信息抽取技术的算法,给出了信息抽取的具体实现过程,对基于DOM树节点遍历的文本标签过滤算法进行了描述,并选取了主流的新闻网站进行了抽取实验,验证了算法的可行性。  相似文献   

3.
信息抽取技术内涵及应用   总被引:2,自引:0,他引:2  
本论述了信息抽取与信息检索、自动的区别,信息抽取所需涉及的自然语言处理技术,中信息自动抽取的目的、任务和技术内涵;然后介绍了信息抽取技术在信息处理中的应用。  相似文献   

4.
随着网络招聘的普及,求职者需要浏览和筛选的数据越来越多,如何从大量的、非结构化的网络信息中快速而准确地抽取需要的信息非常重要。基于VIPS视觉分割算法,利用网页所呈现出来的布局结构和视觉特征,对招聘页面进行视觉分割处理,在页面分割的基础上,抽取特定块内的文本信息,实现了关键词查找抽取感兴趣的视觉块内信息。实验结果表明,基于VIPS的职位信息抽取技术能够有效抽取出招聘页面内重要的文本信息,优化了信息抽取结果。  相似文献   

5.
陈慧炜 《文教资料》2010,(18):116-117
公安领域存在大量非结构化案件文本,使人工查询与整理存有困难。信息抽取作为应对海量信息的一门技术,能够有效处理案件信息的结构化问题。本文总结了目前信息抽取的方法技术,在实体识别、触发词获取和事件抽取等子任务方面所达到的水平,以及信息抽取在公安领域案件文本中的应用情况,并提出了未来的研究趋势。  相似文献   

6.
信息抽取是数据挖掘和知识发掘的重要方法,基于规则自动化或半自动化地从互联网中提取准确有效的数据是知识挖掘的关键.本文构建了一个通用文本信息抽取平台,采用多种信息匹配技术从网络数据源中抽取数据和信息,并采用规则处理方式对网页信息进行智能化抽取.该平台采用Eclipse RCP开发,对其功能可进行插件式扩充,在业务逻辑上采用规则引擎.该平台具有界面友好、易于扩展、使用方便等特点,并能够从大规模网页中自动地获取有效的数据和信息.  相似文献   

7.
信息抽取的主要目的是从无结构的自然语言文本中抽取特定的事件、事实等信息,再转化为结构化或半结构化的信息。  相似文献   

8.
从自然语言处理技术(NLP)入手,对比TFIDF与Word2vec方法抽取结果,探讨更适用于中医医案症状信息自动化抽取的研究思路,为发展中医医案的自动化分析提供参考.在构建好的医案词典基础上,利用TFIDF与Word2vec方法分别对心系医案数据进行症状抽取,并对结果进行对比分析.在医案中,病人发病往往伴有心悸、胸闷、...  相似文献   

9.
由于当前信息抽取系统因知识库结构和内容的不同带来的搜索质量问题,将本体引入信息抽取中,有助于信息抽取系统对领域内的概念和概念之间的联系的统一认识,为用户提供更有价值的信息。提出了基于本体的文本信息抽取算法,通过本体元素描述抽取的文本信息。最后,利用此算法对某领域样本Web页面进行抽取并分析。实验表明性能有所提高。  相似文献   

10.
肖群 《教育技术导刊》2010,9(6):170-173
铁路运输、公路运输、水路运输和航空运输等系统中积累了大量的原始数据信息,为了有效地从这些异地的海量数据信息中抽取知识给无缝运输管理者提供决策支持,结合网格技术和数据挖掘技术提出了一个基于无缝运输信息网格(STIG)的并行数据挖掘方案。该方案的架构包括四层:用户层、挖掘任务分析和管理层、计算层、数据层。该方案的实现主要涉及数据挖掘算法服务的发现、数据分配和大数据源的分布式处理等技术。  相似文献   

11.
作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%.  相似文献   

12.
介绍了基于XML技术的WEB信息抽取方法.搭建了WEB信息抽取的三层数据模型,重点在于数据抽取层,在该层先借助于Tidy工具将HTML转换成XHTML,通过Path路径定位与抽取内容相关的锚,再利用XSL将抽取结果映射成XML文件.该XML文件可以直接作为辅助决策的信息源,也可以直接存入数据库为其他所用.这是由非结构化数据向结构化数据转换的一种方法,为应用程序利用WEB中的数据提供了可能.并实现了有关天气预报信息抽取的系统实例,抽取规则简单、健壮,代码移植性好.  相似文献   

13.
Web信息抽取是Web数据挖掘、机器翻译等应用的基础,是当今的一个研究热点。在分析了已有的Web信息抽取方法基础上,对有待进一步研究的方向进行了展望。  相似文献   

14.
新闻正文信息提取对信息检索、存储和舆情监测等具有极其重要的意义。为实现新闻信息的正确提取,考虑到DOM等几种技术的优势,结合DOM技术、动态型网页信息抽取技术和行块分布算法等技术优点,重点研究了新闻信息的提取方法,尤其针对动态网页的信息提取,设计了一套有效的新闻正文信息提取方法。实验结果表明,该方法能有效实现新闻的正文信息抽取,准确率高,具有一定推广价值。  相似文献   

15.
Web信息抽取的现状及未来展望   总被引:2,自引:0,他引:2  
Web信息抽取是Web数据挖掘、机器翻译等应用的基础,是当今的一个研究热点。在分析了已有的Web信息抽取方法基础上,对有待进一步研究的方向进行了展望。  相似文献   

16.
随着专业市场的发展,如何帮助客户快速定位所需商品成为一个较重要的问题。基于Web信息抽取技术,通过Web Crawler工具获取中大布匹商圈的主要电商网站的镜像,根据客户需求建立抽取规则,得到信息抽取模板,最后根据抽取模板将获得的文本信息存入数据库并展示给客户。同时,开发移动终端应用程序"导购助手",通过地址指引、商品介绍、客户商家自动匹配等方式为用户提供专业、有效的导购服务。项目的应用实践表明,"导购助手"能为客户提供快速有效的导购服务。  相似文献   

17.
基于用户兴趣文本的个性化信息服务研究   总被引:3,自引:0,他引:3  
个性化信息服务为用户提供符合个人需要的服务。而要真正做好个性化服务,必须深入开展用户研究,分析用户的真正需求。用户在网上获得信息的方式主要是通过浏览文本,所以,从文本中抽取特征是分析用户兴趣的有效途径。  相似文献   

18.
基于表格结构及列表结构Web信息源提出了Web页面信息抽取的方法.可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组,存放在数据库中.  相似文献   

19.
随着互联网的不断发展,信息抽取技术也在不断革新与进步,将植物描述信息结构化,对于植物分类学和植物标本的采集鉴定等进一步的深入研究具有重要意义。文章结合实体属性抽取技术,构建了植物信息知识库,从而实现了一个新型的植物问答系统,使用户能直接得到准确具体的答案。  相似文献   

20.
随着信息化的深入发展,各应用领域积累了大量采用半结构化方式记录的文本数据。为了快速有效地从大规模面向领域的半结构化文本中抽取有用信息,信息抽取技术应运而生。文本信息抽取的核心算法之一是计算词或短语的相似度,针对面向领域的半结构化文本中的中文短语相似度计算,先采用模式匹配算法从原始半结构化文本中抽取中文短语,然后结合领域语义依存关系,对基于公共子串的短语相似度计算方法进行改进,以此提高短语相似度计算的可靠性。实验结果表明,所提算法具有较好的计算效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号