首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 339 毫秒
1.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

2.
曹进军 《情报杂志》2007,26(7):55-58
信息抽取器在信息抽取领域是一个很重要的部分,而抽取器的研制通常要依靠抽取规则来实现。以前是利用使用者的使用模式或记录,找出相关的抽取规则。而利用PAT Tree可以直接从半结构化的Web的资料中,找出抽取规则。  相似文献   

3.
Web挖掘过程和元数据的运用   总被引:1,自引:2,他引:1  
刘俊熙 《情报杂志》2004,23(2):30-31,33
当数据挖掘的对象完全由Web这种数据类型组成时 ,这个过程就称为Web挖掘。面向Web挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。所以寻找和定义一个半结构化的数据模型是Web挖掘的关键 ,通过元数据来清晰地描述Web半结构化的数据结构 ,为Web挖掘提供基本条件。  相似文献   

4.
基于模式匹配抽取技术的网上产品情报获取   总被引:1,自引:0,他引:1  
产品生命周期的逐渐缩短迫使企业关注从因特网上大量、散乱的信息中及时获取新产品信息,跟踪竞争对手研发动向。本文引入基于模式匹配的自动Web信息抽取技术,叙述抽取产品的关键信息方法,并以家用冰箱性能参数信息的自动抽取为例,分析了冰箱领域知识,进行了样本页面的分析归纳,确认了冰箱产品的多种属性及产品信息抽取的模式特征,最终获得了清晰、结构化的产品数据,形成从Web页面上抽取同类产品关键信息的整个处理流程模型,成为网络环境下情报采集与分析的新情报研究模式的一个有力探索。  相似文献   

5.
本文阐述了利用XML将半结构化Web数据转化为结构化的XML数据,介绍了目前Web数据抽取的最新技术及特点,并对无监督学习网页重复模式发现网页内在模板抽取方法进行了深入的研究和探讨。  相似文献   

6.
史旗凯  郭菊娥 《情报杂志》2007,26(12):90-92
为了有效利用管理领域所产生的大量信息,在论述信息抽取的特征、技术现状与发展趋势的基础上,提出了管理事件的定义、特征及其信息填充模板的结构化构成,描述和解答了管理事件信息抽取的过程与常见问题,并认为集成了知识工程和自然语言处理技术的管理事件信息抽取系统必将推动信息管理研究的深入发展和实际管理绩效的显著改进。  相似文献   

7.
利用Web挖掘技术实现个性化推送服务   总被引:3,自引:0,他引:3  
王凯  渠芳  王辉 《情报杂志》2006,25(11):86-88
利用Web挖掘技术可以从大量的Web文档和Web活动中发现和抽取有用的信息,可以使资源了解用户交互行为数据中所包含的意义。因此,可以使用该技术实现个性化推送服务。构造了一个基于Web挖掘的个性化推送模型,并阐述了如何实现此模型,提出了结合Web使用、页面内容和站点拓扑结构算法,利用此算法来实现生成频繁访问路径集,得到的结果有显著改善。  相似文献   

8.
分析了信息抽取的研究现状,提出了一种基于领域本体的Web信息抽取模型,对模型中的各部分功能进行了简要说明,明确了信息抽取的系统流程,提高了信息抽取效率。  相似文献   

9.
李元臣  刘维群 《情报杂志》2006,25(12):28-29
网络文本挖掘是从非结构化的文本中发现潜在的、有价值知识的一种有效技术,要使检索到的信息在满足用户个性化需求方面,既具有高准确率又有高回收率,则是一件很困难的事情。为了解决以上问题,在介绍特征提取概念的基础上提出了一个基于遗传算法的Web文本特征抽取算法,该算法进一步提高了Web文本的处理效率。  相似文献   

10.
翟东升  余旸 《情报杂志》2005,24(8):33-35
提出了一个应用于国际贸易技术壁垒预警系统中的网页表格信息抽取的可行性方案。数据抓取从对Web页的HTML源代码分析入手,采取基于Ontology的抽取方法,结合一系列成熟模型,进而建立网页信息采集系统并且通过测试。实验结果表明该方案切实可行,且抓取具有较快的速率和较高的准确性。  相似文献   

11.
张学进  徐奋强 《现代情报》2012,32(7):161-165
随着多媒体技术和互联网的迅速发展,图像已成为一种应用广泛的信息资源。本文通过对大学生群体网络图像查寻行为特点的分析研究,旨在探索图像查寻行为的一般规律和特点。首先,本文对国内外用户信息查寻行为的研究文献进行系统调研。然后,建立用户图像查寻行为研究模型,包括用户特征、知识经验、查寻需求和行为特征4个维度。随后,采用个案访谈和问卷调研法,针对模型中主要因素与调研对象进行深入交流和大样本数据分析。最后,就调研结果进行总结,归纳出大学生群体网络图像查寻行为的一些特点。  相似文献   

12.
企业信息资源网站的定位、聚类和综合评价模型研究   总被引:2,自引:0,他引:2  
李东旻 《情报科学》2005,23(5):767-772
本文着力研究企业信息资源网站的定位、聚类以及其综合评价模型,运用情报学的对应分析、软件工程的快速原型等方法,针对中国不同行业的企业样本网站进行横向评价,分析其定位和聚类规律,总结数据处理流程,构建企业信息资源网站评价系统的模型。  相似文献   

13.
邹益民  张智雄 《科研管理》2016,37(10):129-136
为帮助科研人员从海量的网络科技信息中发现高情报价值的信息资源,提高其网络信息的利用效率,本文通过对知识对象属性及对象间相互关系进行计算,提出网络科技信息情报价值判断的新思路,具体包括三个部分:基于对象及其行为构建情报关注模型,对科研人员的先验证知识进行结构化描述;基于对象网格实现网络科技信息中重要对象及其行为的识别,对网络资源中蕴含的重要情报线索进行揭示;通过计算二者的匹配度对网络资源的情报价值进行判断。选取美国能源部网站发布的科技信息作为实验数据,验证了知识对象及对象间关系在情报价值判断中的重要作用。  相似文献   

14.
语义网环境下的信息资源整合模式   总被引:1,自引:0,他引:1  
章成志  苏新宁  邓三鸿 《情报科学》2006,24(9):1335-1338
语义网是当前WWW的扩展,其目标是帮助人类和计算机更好地协同工作。作者分析了语义网环境下信息资源整合的背景、特点及体系结构,本体在数据层、元数据层和表现层等三个信息资源整合层面上的应用模式,指出亟待解决的问题。  相似文献   

15.
基于遗传算法的主题信息搜索系统研究   总被引:1,自引:0,他引:1  
罗长寿  康丽  刘国靖 《现代情报》2009,29(3):176-178
针对网络信息资源“迷向”与“过载”的现象,本文通过对遗传算法的分析应用,构建了由基于遗传算法的主题爬虫、信息处理和查询服务三部分组成的主题信息搜索系统。实验结果表明,应用该系统可以获取与主题相关度高的网页信息。  相似文献   

16.
WEB医学信息资源的识别和获取   总被引:1,自引:0,他引:1  
何丽娟 《现代情报》2007,27(5):70-71
随着Web医学信息资源的日益普及和丰富,Web医学信息资源的采集就显得尤为重要,本文在分析Web网页文档特点的基础上,探讨了Web医学信息资源的识别和获取方法。  相似文献   

17.
丁金龙 《现代情报》2010,30(3):67-70,75
随着个性化时代的到来,信息服务机构必须提供个性化服务,才有可能在激烈的竞争中取得胜利。web数据挖掘技术是实现个性化信息服务的关键技术。在构建基于web数据挖掘的个性化信息服务的实现模型后,还对建立在web数据挖掘基础上的个性化信息服务系统运行的基本流程、web挖掘的数据资源、web挖掘的技术方法、信息系统的服务内容、系统运行的注意事项等进行了探讨。  相似文献   

18.
网页信息抽取包装器的生成方法很多,按自动化程度可分为手工、半自动和全自动三类,本文旨在研究全自动生成网页信息抽取包装器的主要技术方法,首先构建了对应的分类体系;其次对近年来主流的15种包装器生成技术进行了定性分析和分类比较;最后提出5点发展趋势。  相似文献   

19.
This paper talks about several schemes for improving retrieval effectiveness that can be used in the named page finding tasks of web information retrieval (Overview of the TREC-2002 web track. In: Proceedings of the Eleventh Text Retrieval Conference TREC-2002, NIST Special Publication #500-251, 2003). These methods were applied on top of the basic information retrieval model as additional mechanisms to upgrade the system. Use of the title of web pages was found to be effective. It was confirmed that anchor texts of incoming links was beneficial as suggested in other works. Sentence–query similarity is a new type of information proposed by us and was identified to be the best information to take advantage of. Stratifying and re-ranking the retrieval list based on the maximum count of index terms in common between a sentence and a query resulted in significant improvement of performance. To demonstrate these facts a large-scale web information retrieval system was developed and used for experimentation.  相似文献   

20.
基于信息交互模型的企业Web展示   总被引:1,自引:0,他引:1  
荣毅虹  田也壮  梁战平 《情报科学》2006,24(4):603-606,611
Web展示是电子商务关注的重要内容之一,网站信息展示的优劣更关系到商家的生死存亡。本文从用户在信息获取过程中与信息系统的信息交互视角出发,提出了构建网站环境信息提升Web展示质量的观点。首先,探讨了电子商务时代企业Web展示的作用及当前存在的问题;其次,论述了网络用户的信息交互过程和模型;最后,提出了构建网站环境信息的理念和方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号