首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 28 毫秒
1.
Web网页作为巨大的数据资源,其页面信息的提取也成为研究的热点之一。通过对XML特点的分析,利用HTML Tidy将HTML文档转换成XML文档,讨论了基于XML的Web数据的提取方法,将其中有用的信息存储到数据库中,实现Web页面信息的提取。  相似文献   

2.
基于Web超链接结构信息的网页分类技术研究   总被引:1,自引:0,他引:1  
充分利用相邻网页(包括链人和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法.其方法分为5步:(1)预处理训练集,提取文本信息和超链接结构信息;(2)抽取特征向量和训练一个Web页面的全文本分类器;(3)根据网页的各个人口的锚点文本和扩展锚点文本创建虚文档,用虚文档代替Web页面全文本训练一个虚文档分类器;(4)利用Naive Bayes方法协调两个分类器得到初步分类结果;(5)利用链出网页对初步分类结果进行修正,得到最终分类结果.根据改进方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能.  相似文献   

3.
针对Web信息主体的多元化和Web表现形式的异构化,开发了一种基于主体知识库的Web信息提取系统,通过主体的知识库来识别要提取内容的位置,从而能够有效提取出用户所关注的主体的属性信息。实验表明,该系统具有很好的通用性,能够较好地完成对半结构化Web信息主体的提取工作。  相似文献   

4.
Web上有大量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。相对于Web的数据而言。传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言的。显然。面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。  相似文献   

5.
Web服务器原本是为静态HTML文档以及其他相关静态文件设计的 ,这样 ,和它通信的Web浏览器就只能显示在页面请求和显示过程之间文档内容不变化的页面 ,显然这就不能满足用户的要求、体现INTERNET网络的丰富功能。CGI就是为了解决这个问题而制定的 ,它在Web浏览器和服务器之间建立了标准的信息交换方式 ,为用户提供更多的动态的、有趣的内容。本文主要介绍了CGI的原理及其相关知识  相似文献   

6.
基于表格结构及列表结构Web信息源提出了Web页面信息抽取的方法.可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组,存放在数据库中.  相似文献   

7.
网络课程中非结构化学习资源有效应用的思考   总被引:2,自引:0,他引:2  
基于Web2.0技术产生的非结构化学习资源对于网络学习者的社会化发展具有重要意义。非结构化学习资源是那些来源不确定、结构模糊、内容动态变化、缺乏稳定性的学习资源,资源本身没有经过专门的教学设计,资源之间也没有明显的相关性。非结构化学习资源有六种表现形式,其有效应用的前提是建立非结构化学习资源的组织环境和资源管理机制。  相似文献   

8.
由于物联网中非结构化信息占比较大,且信息增速较快,为解决现有方法无法有效处理海量非结构化信息的特征,存在特征提取结果准确性不高与耗时较长的问题,提出物联网中非结构化信息特征自动提取方法.依据非结构化信息描述概念,构建一个四面体结构,实现对非结构化数据的整体描述.采用小波降噪方法去除非结构化信息中的非正常流信息,保证特征...  相似文献   

9.
比较几种主要Web查询语言特点,介绍半结构化数据产生原因并分析半结构数据模式对改进Web查询的重要作用。  相似文献   

10.
什么是WWW     
《中小学电教》2003,(1):57-57
WWW是World Wide Web的缩写,中文为万维网,简称3W、W3、Web,是在全世界范围内所有位于HTTP服务器上相互链接的超文本文档。位于WWW上的文档称为页面或Web页面。用HTML语言编写,并使用URL进入标识,URL指明了特定的计算机和路径名,用户通过它可对文件进行访问,并在HTTP协议下将文件在节点间进行传输,直至传输到最终用户。也许只是一个击键或鼠标单击动作,  相似文献   

11.
知识库是一种结构化、易于操作、有组织的知识集群。针对Wikidata这一开放知识库的内容及结构,提出一种构建标签云的方法,对信息进行标签化处理,并将转换得到的标签向量应用于信息检索和页面排序。首先,提取Wikidata中的结构化数据,构建以实体为单位的标签云;然后,将需要检索的文档和用户的检索语句映射为相应的标签,并采用处理向量的相关方法实现网页的排序算法;最后,采用信息检索常用的标准对该算法进行验证。实验结果表明,与传统的基于关键词的搜索方法相比,新算法在一定程度上能够提高页面排序的准确率。  相似文献   

12.
随着Web上的信息量剧增,大量有价值的信息隐藏于非结构化文档中,Web数据挖掘的作用愈显重要。本文从Web数据挖掘的定义与分类开始分析,介绍了Web数据挖掘的主要技术以及其在检验检疫管理中的应用实例和实现方法。  相似文献   

13.
作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%.  相似文献   

14.
数据库驱动的Web站点根据查询产生的Web页结构布局都是极其相似的;现有的Web提取方法忽视或者忽略了这种相似性,因而在提取效率性能和通用性上都有较大的限制。本文提出一种基于标签树相似度的模板自动学习方法;进而根据模板来提取这类网页的数据;并利用Eclipse和开源HTML Parser对算法进行了实现;实验结果表明该算法具有较快的提取速度和较好的准确率。  相似文献   

15.
基于URL路径的Web信息检索模型的研究   总被引:1,自引:0,他引:1  
Web的结构信息可以揭示许多蕴涵在Web内容之外的隐含的有用信息,如Web页面的URL可以反映页面的类型,也可以在一定程度上反映页面间在存储位置和内容方面的层次关系。详细介绍了一种基于URL路径的个性化Web智能信息检索模型以及实现方法。  相似文献   

16.
半结构化数据OEM图的获取及应用   总被引:1,自引:0,他引:1  
探讨如何从数据集成,电子文档及web网页三种数据源中获取描述数据半结构化特性的有向标注图(OEM图),并例举了半结构化数据的实际应用。  相似文献   

17.
以鞍山师范学院图书馆网站为样本,利用Awstats软件从Web日志文件中提取访问量、点击量、浏览页面量、访问时间和访问来源等指标的数据,采用SPSS软件对数据进行描述性和推断性分析,并进行深入挖掘。根据相关分析结果对鞍山师范学院图书馆用户信息行为相关问题进行分析,并提出了相应解决对策。  相似文献   

18.
引入一种新的基于词频的数据自动检索网页的模型,它结合Web页面使用了全新的特征词汇提取公式,在保持精确率的情况下同时获得较高回现率,为精确描述Web页面提供了依据.同时该模型还能减少检索中存在的一致性的问题,简化Web页面索引维护工作量.  相似文献   

19.
本文介绍了Internet/Intranet动态信息管理系统,系统采用Intranet+Web数据库结构,在服务器端用Perl程序可根据用户要求自动生成ASP页面和HTML页面,可通过Web界面直接操作后台数据库,利用提供的工具可根据用户要求方便、快捷地生成完整的、可扩充的、灵活的网上动态信息管理系统。  相似文献   

20.
面向Web的数据挖掘是当今数据挖掘技术的热点。XML作为直接面向Web数据、基于Internet上的一种新的数据管理手段,为面向Web的数据挖掘带来了便利。分析了Web数据挖掘的特点和XML语言的优点,提出了运用XML解决Web数据挖掘中半结构化数据的模型抽取方法,最后对该方法进行了实例说明。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号