共查询到18条相似文献,搜索用时 309 毫秒
1.
Web文本挖掘浅析 总被引:7,自引:0,他引:7
王连军 《现代图书情报技术》2002,18(6):38-40
首先讨论Web挖掘与Web信息检索的关系,然后重点分析Web文本挖掘,并提出Web文本挖掘的方法,包括文本特征表示、文本分类和文本聚类。最后,提出了利用Web挖掘技术实现Web智能化服务和挖掘引擎的应用。 相似文献
2.
基于领域本体实现Web文本挖掘研究 总被引:1,自引:0,他引:1
3.
Web内容挖掘在数字图书馆中的应用 总被引:3,自引:1,他引:3
Web信息是数字图书馆数字资源的重要来源,文章详细阐述了对Web内容中的文本信息的挖掘,包括:文本自动摘要、文本分类和文本聚类。在挖掘过程中基于用户需求和用户特征,针对文本分类,重点分析了分类过程和在数字图书馆中的应用;针对文本聚类,介绍两种基本聚类原理以及与文本分类的不同之处,重点论述其在数字图书馆中如何应用。最后提出内容挖掘与用户挖掘的结合更有助于服务用户。 相似文献
4.
文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量,给出Web文本相似度的计算公式并实现基于语义相似度的KNN算法.结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少计算量并提高了分类精确度. 相似文献
5.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。 相似文献
6.
随着INTERNET技术的不断发展,WWW被公认为传播信息的高效率、低成本方式。Web相当于一个巨大的信息存储库,用户可以在其中查找所需要的信息。档案界已经注重到这项新技术为档案信息资源的开发利用带来的机遇,一些档案馆已经制作了自己的Web主页。目前大部分Web主页是静态的,然而用户不仅希望在网上能看到档案工作简介等静态内容,更希望能通过互联网实现档案数据库进行查询等动态操作,本文就如何建立新兴的Web应用系统与传统数据库之间的联系,将静态文本的Web转向技术动态数据库环境的方法进行初步探讨。一、Web基本概念WWW的基本结… 相似文献
7.
8.
本文探讨了本体与语义Web的关系、本体在语义Web文本分类中的作用,并重点探讨了基于本体的语义Web文本分类的特点以及Web文本分类器的一般工作原理. 相似文献
9.
10.
11.
根据互信息、RBF神经网络和关联规则原理,提出了一种抽取WEB文本分类规则的新方法。先根据互信息选择和各类相关程度大的若干词条,然后采用RBF神经网络方法对选择的特征进行进一步提取,得到维数较小的文本特征向量空间。之后再根据挖掘出的关联规则获取WEB文本分类规则,建立文本分类器,在保证了分类精度的前提下抽取出利于理解的文本分类规则。 相似文献
12.
Anchor texts complement Web page content and have been used extensively in commercial Web search engines. Existing methods
for anchor text weighting rely on the hyperlink information which is created by page content editors. Since anchor texts are
created to help user browse the Web, browsing behavior of Web users may also provide useful or complementary information for
anchor text weighting. In this paper, we discuss the possibility and effectiveness of incorporating browsing activities of
Web users into anchor texts for Web search. We first make an analysis on the effectiveness of anchor texts with browsing activities.
And then we propose two new anchor models which incorporate browsing activities. To deal with the data sparseness problem
of user-clicked anchor texts, two features of user’s browsing behavior are explored and analyzed. Based on these features,
a smoothing method for the new anchor models is proposed. Experimental results show that by incorporating browsing activities
the new anchor models outperform the state-of-art anchor models which use only the hyperlink information. This study demonstrates
the benefits of Web browsing activities to affect anchor text weighting. 相似文献
13.
ABSTRACTThis study explores the current status and features of Pakistan's academic library Web sites. A checklist describing features and content was prepared based on a review of the literature related to academic libraries’ Web sites. Then, all 85 library Web sites of Pakistani universities and degree-awarding institutions recognized by the Higher Education Commission (HEC) of Pakistan were surveyed and analyzed using the checklist. Interviews with library professionals were conducted to learn more about the problems and issues with building and maintaining library Web sites. Results indicate that Pakistani academic library Web sites have effective features such as contrasting color schemes, easily readable text, minimal use of horizontal scrolling, and English-language text. Staff information, OPACs, and navigation features are also widely found on the Web sites. Features found less frequently include the use of Web 2.0 technologies, Web site aid tools, information about library buildings, and general library information. By offering information about the status of Pakistani academic library Web sites, the study can serve as a foundation for discussion between libraries and other parts of the university, as well as a benchmark for evaluating the progress of academic library Web sites in Pakistan 相似文献
14.
选取网络文本资源的标题识别作为切入点,除考虑多数研究关注的文本的格式信息(如字体)、位置信息等特征外,加入对标题与网页正文内容的相关度的考虑,利用科技监测项目采集到的大量历史数据作为统计分析的基础,从候选标题的可能来源和特征方面,构建基于规则的网络文本资源标题快速识别方法,并给出该方法的时间效率和识别准确率测评结果。 相似文献
15.
丁一 《现代图书情报技术》2005,21(6):26-29
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。 相似文献
16.
17.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进
行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能
够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。 相似文献