首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
为了提高网页自动分类的准确率,基于信息融合的模型理论,提出了一种通用的网页自动分类模型和融合算法。该模型根据完成功能的不同分为四个层次:信息抽取层、数据预处理层、特征层和决策层,其中特征层是针对网页上不同种类的媒体信息采用不同的分类方法进行分类,并将分类结果分别输入决策层和与该特征层算法相关的其他的特征层。决策层是处理特征层的分类结果,并推导出最终的网页分类融合结果,并将该模型和算法进行了实现。实验表明,文章提出的融合模型和算法可以有效地改进网页自动分类准确率。  相似文献   

2.
基于词典约简及多分类算法的文本分类系统的设计与开发   总被引:3,自引:1,他引:2  
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题.  相似文献   

3.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

4.
探讨一种新的文档分类方法——基于本体的规则分类法。该方法首先根据分类体系建立每个类的本体,然后根据本体和规则对网页的主要标记信息进行分类。实验表明,这种方法比Rocchio分类法查全率略低,但查准率较高。  相似文献   

5.
基于分类标注语料库的关键词标引知识自动获取   总被引:1,自引:0,他引:1  
基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。  相似文献   

6.
基于标题的中文新闻网页自动分类   总被引:1,自引:0,他引:1  
借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。  相似文献   

7.
基于本体进行自动分类的元搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
研究基于本体对元搜索引擎查询结果进行自动分类的方法,依据事先构建的药学本体,实现基于本体对元搜索引擎的网页结果进行自动分类的实验系统,形成层次清晰、逻辑合理的分类显示结果界面。最后对实验系统的准确度进行评价,网页分类基本取得预期的效果。  相似文献   

8.
虚拟图书馆中网页的自动分类研究   总被引:1,自引:0,他引:1  
概括了国内外对电子文本及Web网页进行自动分类的研究和试验,论述了虚拟图书馆中对网页进行自动分类与一般搜索引擎中对网页进行自动分类的区别,提出了一种用于虚拟图书馆中对网页进行自动分类的方法,并描述了按照此方法建立的“图书馆学情报学”虚拟图书馆的自动分类系统,对分类结果进行了分析。  相似文献   

9.
一种HTML网页净化方法   总被引:35,自引:1,他引:35  
张志刚  陈静  李晓明 《情报学报》2004,23(4):387-393
Web网页中的“噪音”是影响基于网页内容的Web应用系统工作质量的一个重要因素 ,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一。本文提出一种网页净化的方法及相应算法。该方法以一组启发式规则为基础 ,利用信息检索的技术以及Web网页的特征 ,提取网页的主题以及和主题相关的内容 ,从而达到网页净化的目的。该方法已经应用于搜索引擎系统 (天网 )的网页消重过程以及一个网页自动分类系统。通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性。  相似文献   

10.
学科分类知识库的构建及其在网络资源分类中的作用   总被引:5,自引:0,他引:5  
提出利用知识库来对网络资源进行自动分类,讨论知识库中的规则体系,提出统计规 则、上下文规则和经验规则,以及这些规则在分类中的作用。  相似文献   

11.
Cataloguing artworks relies on availability of classification schemes, often represented by hierarchical thesauri. After commenting on the limitation of current practices and tools, we propose a new approach for the cooperative production of multilingual and multicultural classification schemes, exploiting some features of the oncoming XML-based Web.  相似文献   

12.
One important reason for the use of field categorization in bibliometrics is the necessity to make citation impact of papers published in different scientific fields comparable with each other. Raw citations are normalized by using field-categorization schemes to achieve comparable citation scores. There are different approaches to field categorization available. They can be broadly classified as intellectual and algorithmic approaches. A paper-based algorithmically constructed classification system (ACCS) was proposed which is based on citation relations. Using a few ACCS field-specific clusters, we investigate the discriminatory power of the ACCS. The micro study focusses on the topic ‘overall water splitting’ and related topics. The first part of the study investigates intellectually whether the ACCS is able to identify papers on overall water splitting reliably and validly. Next, we compare the ACCS with (1) a paper-based intellectual (INSPEC) classification and (2) a journal-based intellectual classification (Web of Science, WoS, subject categories). In the last part of our case study, we compare the average number of citations in selected ACCS clusters (on overall water splitting and related topics) with the average citation count of publications in WoS subject categories related to these clusters. The results of this micro study question the discriminatory power of the ACCS. We recommend larger follow-up studies on broad datasets.  相似文献   

13.
针对变精度粗糙集模型进行研究,提出了利用变精度粗糙集模型进行Web文档的算法。通过引入阈值β,使得用户可以通过调整β的值,实现对Web文档的不同级别的分类。试验结果表明,该算法在大大降低关键词向量维数的基础上,在保证分类准确度的前提下,有效的增加了分类的灵活性。  相似文献   

14.
Traditional information storage and retrieval methods used by library professionals over the last century have much to offer in the digital environment, particularly when they are combined with recent technology. A device, called Knowledge Class, was developed as a framework to integrate information organizing methods and advanced Web technology. Knowledge Class facilitates information organization based on hierarchical structures similar to those used in thesauri and classification schemes. Furthermore, it adds values to the list of hierarchical terms through built-in vocabulary controlled and pre-stored search strategies. It is coupled with an interactive graphical interface with both dynamic and static links to search engines and related Web sites. Knowledge Class was designed to be both an information-organizing device and an information access tool. The design process discussed in this article represents a new thinking on how to respond to the challenges of organizing and accessing the wealth of information on the Web.  相似文献   

15.
基于网易的网络信息分类体系研究   总被引:1,自引:0,他引:1  
文章针对目前网络信息混乱,不利于用户查找的现状,从网络信息类目设置原则、类目级别、类目数量、类目关系等方面对网易的分类体系进行了初步研究;同时结合传统信息分类方法,在剖析网易分类体系自身特点的基础上,初步探讨了目前网络信息分类存在的一些问题,及在构建网络信息时所应考虑的因素和改进建议,以期为改善国内网络信息分类体系提供参考。  相似文献   

16.
目前,在网页分类中,对HTML主要结构特征进行加权的常用方法是绝对数值加权方法.这种方法的缺点是加权系数为定值,其对长文本和短文本所起的作用不同,使得结构特征对正文的影响随着正文长度的增加而削弱.针对该缺点,本文提出了一种改进型加权方法,即相对数值加权方法.通过网页层次分类的实验,比较了这两种方法对单个标签域以及多个标签域结合的分类性能.实验结果表明,相对数值加权方法能有效提高分类的精确度,并且效果优于绝对数值加权方法.  相似文献   

17.
一种改进的文档层次分类方法   总被引:1,自引:0,他引:1  
在文本分类的类别数量庞大的情况下,层次分类是一种有效的分类途径。但是,常用的层次分类法容易产生“阻滞”的问题。为了解决该问题,提出一种改进型层次分类方法,即限制投票法,并运用Rocchio分类器在基础教育学科资源环境下进行了实验。结果表明,该方法能够降低阻滞,具有较好的分类效果。  相似文献   

18.
基于中文词义概念的Web信息分类检索研究   总被引:2,自引:0,他引:2  
通过领域范畴索引构建网上中文信息分类检索的语义环境,使主题检索受控于范畴分类,并在此基础上研究了一种新型的Web信息分类检索方法,并证明概念词检索定位在主题类目下其查准率有进一步的提高。该研究应用于多种搜索引擎查找以不同类目归类的同一内容信息时,在类目名称与实际内容不一致情况下用户也能在同一类目下找到相关内容的信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号