共查询到18条相似文献,搜索用时 187 毫秒
1.
2.
基于词典约简及多分类算法的文本分类系统的设计与开发 总被引:3,自引:1,他引:2
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题. 相似文献
3.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
4.
谭金波 《现代图书情报技术》2007,2(3):39-42
探讨一种新的文档分类方法——基于本体的规则分类法。该方法首先根据分类体系建立每个类的本体,然后根据本体和规则对网页的主要标记信息进行分类。实验表明,这种方法比Rocchio分类法查全率略低,但查准率较高。 相似文献
5.
基于分类标注语料库的关键词标引知识自动获取 总被引:1,自引:0,他引:1
基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。 相似文献
6.
基于标题的中文新闻网页自动分类 总被引:1,自引:0,他引:1
借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。 相似文献
7.
基于本体进行自动分类的元搜索引擎的设计与实现 总被引:1,自引:0,他引:1
王梅文 《现代图书情报技术》2008,24(9):58-63
研究基于本体对元搜索引擎查询结果进行自动分类的方法,依据事先构建的药学本体,实现基于本体对元搜索引擎的网页结果进行自动分类的实验系统,形成层次清晰、逻辑合理的分类显示结果界面。最后对实验系统的准确度进行评价,网页分类基本取得预期的效果。 相似文献
8.
虚拟图书馆中网页的自动分类研究 总被引:1,自引:0,他引:1
臧国全 《现代图书情报技术》2002,18(3):28-31
概括了国内外对电子文本及Web网页进行自动分类的研究和试验,论述了虚拟图书馆中对网页进行自动分类与一般搜索引擎中对网页进行自动分类的区别,提出了一种用于虚拟图书馆中对网页进行自动分类的方法,并描述了按照此方法建立的“图书馆学情报学”虚拟图书馆的自动分类系统,对分类结果进行了分析。 相似文献
9.
一种HTML网页净化方法 总被引:35,自引:1,他引:35
Web网页中的“噪音”是影响基于网页内容的Web应用系统工作质量的一个重要因素 ,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一。本文提出一种网页净化的方法及相应算法。该方法以一组启发式规则为基础 ,利用信息检索的技术以及Web网页的特征 ,提取网页的主题以及和主题相关的内容 ,从而达到网页净化的目的。该方法已经应用于搜索引擎系统 (天网 )的网页消重过程以及一个网页自动分类系统。通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性。 相似文献
10.
学科分类知识库的构建及其在网络资源分类中的作用 总被引:5,自引:0,他引:5
提出利用知识库来对网络资源进行自动分类,讨论知识库中的规则体系,提出统计规 则、上下文规则和经验规则,以及这些规则在分类中的作用。 相似文献
11.
Cataloguing artworks relies on availability of classification schemes, often represented by hierarchical thesauri. After commenting on the limitation of current practices and tools, we propose a new approach for the cooperative production of multilingual and multicultural classification schemes, exploiting some features of the oncoming XML-based Web. 相似文献
12.
Robin Haunschild Hermann Schier Werner Marx Lutz Bornmann 《Journal of Informetrics》2018,12(2):436-447
One important reason for the use of field categorization in bibliometrics is the necessity to make citation impact of papers published in different scientific fields comparable with each other. Raw citations are normalized by using field-categorization schemes to achieve comparable citation scores. There are different approaches to field categorization available. They can be broadly classified as intellectual and algorithmic approaches. A paper-based algorithmically constructed classification system (ACCS) was proposed which is based on citation relations. Using a few ACCS field-specific clusters, we investigate the discriminatory power of the ACCS. The micro study focusses on the topic ‘overall water splitting’ and related topics. The first part of the study investigates intellectually whether the ACCS is able to identify papers on overall water splitting reliably and validly. Next, we compare the ACCS with (1) a paper-based intellectual (INSPEC) classification and (2) a journal-based intellectual classification (Web of Science, WoS, subject categories). In the last part of our case study, we compare the average number of citations in selected ACCS clusters (on overall water splitting and related topics) with the average citation count of publications in WoS subject categories related to these clusters. The results of this micro study question the discriminatory power of the ACCS. We recommend larger follow-up studies on broad datasets. 相似文献
13.
针对变精度粗糙集模型进行研究,提出了利用变精度粗糙集模型进行Web文档的算法。通过引入阈值β,使得用户可以通过调整β的值,实现对Web文档的不同级别的分类。试验结果表明,该算法在大大降低关键词向量维数的基础上,在保证分类准确度的前提下,有效的增加了分类的灵活性。 相似文献
14.
《Library & information science research》1999,21(2):153-172
Traditional information storage and retrieval methods used by library professionals over the last century have much to offer in the digital environment, particularly when they are combined with recent technology. A device, called Knowledge Class, was developed as a framework to integrate information organizing methods and advanced Web technology. Knowledge Class facilitates information organization based on hierarchical structures similar to those used in thesauri and classification schemes. Furthermore, it adds values to the list of hierarchical terms through built-in vocabulary controlled and pre-stored search strategies. It is coupled with an interactive graphical interface with both dynamic and static links to search engines and related Web sites. Knowledge Class was designed to be both an information-organizing device and an information access tool. The design process discussed in this article represents a new thinking on how to respond to the challenges of organizing and accessing the wealth of information on the Web. 相似文献
15.
16.
17.
一种改进的文档层次分类方法 总被引:1,自引:0,他引:1
谭金波 《现代图书情报技术》2007,2(2):56-59
在文本分类的类别数量庞大的情况下,层次分类是一种有效的分类途径。但是,常用的层次分类法容易产生“阻滞”的问题。为了解决该问题,提出一种改进型层次分类方法,即限制投票法,并运用Rocchio分类器在基础教育学科资源环境下进行了实验。结果表明,该方法能够降低阻滞,具有较好的分类效果。 相似文献
18.
基于中文词义概念的Web信息分类检索研究 总被引:2,自引:0,他引:2
通过领域范畴索引构建网上中文信息分类检索的语义环境,使主题检索受控于范畴分类,并在此基础上研究了一种新型的Web信息分类检索方法,并证明概念词检索定位在主题类目下其查准率有进一步的提高。该研究应用于多种搜索引擎查找以不同类目归类的同一内容信息时,在类目名称与实际内容不一致情况下用户也能在同一类目下找到相关内容的信息。 相似文献