首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
基于统计的自动分类是网页层次分类中常用的技术,但其有不足之处,主要表现为当子类之间出现严重的特征交叉现象时,分类精确率将大大下降。而网页层次分类的本质决定了同一大类下的子类存在许多相同的特征。针对这一局限性,结合基于规则的自动分类技术的优点,提出一种基于统计-规则方法的网页层次分类技术。实验表明,基于统计-规则方法的网页层次分类技术能够获得比较理想的分类效果。  相似文献   

2.
基于层次分类体系的知识地图自动构建方法研究   总被引:1,自引:0,他引:1  
知识地图是组织实施知识管理的有效工具.随着组织中知识资源存储量的日益增加,手工编制知识地图的方式显得非常低效,甚至难以完成.针对组织中以文本形式大量存在的显性知识,提出了一种基于层次分类体系的知识地图结构,并提出了一个以层次分类方法为核心的知识地图自动生成方法,用来自动构建符合组织需求的知识地图.最后通过实验验证了该层次分类方法的有效性,并给出结论.  相似文献   

3.
多层次web文本分类   总被引:8,自引:0,他引:8  
凌云  刘军  王勋 《情报学报》2005,24(6):684-689
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系。根据LSA理论提出了一种多层次web文本分类方法。建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类。这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题。同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式。实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好。  相似文献   

4.
何琳  侯汉清 《中国索引》2006,4(1):39-43
由于《中国图书馆分类法》的类目数目庞大和文献在各类目上分布的不均衡,导致基于机器统计学习的自动分类技术在此类多层分类上的力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过两种分类技术相结合的方法对信息资源进行分类,提出了用相关度度量来测定关键词和类目概念之间的关联,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配,并在小规模的测试集上得到了较好的效果。本文详细讨论此种分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。  相似文献   

5.
目前,在网页分类中,对HTML主要结构特征进行加权的常用方法是绝对数值加权方法.这种方法的缺点是加权系数为定值,其对长文本和短文本所起的作用不同,使得结构特征对正文的影响随着正文长度的增加而削弱.针对该缺点,本文提出了一种改进型加权方法,即相对数值加权方法.通过网页层次分类的实验,比较了这两种方法对单个标签域以及多个标签域结合的分类性能.实验结果表明,相对数值加权方法能有效提高分类的精确度,并且效果优于绝对数值加权方法.  相似文献   

6.
情感分类中情感词的情感倾向度的计算方法研究   总被引:1,自引:0,他引:1  
情感分类由于具有广泛的应用价值,成为当前的一个研究热点,然而情感词的情感度的准确确定一直是影响情感分类准确性的关键.本文针对当前情感词情感度确定中存在的问题和不足,提出一种基于改进的模糊层次分析法的情感词情感度的计算方法.该方法充分发挥了人和计算机的优点和长处,既能提高情感词情感度确定的科学准确性和情感检索的精准性,又可以减轻人的负担.  相似文献   

7.
结合粗糙集的属性约简和RBF神经网络的分类机理,提出一种新的文本分类混合算法。试验结果表明,与朴素贝叶斯、SVM、kNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本。  相似文献   

8.
一种基于类别信息的文本自动分类模型   总被引:2,自引:0,他引:2  
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。  相似文献   

9.
为了提高网页自动分类的准确率,基于信息融合的模型理论,提出了一种通用的网页自动分类模型和融合算法。该模型根据完成功能的不同分为四个层次:信息抽取层、数据预处理层、特征层和决策层,其中特征层是针对网页上不同种类的媒体信息采用不同的分类方法进行分类,并将分类结果分别输入决策层和与该特征层算法相关的其他的特征层。决策层是处理特征层的分类结果,并推导出最终的网页分类融合结果,并将该模型和算法进行了实现。实验表明,文章提出的融合模型和算法可以有效地改进网页自动分类准确率。  相似文献   

10.
国家全部档案分类的层次性和多元性是档案分类的又一特点.所谓层次性,不是就某种分类法来说有层次,而是从国家全部档案来说,它有不同层次的分类,即不同级别的分类,不同层次的分类又往往各有不同的方法,这许多不同的分类方法,构成了档案分类的多元性.  相似文献   

11.
[目的/意义] 研究政府数据分类分级授权协议的制定与应用,旨在为政府数据授权方式提供参考,并推动政府数据安全管理与开放利用。[方法/过程] 利用网络调查法,对国外政府数据开放平台进行调查,掌握其政府数据分类分级授权协议的应用情况,且进行深入比较分析。同时,立足我国实际,吸收国外政府的有益经验,提出对制定我国政府数据分类分级授权协议的建议与内容设想。[结果/结论] 国外政府大多都采用多种类型的数据授权协议,能够为各类型数据安排合适的开放利用方式。我国应立足实际,在明确豁免开放数据类型、数据开放方式、数据开放利用主体权责的前提下,厘清数据许可对象及其权属,制定出适用于我国的政府数据分类分级授权协议。  相似文献   

12.
探讨一种新的文档分类方法——基于本体的规则分类法。该方法首先根据分类体系建立每个类的本体,然后根据本体和规则对网页的主要标记信息进行分类。实验表明,这种方法比Rocchio分类法查全率略低,但查准率较高。  相似文献   

13.
Cataloguing artworks relies on availability of classification schemes, often represented by hierarchical thesauri. After commenting on the limitation of current practices and tools, we propose a new approach for the cooperative production of multilingual and multicultural classification schemes, exploiting some features of the oncoming XML-based Web.  相似文献   

14.
中图法以学科和知识分类为基础,选择单一的分类标准,用层进的方式建立严谨的学科分类体系;而自编等级式分类法,依据资源本身和用户群特点,由网络浏览者制定、选择多个标准,通过多重列类法来实现纵向和交叉关系的类目分类。将信息资源分为学术性和非学术性,利用中图法的优势分类学术性资源;利用自编等级式的类目优势,分类非学术性信息资源。利用学术性和非学术性资源间重叠的类目,建立两个大类间的联系,方便用户快速、准确地获得信息。  相似文献   

15.
本文分析了传统定标比超方法的思想和缺陷,提出将传统情报分析方法与智能分析技术相结合,构建了融合文本自动分类的竞争情报定标比超分析模型。本文提出构建定标比超内容层次指标体系,将其作为文本自动分类的分类体系。两种方法相辅相成、相互优化,实现竞争情报的良性循环型、科学的智能分析。进而,深入研究了该模型的功能任务和情报分析过程与算法。最后,从科学性、时效性、全面性、准确性和动态性方面对该模型进行了性能评价。  相似文献   

16.
Hierarchical Text Categorization (HTC) is the task of generating (usually by means of supervised learning algorithms) text classifiers that operate on hierarchically structured classification schemes. Notwithstanding the fact that most large-sized classification schemes for text have a hierarchical structure, so far the attention of text classification researchers has mostly focused on algorithms for “flat” classification, i.e. algorithms that operate on non-hierarchical classification schemes. These algorithms, once applied to a hierarchical classification problem, are not capable of taking advantage of the information inherent in the class hierarchy, and may thus be suboptimal, in terms of efficiency and/or effectiveness. In this paper we propose TreeBoost.MH, a multi-label HTC algorithm consisting of a hierarchical variant of AdaBoost.MH, a very well-known member of the family of “boosting” learning algorithms. TreeBoost.MH embodies several intuitions that had arisen before within HTC: e.g. the intuitions that both feature selection and the selection of negative training examples should be performed “locally”, i.e. by paying attention to the topology of the classification scheme. It also embodies the novel intuition that the weight distribution that boosting algorithms update at every boosting round should likewise be updated “locally”. All these intuitions are embodied within TreeBoost.MH in an elegant and simple way, i.e. by defining TreeBoost.MH as a recursive algorithm that uses AdaBoost.MH as its base step, and that recurs over the tree structure. We present the results of experimenting TreeBoost.MH on three HTC benchmarks, and discuss analytically its computational cost.
Fabrizio SebastianiEmail:
  相似文献   

17.
Although considerable research has been conducted in the field of hierarchical text categorization, little has been done on automatically collecting labeled corpus for building hierarchical taxonomies. In this paper, we propose an automatic method of collecting training samples to build hierarchical taxonomies. In our method, the category node is initially defined by some keywords, the web search engine is then used to construct a small set of labeled documents, and a topic tracking algorithm with keyword-based content normalization is applied to enlarge the training corpus on the basis of the seed documents. We also design a method to check the consistency of the collected corpus. The above steps produce a flat category structure which contains all the categories for building the hierarchical taxonomy. Next, linear discriminant projection approach is utilized to construct more meaningful intermediate levels of hierarchies in the generated flat set of categories. Experimental results show that the training corpus is good enough for statistical classification methods.  相似文献   

18.
提出一种具有特征级别的领域特征集合的情感资源挖掘方法,将基于HowNet词典的分类法构建的情感特征与基于机器学习的特征分类方法中的无内容特征以及领域特征相融合,并将该集合放入支持向量机中进行情感分类实验,实验结果表明,使用抽取模式以及多特征融合的分类方法,可增强中文情感分类效果,验证两种分类方法综合研究的正确性与有效性,弥补目前特征级别的中文情感分类研究的不足.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号