共查询到18条相似文献,搜索用时 78 毫秒
1.
基于统计的自动分类是网页层次分类中常用的技术,但其有不足之处,主要表现为当子类之间出现严重的特征交叉现象时,分类精确率将大大下降。而网页层次分类的本质决定了同一大类下的子类存在许多相同的特征。针对这一局限性,结合基于规则的自动分类技术的优点,提出一种基于统计-规则方法的网页层次分类技术。实验表明,基于统计-规则方法的网页层次分类技术能够获得比较理想的分类效果。 相似文献
2.
3.
多层次web文本分类 总被引:8,自引:0,他引:8
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系。根据LSA理论提出了一种多层次web文本分类方法。建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类。这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题。同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式。实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好。 相似文献
4.
由于《中国图书馆分类法》的类目数目庞大和文献在各类目上分布的不均衡,导致基于机器统计学习的自动分类技术在此类多层分类上的力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过两种分类技术相结合的方法对信息资源进行分类,提出了用相关度度量来测定关键词和类目概念之间的关联,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配,并在小规模的测试集上得到了较好的效果。本文详细讨论此种分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。 相似文献
5.
6.
7.
白如江 《现代图书情报技术》2006,1(6):47-51
结合粗糙集的属性约简和RBF神经网络的分类机理,提出一种新的文本分类混合算法。试验结果表明,与朴素贝叶斯、SVM、kNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本。 相似文献
8.
一种基于类别信息的文本自动分类模型 总被引:2,自引:0,他引:2
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。 相似文献
9.
10.
11.
[目的/意义] 研究政府数据分类分级授权协议的制定与应用,旨在为政府数据授权方式提供参考,并推动政府数据安全管理与开放利用。[方法/过程] 利用网络调查法,对国外政府数据开放平台进行调查,掌握其政府数据分类分级授权协议的应用情况,且进行深入比较分析。同时,立足我国实际,吸收国外政府的有益经验,提出对制定我国政府数据分类分级授权协议的建议与内容设想。[结果/结论] 国外政府大多都采用多种类型的数据授权协议,能够为各类型数据安排合适的开放利用方式。我国应立足实际,在明确豁免开放数据类型、数据开放方式、数据开放利用主体权责的前提下,厘清数据许可对象及其权属,制定出适用于我国的政府数据分类分级授权协议。 相似文献
12.
谭金波 《现代图书情报技术》2007,2(3):39-42
探讨一种新的文档分类方法——基于本体的规则分类法。该方法首先根据分类体系建立每个类的本体,然后根据本体和规则对网页的主要标记信息进行分类。实验表明,这种方法比Rocchio分类法查全率略低,但查准率较高。 相似文献
13.
Cataloguing artworks relies on availability of classification schemes, often represented by hierarchical thesauri. After commenting on the limitation of current practices and tools, we propose a new approach for the cooperative production of multilingual and multicultural classification schemes, exploiting some features of the oncoming XML-based Web. 相似文献
14.
中图法以学科和知识分类为基础,选择单一的分类标准,用层进的方式建立严谨的学科分类体系;而自编等级式分类法,依据资源本身和用户群特点,由网络浏览者制定、选择多个标准,通过多重列类法来实现纵向和交叉关系的类目分类。将信息资源分为学术性和非学术性,利用中图法的优势分类学术性资源;利用自编等级式的类目优势,分类非学术性信息资源。利用学术性和非学术性资源间重叠的类目,建立两个大类间的联系,方便用户快速、准确地获得信息。 相似文献
15.
本文分析了传统定标比超方法的思想和缺陷,提出将传统情报分析方法与智能分析技术相结合,构建了融合文本自动分类的竞争情报定标比超分析模型。本文提出构建定标比超内容层次指标体系,将其作为文本自动分类的分类体系。两种方法相辅相成、相互优化,实现竞争情报的良性循环型、科学的智能分析。进而,深入研究了该模型的功能任务和情报分析过程与算法。最后,从科学性、时效性、全面性、准确性和动态性方面对该模型进行了性能评价。 相似文献
16.
Hierarchical Text Categorization (HTC) is the task of generating (usually by means of supervised learning algorithms) text classifiers that operate on hierarchically
structured classification schemes. Notwithstanding the fact that most large-sized classification schemes for text have a hierarchical
structure, so far the attention of text classification researchers has mostly focused on algorithms for “flat” classification,
i.e. algorithms that operate on non-hierarchical classification schemes. These algorithms, once applied to a hierarchical
classification problem, are not capable of taking advantage of the information inherent in the class hierarchy, and may thus
be suboptimal, in terms of efficiency and/or effectiveness. In this paper we propose TreeBoost.MH, a multi-label HTC algorithm consisting of a hierarchical variant of AdaBoost.MH, a very well-known member of the family of “boosting” learning algorithms. TreeBoost.MH embodies several intuitions that had arisen before within HTC: e.g. the intuitions that both feature selection and the selection
of negative training examples should be performed “locally”, i.e. by paying attention to the topology of the classification
scheme. It also embodies the novel intuition that the weight distribution that boosting algorithms update at every boosting
round should likewise be updated “locally”. All these intuitions are embodied within TreeBoost.MH in an elegant and simple way, i.e. by defining TreeBoost.MH as a recursive algorithm that uses AdaBoost.MH as its base step, and that recurs over the tree structure. We present the results of experimenting TreeBoost.MH on three HTC benchmarks, and discuss analytically its computational cost.
相似文献
Fabrizio SebastianiEmail: |
17.
Although considerable research has been conducted in the field of hierarchical text categorization, little has been done on automatically collecting labeled corpus for building hierarchical taxonomies. In this paper, we propose an automatic method of collecting training samples to build hierarchical taxonomies. In our method, the category node is initially defined by some keywords, the web search engine is then used to construct a small set of labeled documents, and a topic tracking algorithm with keyword-based content normalization is applied to enlarge the training corpus on the basis of the seed documents. We also design a method to check the consistency of the collected corpus. The above steps produce a flat category structure which contains all the categories for building the hierarchical taxonomy. Next, linear discriminant projection approach is utilized to construct more meaningful intermediate levels of hierarchies in the generated flat set of categories. Experimental results show that the training corpus is good enough for statistical classification methods. 相似文献
18.
提出一种具有特征级别的领域特征集合的情感资源挖掘方法,将基于HowNet词典的分类法构建的情感特征与基于机器学习的特征分类方法中的无内容特征以及领域特征相融合,并将该集合放入支持向量机中进行情感分类实验,实验结果表明,使用抽取模式以及多特征融合的分类方法,可增强中文情感分类效果,验证两种分类方法综合研究的正确性与有效性,弥补目前特征级别的中文情感分类研究的不足. 相似文献