排序方式: 共有276条查询结果,搜索用时 15 毫秒
1.
WWW中文信息自动分类方法研究 总被引:6,自引:0,他引:6
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。 相似文献
2.
文本分类中粗分类数据噪声修正的网络算法 总被引:1,自引:1,他引:0
在文本分类的实际应用中经常使用粗略分类的数据来训练分类器,但是这种数据中经常会包含类别标记有误的数据,这些数据对文本分类结果的精度会造成不良影响。本文针对这个问题提出了一种噪声修正算法,首先建立文档关联网络,把文档上标记的类别作为在网络上划分的集团结构,并用模块度衡量集团结构的质量,通过优化模块度指标把噪声数据调整到合适的类别中,从而提高数据质量。实验结果表明,本文所提算法能够有效修正粗分类数据中的噪声,且有较高的有效性和鲁棒性。该算法可以用于文本分类训练数据的预处理,或作为辅助技术用于文献库建设等工作。 相似文献
3.
本文通过实验比较了互信息、χ2统计算法和优势率三种算法在用于局部文本特征选取时对文本分类性能的影响.实验结果显示,在应用于局部特征选择的情况下,文本特征选取算法仍然可以将特征空间的维度降低90%以上,而不降低文本分类的性能.同时,我们发现在应用于局部文本特征选取时,优势率算法的性能不如互信息和χ2统计算法.另外,对于K最近邻分类算法,随着K值的增大,文本分类的查准率在增加,而查全率在降低.最后,本文详细分析了造成这三种算法性能差异的原因,并提出了一种改进算法,来提高优势率算法应用于局部文本特征选取时的性能. 相似文献
4.
基于统计频率的文本分类特征选择算法研究* 总被引:1,自引:0,他引:1
通过分析χ2统计量(Chi-square, CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency, SF )算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。 相似文献
5.
基于概率神经网络的文本自动分类研究 总被引:10,自引:2,他引:10
本文提出了将一种径向基网络的重要变形———概率神经网络应用于文本自动分类的研究 ,与常用的K 最邻近法相比 ,具有一定的优势 ,特别是在训练集中各类的训练样本数很不平衡时 ;与BP等其他神经网络相比 ,其特点是需调节的参数少 ,不需确定隐层数、隐层中的神经元数量等网络结构 ,比较容易使用。此外 ,从研究中的不同特征选择的评价函数来看 ,它们对分类有一定的影响 ,应用X2 统计进行特征选择的分类正确率最高 ,其次是文本证据权 ,而期望交叉熵的效果最差 ,说明特征选择在文本自动分类中也是非常重要的。 相似文献
6.
施洁斌 《现代图书情报技术》2004,20(7):27-29
提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。 相似文献
7.
基于机器学习的自动文本分类模型研究 总被引:2,自引:0,他引:2
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。 相似文献
8.
金桂桃 《云南师范大学学报(教育科学版)》2011,(4):11-16
运用框架语义学的理论和方法对"想"与"考虑"的义项进行描写和辨析,发现被已有工具书释作同义词的"想(1)"与"考虑"实际上只有一个义项相同:"思考"义。此外,"考虑"还有两个义项是"想"没有的:一是"把……考虑进去(使……成为思考对象)";二是"顾及",同为"思考"义时,二者亦有细微差异:"想"带有[+想象]的义征,"考虑"带有[+强度大]的义征。这些语义上的差异决定了二者用法上的种种不同。不懂这些语义差异是造成留学生混用这对词语的根本原因。 相似文献
9.
从历时的角度考察了汉语个体量词产生、发展和成熟时期的情况,和汉语个体量词产生的动因。认为汉语个体量词的产生是汉语范畴化和汉语类型特点制约的结果,同时反映了汉民族的认知视点。 相似文献
10.
本文结合运用信息管理和人工智能的原理与技术,探讨了文本知识的自动分类方法,包括:自动归类与聚类方法、基于实例的学习分类方法和基于特征值的元学习方法。 相似文献