共查询到20条相似文献,搜索用时 15 毫秒
1.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。 相似文献
2.
朴素贝叶斯理论是一种典型机器学习技术,能够应用于文本分类中。运用朴素贝叶斯理论阐述了贝叶斯分类器的样本训练和分类计算的过程,构造了一个文本分类器。试验表明,朴素贝叶斯理论在文本分类中有较好的分类效果。 相似文献
3.
针对目前基于主题图的中文自动分类的空缺,文章在总结Ontopia对英文和挪威文自动分类的技术基础上,结合中文特殊性,构建了一个基于主题图的中文分类原型系统。该系统通过借助POI、PDF、SAX作为文档文本解析器提取文本,采用盘古分词对文本进行分析,以Java为系统实现主要语言,达到了基于主题图的中文自动分类的目的。 相似文献
4.
《内蒙古科技与经济》2021,(18)
文章以豆瓣网站书籍评论为分析对象,采用中文情感词汇本体库进行情感要素的识别与加权,结合朴素贝叶斯算法实现了用户评论文本的情感自动分类,并探讨了该算法的分类效果,研究发现:朴素贝叶斯算法能够实现评论文本的情感分类,分类效果较好,但仍需结合规则匹配和人工校对的方式,提升分类效果。 相似文献
5.
6.
7.
8.
[研究目的]为提高人工分类效率,降低因分类人员主观知识结构和客观环境因素影响导致的分类错误率,本研究构建了基于层次分类器的专利文本分类模型。[研究方法]随机抽取A、D、E、H4个部中的4000条中文发明专利,以其名称和摘要数据为实验对象,通过文本预处理及文本特征表示后,基于KNN、支持向量机、Rocchio和朴素贝叶斯4种机器学习模型,分别探索IPC部、大类、小类和大组层次上的最佳分类模型及其组合。[研究结论]实验结果显示,层次结构可有效改善平面分类模型的性能,层次组合模型比层次单一模型拥有更高的分类准确率,各层次的最优分类模型分别是:支持向量机(部)、Rocchio+支持向量机(大类)、Rocchio+朴素贝叶斯+支持向量机(小类)、KNN+朴素贝叶斯+支持向量机+支持向量机(大组)。 相似文献
9.
论文设计实现中文搜索网页分类系统,包括:关键字搜索结果网页类型判断方法,网页主题内容提取。对于不容易分类的网页,采用基于摘要的网页搜索结果聚类和基于学习的网页搜索结果分类器设计方法。最后,构造中文文本分类器,并编程实现,通过实例测试分类器性能。 相似文献
10.
11.
采用向量空间模型(VSM)描述文本,利用隐性语义索引(LSI)R术进行特征重构与降维,构造了BP神经网络文本分类器。将朴素贝叶斯分类技术与前者结合构造了一种混合文本分类器。实验结果表明混合分类器分类准确度和分类速度得到提高。 相似文献
12.
13.
目前的文本分类还是以人工分类为主,为了减少人工分类的不确定性和分类错误,将径向基函数(RBF)算法引入文本自动分类系统,实现文本的自动分类。实验结果表明,采用RBF构造的分类器在文本自动分类中具有较好的分类性能,其测试平均值(F1)比BP、kNN分类器的F1值都要高。 相似文献
14.
15.
本文在介绍和分析贝叶斯理论的基础上,提出了贝叶斯算法和朴素贝叶斯分类器.并阐述了贝叶斯算法及朴素贝叶斯分类器在反垃圾邮件中的应用. 相似文献
16.
文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程.文章将对基于贝叶斯算法的文本分类技术进行论述. 相似文献
17.
词义消歧是自然语言处理中的一个核心问题,尝试了基于单纯贝叶斯概率模型的消歧方法,取得了好的效果。由于该方法在抽取上下文特征时没有进行合理的选择,致使一些无用的信息混入其中降低了贝叶斯分类器的分类准确率。利用词根词性提高了上下文特征抽取的有效性,并且尝试寻找上下文中的指示词这种特征进行消歧。 相似文献
18.
论文设计实现中文搜索网页分类系统,包括:关键字搜索结果网页类型判断方法,网页主题内容提取.对于不容易分类的网页,采用基于摘要的网页搜索结果聚类和基于学习的网页搜索结果分类器设计方法.最后,构造中文文本分类器,并编程实现,通过实例测试分类器性能. 相似文献
19.
中文期刊常用刊名词语的英译初探 总被引:1,自引:0,他引:1
毛发生 《中国科技期刊研究》2004,15(2):227-230
汉英两种语言表示期刊刊名的常用词汇都非常丰富。本文收集、归纳和分类了一些表示刊名的常用词汇,对英语中表示刊名的常用词语的界定与应用进行了比较。对中文期刊常用刊名词语的英译进行分类探讨,找出其中的英译规律。最后也对一些特例作了区分。希望能增进对汉英两种语言表示期刊刊名的了解,为中文期刊刊名的英译提供参考。 相似文献
20.
在文本自动分类中,目前有词频和文档频率统计这两种概率估算方法,采用的估算方法恰当与否会直接影响特征抽取的质量与分类的准确度。本文采用K最近邻算法实现中文文本分类器,在中文平衡与非平衡两种训练语料下进行了训练与分类实验,实验数据表明使用非平衡语料语料时,可以采用基于词频的概率估算方法,使用平衡语料语料时,采用基于文档频率的概率估算方法,能够有效地提取高质量的文本特征,从而提高分类的准确度。 相似文献