首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于多特征提取的中文二元分类
摘    要:通过对中文文本中二元组进行分类,可以提取出文本中的中文词汇。研究中文二元组的组合规律,抽取二元组的词频、邻接熵、二元组概率、互信息值、卡方值等多个特征。利用机器学习的方法将二元组分为二元词、非词和待扩展词三类,实现中文词汇的自动提取。实验分别采了用朴素贝叶斯模型和决策树算模型进行训练,利用模型预测中文二元组,抽取中文词汇。实验结果表明,决策树算模型分类效果较好,准确率70.3%,召回率73.5%,F1值71.9%。

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号