首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文结合网络教育资源的特征,提出了一个面向网络教育资源的基于规则的Web分类方法。该方法首先构造了规则集,并建立支持规则的主题词库,然后对含有学科概念词的网页锚文本进行分类。实验表明该分类器性能良好,产生的规则易于被人理解,而且容易更新和调整。  相似文献   

2.
面向网络教育资源的文本自动分类系统的设计与实现   总被引:1,自引:1,他引:0  
本文结合网络教育资源的特征,提出了一个面向网络教育资源的文本自动分类系统的框架,并详细叙述了这一框架的实现.重点在于页面元素的特征提取和层次分类器的构建.该系统在网络基础教育资源的环境下进行了测试,实验表明,本文所实现的层次分类法优于平面分类法,比较适合网络教育资源的分类.  相似文献   

3.
改进了传统的信噪比文本分类方法。提出了一种改进的基于信噪比的文本分类方法。它考虑了禁用词的排除、近义词和同义词的合并以及特征项在文本中不同位置对文章分类的贡献不同。  相似文献   

4.
针对目前国内外学者对微博情感只作二分类研究,仅仅从正面和负面研究微博情感不足的问题,选取NLPCC2013-2014年多情感的微博数据集,重点研究常用的3种机器学习算法、3种特征选择以及特征权重方法对中文微博情感多分类的影响。实验表明:不管选择哪种特征权重,使用SVM的微博文本分类准确率都最高,KNN的准确率最低;不同特征权重下,信息增益作为特征选择的方法时,3个算法各自准确率都是最高的;当信息增益为特征选择,TF-IDF为特征权重时,支持向量机的文本分类准确率最高。由于微博简短、口语化,词袋模型忽视了词与词间的联系,导致微博情感分类准确率不高。  相似文献   

5.
从对突发事件新闻结构特点的分析出发,进行了特定领域文本分类方法的探讨。其中根据文本特点,摒除信息量小的部分,将标题、首部等作为标引源,提高了分类速度。在特征抽取中综合考虑字与词对于文本分类的作用,提高了分类精度。  相似文献   

6.
特征降维是文本分类的关键步骤之一.传统互信息特征选择方法只关注了文档频,未考虑词频因素,并且忽视了负相关特征对文本分类的重要作用,导致其在不平衡语料集上的分类效果较差.针对传统互信息方法存在的不足,提出一种改进的互信息特征选择方法,综合考虑词频因素及正、负相关特征对文本分类的影响,引入平均词频率和绝对值最大因子,克服传统互信息倾向于选择低频词、忽视负相关特征的缺陷.在不平衡语料集上的实验结果表明,改进的互信息能够有效提高文本分类性能.  相似文献   

7.
网络教育的技术实现依托于网络技术、多媒体技术以及计算机技术。这三种信息技术为网络教育提供了丰富、便捷的教育信息资源,同时也决定了学习者获取网络教育信息资源的特有的认知习惯。例如:学习者面对非线性的、超文本链接的网络教育信息资源,只需单击文本、按钮、图案等信息标志,就可在不同的网页内容中间来回跳转。快速点击、切换的阅读方式容易使学习者形成粗略浏览的认知习惯。学习者心理认知的过程直接关系到网络教育信息资源传播效果的好坏。从学习者心理认知的角度设计网络教育信息资源,合理选择信息内容与信息表现形式,能有效提高网络教育信息资源的传播效果,  相似文献   

8.
文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势.本文简要介绍了文本分类的特征提取算法,并通过实验比较了各种提取算法在KNN中的性能.实验表明IG、MI、CE、χ2、WE五种特征提取方法在KNN分类器中性能接近,互信息(MI)特征提取方法随着特征数的提高分类性能提高地较快,当特征数目较小的时候分类性能极差.  相似文献   

9.
文章考虑特征项的概率信息又结合文本的语义信息来计算特征项的权值,提出一种新的用于文本分类的特征项权值计算方法(FreSem),采用支持向量机(SVM)分类器进行实验,与传统的频率、TFIDF两种方法相比,能有效地提高文本分类的正确率。  相似文献   

10.
针对当前基于LDA模型扩展的文本情感分析方法未能考虑同一词语在不同语境下其情感极性的差异及非特征情感词对微博文本情感极性的影响这两个问题,提出一种基于语境分类和遗传算法的微博情感分析方法.该方法首先利用LDA模型构造微博主题集及微博主题词集,然后用微博标签数据逐一对各微博主题词集应用遗传算法自动迭代计算得出词集中词语的...  相似文献   

11.
网络教育作为成人高等教育的新模式尚有很多方面值得教育工作者探索与总结。本文就网络教育环境下课程文本资源的定位、功能进行了深入的研究,提出了网络教育环境下文本资源建设的新理念。  相似文献   

12.
可读性指文本易于阅读的程度或性质,评估对外汉语文本可读性在对外汉语教学中十分重要。文章针对对外汉语文本可读性难以人工评估的问题,提出了一种基于随机森林算法的对外汉语文本可读性自动评估方法。该方法从基础特征、词性特征、等级特征和语法特征这四个维度提取特征,进行特征选择后在训练集上利用随机森林算法训练分类器,并在测试集上证实了该方法的有效性。  相似文献   

13.
自动分类技术是一种基于知识管理的文本分类技术,它能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。本文首先介绍了自动分类技术的背景和历史发展,然后着重介绍了目前应用最广泛的几种自动分类方法;其后,结合实际研究课题介绍了基于仿人思想的自动分类方法,并对自动分类技术未来发展的方向作了展望。  相似文献   

14.
针对信息增益特征选择方法没有很好考虑多标记的分布,在多标记文本分类中表现不佳的问题,用标记矩阵的协方差改善特征选择时标记之间的关联产生的影响,提高分类效果。最后通过实验证明,改进的信息增益特征选择方法具有可行性和有效性。  相似文献   

15.
针对短文本信息篇幅短、信息量少、特征稀疏的特点,提出一种基于LDA(Laten Dirichlet Allocation)主题模型特征扩展的短文本分类方法。该方法利用LDA模型得到文档的主题分布,然后将对应主题下的词扩充到原来短文本的特征中,作为新的部分特征词,最后利用SVM分类方法进行分类。实验结果表明,相比于传统的基于VSM模型的分类方法,基于LDA特征扩展的短文本分类方法克服了特征稀疏的问题,在各个类别上的查准率、查全率和F1值都有所提高,充分验证了该方法对短文本分类的可行性。  相似文献   

16.
吴波 《鸡西大学学报》2009,9(5):151-152
介绍了网络环境下文本自动分类的过程,针对文本信息自动分类的研究方法,分析了当前我国文本信息自动分类研究中存在的问题,提出了其未来发展的趋势。  相似文献   

17.
文章旨在探讨信息类法律文本适用的翻译技巧以及文本类型理论对指导法律文本翻译的可行之处,以期为在此方向探索的译者提供些许借鉴.根据纽马克文本类型分类,选材主要为信息类文本,结合选材的文本特征和语义翻译、交际翻译两种原则,译者在简述所选文本特征的基础上,分别分析了文本词汇和句子层面可借鉴的翻译技巧,如增词、排除错误译法及调...  相似文献   

18.
通过对专业信息自动分类的文本特征提取方法的分析研究,提出在文本分析时根据Web内容挖掘和结构挖掘的方法提取特征词条来建立文本特征空间,同时利用专业类别向量、专业词典技术可有效解决高维空间问题.  相似文献   

19.
文本素材资源的自动分类算法研究   总被引:2,自引:0,他引:2  
教育资源建设是教育信息化的基础,而教育资源的有效应用必须以资源的准确分类为基础。教育部远程教育标准化委员会在《教育资源建设技术规范》(征求意见稿)中提出了教育资源的元数据结构和分类体系。为了提高资源分类的自动化程度,简化对资源的手工分类工作,本文提出了一个文本素材资源的自动分类算法,该算法基于向量空间模型和位置相关性原理设计,提高了原有向量空间模型算法的准确性。  相似文献   

20.
针对传统的特征选择方法在非平衡数据集中分类效果不理想的问题,提出了一种适合非平衡数据分类的改进特征选择方法.该方法将集中度和分散度相结合,同时考虑到在文本长短不一时词频对文本分类的作用,得到一种新的词频归一化方法,实现了对传统特征提取方法的改进.另一方面,将三支决策思想引入到朴素贝叶斯算法,得到了NB-三支决策分类算法,并将该算法应用到非平衡数据集的分类.通过两组实验对比结果表明:改进特征选择方法较CHI和IG方法,处理非平衡度高的数据集分类效果较好;选取相同的特征选择方法和数据集,NB-三支分类器比NB-分类器的分类效果好.选用本文提出的改进特征选择方法和NB-三支分类器,在处理非平衡度高且文本长短不一的数据集时,分类效果有一定提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号