首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 611 毫秒
1.
赵蕴华  张静  崔伟 《情报科学》2012,(10):1452-1455
针对原始德温特专利信息内容表示粒度大,不能够满足对该数据直接进行专利统计分析的问题,本文提出了一种基于文本预处理的德温特专利信息分类方法。该方法结合文本预处理技术,通过对专利数据结构和内容的分析,实现了对专利内容进一步分类。实验结果表明,该方法有效的降低专利信息内容的表示粒度,从而提高了专利分析结果的准确性和多样性。  相似文献   

2.
覆盖算法在文本分类中的应用   总被引:4,自引:0,他引:4  
本文利用前向神经网络的交叉覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。应用该算法对语料库中的文本进行实验,从实验结果来看,该算法在运行时间和精度上都取得了令人满意的结果。  相似文献   

3.
介绍了一种常用的文件类型HTML文件的文本信息预处理方法,该方法能够快速提取网页文本。实验表明,该预处理方法具有较好的分类效果。  相似文献   

4.
朱学芳  冯曦曦 《情报科学》2012,(7):1012-1015
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。  相似文献   

5.
本文对文本分类过程中关键的部分进行了改进,在分词阶段,对分词的速度和精度进行了改进,在特征选取阶段,把多种特征选取方法进行了融合,最后对分类器进行了优化,并给出了实验测试的结果,实验的结果表明,文本分类的效率的确有了提高.  相似文献   

6.
提出了一种基于投影寻踪改进KNN中文文本分类方法,与现有的中文文本分类算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验证明了该算法用于文本分类的有效性及其高效率。  相似文献   

7.
基于改进VSM的Web文本分类方法   总被引:2,自引:0,他引:2  
Web文本自动分类技术是Web文本挖掘的关键技术之一.针对Web文档中不同标签中的文本具有不同的表达文档内容的能力,提出了改进的特征项加权计算方法.根据特征项在文档中的位置和出现频率计算其权值,并给出了具体的Web文本分类算法和评测方法.经实验验证,改进后系统的微平均查准率均大于0.8,分类性能明显好于改进前.  相似文献   

8.
针对科研论文往往具有统一的结构,将词项的位置信息考虑在内,给出一种新的词项特征加权方法.利用AdaBoosting分类算法进行实验,结果表明该方法在准确率、查全率和F-Measure方面都具有更好的文本分类性能.  相似文献   

9.
研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则.  相似文献   

10.
宁琳 《现代情报》2016,36(2):140
文本挖掘是数据挖掘技术的一个重要方面,本文根据句法规则的特征,利用文本挖掘技术,提出基于句法规则的文本知识挖掘设计模型,从数据准备、句法规则构造、文本预处理、文本知识挖掘、挖掘结果评价等方面对工作原理进行了分析,重点阐述了句法规则的构造过程,最后通过实验验证了该模型,该设计对实现文本知识的智能化挖掘具有一定的研究意义和应用价值。  相似文献   

11.
基于词频的中文文本分类研究   总被引:1,自引:0,他引:1  
姚兴山 《现代情报》2009,29(2):179-181
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。  相似文献   

12.
高晓琴 《科技通报》2012,28(4):70-71
主要研究了文本分类精度问题。介绍了文本分类的基本过程,提出了一种改进的支持向量机文本分类技术,设计并实现了一个开放的中文文档自动分类系统。实验结果表明,提出的方法不仅具有较高的训练效率,同时也能得到很高的分类准确率和查全率。  相似文献   

13.
自动文本分类方法研究述评   总被引:1,自引:0,他引:1  
蒲筱哥 《情报科学》2008,26(3):469-475
在总结已经研究出的经典文本分类方法的基础上,对当前涌现出的一些新的文本分类方法进行了归纳,得出了当前研究的不足之处和未来发展趋势。  相似文献   

14.
自然语言理解心理学在短文本分类中的实证研究   总被引:1,自引:0,他引:1  
目前对文本分类研究多数集中在对大规模语料基础上的特征选择或分类器算法的研究。本文是建立在训练样本少且样本长度短的基础上,根据人脑对自然语言理解的心理学原理"人们总是根据已知的最熟悉的、最典型的例子进行判断,只有在该方法不奏效的时候才使用频率这一概念,并且使用的是十分简单的频率"从该角度进行短文本分类的实证研究。以心理学中的"熟悉原理"、"典型原理"等为模型建立特殊词库和典型案例词库,改进了传统文本分类的实验步骤,同时提出了该方法的优势和局限性。  相似文献   

15.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

16.
一种基于词上下文向量的文本自动分类方法   总被引:1,自引:0,他引:1  
分析了传统文本自动分类方法的不足、词上下文向量的含义及其在自动分类中的作用,提出了一种基于词上下文向量的文本自动分类方法,该方法利用词上下文向量来生成分类器的类别中心向量和待分类文本的文本向量,使分类质量有所提高。  相似文献   

17.
文本自动分类技术研究综述   总被引:2,自引:0,他引:2  
文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。  相似文献   

18.
本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。  相似文献   

19.
尹桂秀 《情报理论与实践》2002,25(2):115-116,122
This article introduces a Chinese text automatic classification method, including its principle and classification process. The article focuses on some key theoretical problems, such as word classification, keyword collection and keyword matching.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号