首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
文本分类是情报检索的基础性工作,它的任务是在给定的分类体系下,根据分类的文本所描述的内容,来确定该文本所属的类别,从而提高信息检索的速度和准确度.本文从实用的角度出发,以具有确定分类标准的关键词分类为应用背景,模仿人工分类的思想,采用一种较简单的通过给主、次关键词分别赋予不同的权重进行文献分类的方法,构建了一个文本分类的实验系统.该系统简化了文本自动分类的繁杂技术,克服了人工分类的不足,可用于管理计算机科学专业的毕业生论文.实验表明,此系统得到了较高的分类准确率.  相似文献   

2.
为了提高搜索引擎的查准率和查全率,将文本分类技术应用于搜索引擎中,设计与实现了一种基于文本分类的搜索引擎系统。在此基础上,提出了一种基于带权值的分类主题词表的关键词匹配的分类算法。  相似文献   

3.
本文提出了一种基于主题采集的Web文档自动分类算法,该算法对朴素贝叶斯分类模型进行了改进。利用该算法,我们实现了一个基于主题信息采集的网页分类系统。文中着重对该系统的页面解析、中文分词和文本分类模块进行了论述,并对改进后的贝叶斯分类方法进行了评估。实验结果表明,该算法对网页分类有较高的准确性。  相似文献   

4.
周靖 《茂名学院学报》2011,21(4):56-58,66
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。  相似文献   

5.
文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势.本文简要介绍了文本分类的特征提取算法,并通过实验比较了各种提取算法在KNN中的性能.实验表明IG、MI、CE、χ2、WE五种特征提取方法在KNN分类器中性能接近,互信息(MI)特征提取方法随着特征数的提高分类性能提高地较快,当特征数目较小的时候分类性能极差.  相似文献   

6.
文本分类是实现网络资源快速分类的一项关键技术。通过对文本分类、网络教学资源、基础教学网络环境进行分析,针对网络教学资源的特点,提出了一个Rocchio算法的网页自动分类模型,并在基础教学网络环境下进行了仿真实验。实验结果表明,该模型能获得较好的分类效果,适合于基础教学资源的分类。  相似文献   

7.
提出了一种基于投影寻踪改进KNN中文文本分类方法,与现有的中文文本分类算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验证明了该算法用于文本分类的有效性及其高效率。  相似文献   

8.
面向网络教育资源的文本自动分类系统的设计与实现   总被引:1,自引:1,他引:0  
本文结合网络教育资源的特征,提出了一个面向网络教育资源的文本自动分类系统的框架,并详细叙述了这一框架的实现.重点在于页面元素的特征提取和层次分类器的构建.该系统在网络基础教育资源的环境下进行了测试,实验表明,本文所实现的层次分类法优于平面分类法,比较适合网络教育资源的分类.  相似文献   

9.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

10.
郭丽  刘磊 《教育技术导刊》2013,12(4):130-131
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。  相似文献   

11.
目前人们在搜索信息上面临许多问题,以关键字搜索和以分类目录搜索在各方面都存在着限制.针对这些不足,本文提出一种基于语义词汇的智能搜索系统的模型.通过分析词汇之间的关联与语义来建立分类架构.使用者可以通过文件的分类类别,有效地检索出所需的资料且可以降低信息管理的人力成本.  相似文献   

12.
文本自动分类是目前最常用的文本信息自动处理技术,也是人工智能、自然语言处理和信息检索领域的研究热点。对文本自动分类所涉及的相关问题进行了全面论述,并简单介绍了基于神经网络的文本分类器的设计与实现。  相似文献   

13.
农业短文本中包含词数较少,导致语义获取不充分和分类效果下降。利用 Attention 机制加强关键词在分类时的权重,并结合 BiLSTM 设计 LSTM-Attention 模型。对 30 000 份原始数据经过中文分词、句法分析、文本向量化后,将 LSTM-Attention 模型训练成一个 LSTM-Attention 分类器,解决分类器对待分类文本数据敏感的问题。利用 30 000 份标准数据和加 30%干扰信息的复杂数据测试分类器分类效果,结果表明,LSTM-Attention 模型分类正确率达 98.59%,比传统 LSTM 模型高 3.72%,比 BiLSTM 模型高 1.61%,说明使用 BiLSTM 结 合 Attention 机制能够有效提升农业短文本分类效果。利用不同测试数据对 LSTM-Attention 分类器测试发现,LSTM-Attention 分类器具有良好收敛性,其分类效果不依赖于分类数据特征,分类效果稳定性佳。  相似文献   

14.
基于模糊分类规则树的文本分类   总被引:2,自引:0,他引:2  
针对传统的基于关联规则的文本分类方法在分类文本时需要遍历分类器中的所有规则,分类效率非常低的问题,提出一种基于模糊分类规则树(FCR-tree)的文本分类方法.分类器中的规则以树的形式存储,由于树型结构避免了重复结点的存储,节省了存储空间.模糊分类关联规则与一般分类规则相比,不仅包含了词条信息,还包含了词条出现频度对应的模糊集,所以FCR-tree的构建过程及树的结构不同于一般规则树CR-tree.为降低构建及遍历FCR-tree的难度,采用了构造多棵k-FCR-tree的方法.在搜索规则树时,如果结点中的词条没在待分类文本中出现,则不需要再搜索该结点引导的子树,大大减少了需要匹配的规则的数量.实验表明该方法是可行的,与遍历分类器的分类方法相比,分类效率有了明显提高.  相似文献   

15.
With the flooding of pornographic information on the Internet, how to keep people away from that offensive information is becoming one of the most important research areas in network information security. Some applications which can block or filter such information are used. Approaches in those systems can be roughly classified into two kinds:metadata based and content based. With the development of distributed technologies, content based filtering technologies will play a more and more important role in filtering systems. Keyword matching is a content based method used widely in harmful text filtering. Experiments to evaluate the recall and precision of the method showed that the precision of the method is not satisfactory, though the recall of the method is rather high. According to the results, a new pornographic text filtering model based on reconfirming is put forward. Experiments showed that the model is practical, has less loss of recall than the single keyword matching method, and has higher precision.  相似文献   

16.
随着动漫产业的迅速发展,传统的手工绘图已逐渐被计算机软件绘图所代替.在动漫创作时,通过检索系统对图片进行共享和复用,可以减少重复劳动和降低开发成本.传统检索系统集中在关键字匹配方面,查准率不高.为解决此问题,提出一种基于本体和相关反馈相结合的动漫图片检索方法,并通过实验验证了系统的有效性和实用性.  相似文献   

17.
高校档案信息化之维度空间讨论   总被引:2,自引:0,他引:2  
档案信息化涉及两个关键的问题,即档案信息的分类和检索。实现信息分类和检索机制的高度统一,是档案信息管理永远的主题。从维度空间讨论档案信息之分类和检索问题,是一种有关档案分类和检索的新视角。  相似文献   

18.
An improved TF-IDF approach for text classification   总被引:5,自引:0,他引:5  
This paper presents a new improved term frequency/inverse document frequency (TF-IDF) approach which uses confidence, support and characteristic words to enhance the recall and precision of text classification. Synonyms defined by a lexicon are processed in the improved TF-IDF approach. We detailedly discuss and analyze the relationship among confidence, recall and precision. The experiments based on science and technology gave promising results that the new TF-IDF approach improves …  相似文献   

19.
科技文献的分类是科技文献数据库的重要组成部分,设计好的科技文献分类器是建立科技文献数字图书馆的重要任务之一.传统的文献分类法几乎都是基于文本的,这样会使一部分处于类边缘的文献不能准确地分类,事实上科技文献是一种半结构化的文献,它们包含的很多结构信息可以用到文献的分类中.本文利用科技文献的邻居文献所属的类这一信息结合科技文献的文本提出了一种协调的科技文献分类方法,并取得了较好的结果.  相似文献   

20.
从对突发事件新闻结构特点的分析出发,进行了特定领域文本分类方法的探讨。其中根据文本特点,摒除信息量小的部分,将标题、首部等作为标引源,提高了分类速度。在特征抽取中综合考虑字与词对于文本分类的作用,提高了分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号