首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

2.
一种混合文本分类方法研究   总被引:1,自引:0,他引:1  
文本自动分类是信息检索领域的一个重要研究方向。一些标准的机器学习算法像支持向量机已经成功地运用到了这一领域。不幸的是高维的输入向量严重的影响了分类速度,而支持向量机核函数参数的确定影响到分类的精度。为了提高分类精度和分类速度,本文提出了一种混合分类算法,首先用粗糙集理论对向量进行约简,然后采用基因算法对支持向量机的核函数参数进行优化。实验证明我们提出的算法是有效的。  相似文献   

3.
提出了一种基于预抽取支持向量机及模糊循环迭代算法的改进的支持向量机(Support Vector Machines,SVM)的两类文本分类方法, 与传统的SVM相比, 该方法具有高得多的计算效率。文中给出了具体算法并将其用于文本分类中,实验表明了本算法用于文本分类的有效性及其高效率。  相似文献   

4.
对小样本集进行分类技术研究   总被引:2,自引:0,他引:2  
杨传耀  张文德 《情报学报》2004,23(2):142-146
随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具 ,文本自动分类系统是信息处理的重要研究方向。本文介绍了当今世界上较先进的“变换支持向量机”(TSVM ,transductivesupportvectormachines)技术 ,它与普通的“支持向量机”(SVM)相比 ,TSVM方法所需的样本量大大降低 ,它能有效地对小样本数据集进行分类 ,同时重点分析了实现它的关键技术、算法及其实现过程  相似文献   

5.
提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。  相似文献   

6.
Web自动文本分类技术研究综述   总被引:1,自引:0,他引:1  
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势.  相似文献   

7.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究   总被引:1,自引:0,他引:1  
张玉峰  何超 《图书情报工作》2010,54(10):109-113
为提高文本分类的准确性与效率,提出一种基于潜在语义分析和改进的超球支持向量机的文本分类模型。该模型利用潜在语义分析进行特征抽取,消除同义词和多义词在文本表示时所造成的偏差,实现文本向量的降维。针对超球重叠区域的文本分类问题,设计一种新的决策方法-基于密集度的决策策略。实验结果表明,该模型在类别数目较小时具有较好的分类效果,改进的算法有效可行。  相似文献   

8.
Web文本分类技术研究现状述评   总被引:1,自引:0,他引:1  
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。  相似文献   

9.
主要描述笔者进行的分类挖掘研究实验。该实验基于北卡罗来纳大学(UNC)的Open Video项目,使用支持向量机对抽取的低层视觉和高层语义特征进行挖掘,考察不同类型的关键帧集合对于分类结果的影响并全面比较各种类型的特征及不同组合在分类中的贡献。结果表明,基于多特征的视觉和文本的结合能够取得较好的分类结果;此外,关键词和描述对挖掘效果具有不同影响。  相似文献   

10.
停用词表对中文文本情感分类的影响   总被引:6,自引:2,他引:4  
王素格  魏英杰 《情报学报》2008,27(2):175-179
本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究.实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好.  相似文献   

11.
王晓艳  林昌意 《图书情报工作》2015,59(1):113-118,126
[目的/意义] 通过网页分类提高搜索引擎及内容网站的检索性能,根据查询意图分类更精确地满足用户需求。[方法/过程] 以信息类中文网页为研究对象,采用人工归纳的方法构建信息类查询意图类目体系,提出根据该类目体系对信息类网页进行分类的方法,并通过实验进行验证。[结果/结论] 实验结果表明,所提出的方法具有较强的可行性,有助于精确地满足用户信息需求,提高搜索引擎及内容网站的检索性能。  相似文献   

12.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

13.
对"211工程"高校图书馆中的30所进行网页调查,就其电子资源建设中的网页设计、类目设置、数据库分类标准、数据库列表等方面存在的问题,提出解决办法。  相似文献   

14.
This paper describes features and methods for document image comparison and classification at the spatial layout level. The methods are useful for visual similarity based document retrieval as well as fast algorithms for initial document type classification without OCR. A novel feature set called interval encoding is introduced to capture elements of spatial layout. This feature set encodes region layout information in fixed-length vectors by capturing structural characteristics of the image. These fixed-length vectors are then compared to each other through a Manhattan distance computation for fast page layout comparison. The paper describes experiments and results to rank-order a set of document pages in terms of their layout similarity to a test document. We also demonstrate the usefulness of the features derived from interval coding in a hidden Markov model based page layout classification system that is trainable and extendible. The methods described in the paper can be used in various document retrieval tasks including visual similarity based retrieval, categorization and information extraction.  相似文献   

15.
陈田田  吴广印 《情报工程》2016,2(3):080-090
web中大量新闻网页、博客、电子邮件等非结构化信息中蕴含着大量的知识,对其进行处理以自动获得知识具有重要意义。目前,一些基于信息抽取等技术抽取简单关联关系的知识获取应用系统存在明显的局限性,本文引入Apache Stanbol——Apache下的一种从非结构化信息中自动获取知识的开源项目,它是一个为语义内容管理设计的模块化的软件集和可重用组件,旨在将传统内容管理系统(CMS)拓展为支持语义服务的语义内容管理系统(SCMS),在此基础上,为改善搜索引擎关于内容的搜索、分类,实体消歧及语义化查询等带来帮助。  相似文献   

16.
基于关系抽取的企业竞争情报获取与融合框架   总被引:3,自引:1,他引:2  
网页蕴含了大量的企业竞争情报.然而,现有的企业竞争情报获取系统还缺乏直接从网页中获取竞争情报的能力.本文提出了一个基于网页实体关系抽取与融合的企业竞争情报获取系统框架.该系统通过对网页内容的抽取与融合,最终形成可信的企业竞争情报数据.论文首先讨论面向Web的企业竞争情报自动获取系统的总体结构,并重点阐述了其中的企业竞争情报获取方法、企业竞争情报融合机制等问题及其解决方案.本文的工作为进一步建立实用的Web竞争情报获取与融合系统奠定了基础.  相似文献   

17.
乔建忠 《图书情报工作》2013,57(14):114-120
针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,普适性较强。  相似文献   

18.
基于标题的中文新闻网页自动分类   总被引:1,自引:0,他引:1  
借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。  相似文献   

19.
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。  相似文献   

20.
对信息检索研究的相关文献进行计量分析,能分析出检索领域的一些规律。国家图书馆信息检索领域的图书有996本(1981-Z008)。文章对这些图书从年代分布与增长情况、图书合著情况、出版社与出版地分布、载体形态、主题分类等方面进行统计分析,藉以了解我国信息检索领域图书出版的现状、规律及存在问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号