首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
Web自动文本分类技术研究综述   总被引:1,自引:0,他引:1  
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势.  相似文献   

2.
利用Contourlet变换的方向性和各向异性,提出了一种基于contourlet变换和支持向量机(SVM)的人脸识别方法。首先对人脸图像进行Contourlet变换,将得到的低频分量系数作为人脸图像的识别特征,然后利用SVM多类剐分类器进行分类。实验结果表明该方法具有较好的识别性能。  相似文献   

3.
【目的】通过构建个性化分类体系,研究面向TRIZ应用的专利自动分类方法。【方法】基于主题模型,从宏观、中观、微观三个层面构建面向TRIZ个性化分类体系;通过对不同分类特征项与算法进行组合,挑选分类准确率最高的组合构建初始分类器;采用平滑非平衡数据与特征项降维方式对分类器进行优化,完成对专利的自动分类。【结果】实现半自动构建面向TRIZ的个性化分类体系及基于该分类体系的专利自动分类。在中等数据量级场景下(千条),实现专利自动分类,分类效果综合评价指标高达90.2%。【局限】该方法不适用于数据量较小(百条)时的专利分类;在较大数据量(万条)场景下,该方法的有效性尚未得到验证。【结论】对中等规模专利数据,能快速构建面向TRIZ的分类体系,并实现自动分类。  相似文献   

4.
基于语料和基于标引经验的自动分类模式比较   总被引:1,自引:0,他引:1  
以传统文献分类体系为框架,构建知识库或分类器来实现信息的自动分类是信息加工自动化的一个发展方向。这种自动分类系统一般有两种模式:基于训练语料和基于人工标引经验。我实验室分别在这两种模式的基础上设计开发了两个不同的自动分类系统。本文将详细介绍这两个自动分类系统的结构、设计及其构建,然后分别从原理、知识库构建、分类算法等方面对这两者进行比较分析。  相似文献   

5.
针对物体分类任务中同类物体的类内多样性,提出了子类的概念。通过构造图像嵌入空间,学习每一幅图像中有判别力的局部特征组合,隐式地揭示了不同子类的特性。在Ada Boost框架下,最具代表性的子类特性被组合形成物体分类器。进一步地引入了基于Gist特征的场景分类器,用来考虑物体在图像中的上下文信息。两种分类器通过边缘最大化准则进行融合。在标准数据库上的实验证明了本文提出的算法有效性。  相似文献   

6.
基于标引经验和机器学习相结合的多层自动分类   总被引:6,自引:0,他引:6  
由于《中国图书馆分类法》类目数目庞大且各类目上文献分布不均衡,导致基于机器统计学习的自动分类技术在这种多层分类体系上力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过将两种分类技术相结合的方法对信息资源进行分类,提出了用相关度来测定关键词和类目概念之间的关联,构建关键词、分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。  相似文献   

7.
陆泉  陈静  丁恒 《图书情报工作》2014,58(12):118-123
以现存的大量图像社会标签为基础,设计基于社会标签的图像情感自动分类标注模型,提出图像社会标签对情感的贡献度、区分度以及标签在情感维度上的权重3个因子及计算方法,实现图像5种基本情感语义的分类标注。在实际社会网络数据集上进行验证实验,结果表明建立的模型方法在自动标注图像情感语义方面具有较高的准确性和应用性。同时还发现,实际数据集中情感分布差异与复合情感对图像自动标注具有影响。  相似文献   

8.
基于字频向量的中文文本自动分类系统   总被引:15,自引:3,他引:12  
王梦云  曹素青 《情报学报》2000,19(6):644-649
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字一类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

9.
为减少人工分类的不确定性和分类错误,将文本分类技术引入专利自动分类系统,采用径向基函数神经网络(RBFNN)算法完成专利文本的训练和分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。  相似文献   

10.
【目的】针对微博情感分类时未标注样本多和已标注集少的问题,提出一种新的方法。【方法】在协同训练算法的基础上引入主动学习思想,从低置信度样本中选取最有价值的、信息含量大的,提交标注,标注完后添加到训练集中,重新训练分类器进行情感分类。【结果】使用不同的数据集进行实验,实验结果表明该方法所构建的分类器性能优于其他方法,分类准确率明显提高。特别是在已标注样本占40%的情况下,提升5%左右。【局限】在协同训练过程中使用随机特征子空间生成方法不能保证每次构建的两个分类器都是强分类器,因此未能充分地满足协同训练的假设条件。【结论】引入主动学习思想后,能够解决协同训练对低置信度样本处理的不足,进而增强分类器性能,提高分类准确率。  相似文献   

11.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。  相似文献   

12.
基于词典约简及多分类算法的文本分类系统的设计与开发   总被引:3,自引:1,他引:2  
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题.  相似文献   

13.
提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。  相似文献   

14.
国内文本分类研究论文的统计分析   总被引:1,自引:0,他引:1  
介绍文本分类是一个跨信息检索、机器学习和计算语言学的综合研究领域,是信息处理的重要研究方向,指出它在自动标引、信息检索、文本过滤和文献组织等领域中有着广泛的应用;并通过应用文献计量学的方法对1998-2005年国内文本分类的研究论文进行统计分析,探讨近年来我国文本分类研究现状和主要发展趋势。  相似文献   

15.
王涛 《图书馆学研究》2007,(12):40-43,46
本文简要介绍了国内外文本自动分类的发展概况,论述了自动分类的定义,自动归类和自动聚类的几种常见方法,并对应用实例进行了分析。  相似文献   

16.
文本自动分类的测评研究进展   总被引:6,自引:0,他引:6  
分类是文本挖掘的基础和核心,是近年来数据挖掘和网络挖掘的一个研究热点。本文从定性和定量两个方面,介绍国内外文本分类研究现状,分析影响文本分类的重要因素,希望通过对文本分类系统和算法的评测总结发现研究中存在的共同问题,为文本自动分类的优化、改进提供理论和事实依据。  相似文献   

17.
改进KNN算法在垃圾邮件过滤中的应用*   总被引:1,自引:1,他引:1  
提出一种改进的KNN算法,并将其用于垃圾邮件的过滤问题。经实验证明,改进的算法能够降低K值和训练文本的分布对过滤效果的影响,减少垃圾邮件的误判和漏判,具有较好的过滤性能。  相似文献   

18.
基于机器学习的自动文本分类模型研究   总被引:2,自引:0,他引:2  
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。  相似文献   

19.
基于KNN与自动检索的迭代近邻法在自动分类中的应用   总被引:8,自引:3,他引:8  
杨建良  王永成 《情报学报》2004,23(2):137-141
本文研究了一种基于KNN与自动检索的自动分类算法———迭代近邻法 (IterativeKNN ,I KNN) ,用以解决KNN算法在小样本库的环境下分类效果不佳的问题。在无法得到足够的定类样本时 ,通过检索的方法将待分样本的局部主题特征放大 ,进而得到足够定类的相似样本。实验证明 ,迭代近邻法既增加了获取相似样本的几率 ,同时也有效地控制了样本相似度条件限制放宽后可能引入的分类噪声 ,在实际应用中能较好地提升自动分类系统的查全率和查准率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号