共查询到10条相似文献,搜索用时 31 毫秒
1.
Web自动文本分类技术研究综述 总被引:1,自引:0,他引:1
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势. 相似文献
2.
王效岳 《现代图书情报技术》2011,27(1):1-2
&;nbps;&;nbps;文本分类是目前国内外理论研究的热点领域,在信息检索、数据挖掘、垃圾邮件过滤、数字图书馆等领域具有广泛的应用。随着新一代语义Web的出现和人们对网络信息资源语义分类的需求,基于关键词加权的向量空间模型表征文本的分类方法逐渐呈现出一些问题,如忽略词间重要语义信息,不能解决同义词、多义词、词间上下位关系等;在对海量文献分类时,向量空间维度过高,出现内存不足,分类速度慢等。这些问题的出现为文本分类领域的研究带来新的挑战和研究视角,促进了文本分类新技术和新方法的不断涌现。
&;nbps;&;nbps;在这样的大背景下,针对文本分类方法在发展过程中出现的问题,围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开深入的研究,笔者有幸申请到国家社会科学基金一般项目“海量网络学术文献自动分类研究(项目编号:10BTQ047)”和教育部人文社会科学一般项目“基于本体集成的文本分类关键技术研究(项目编号:09YJA870019)”。 相似文献
&;nbps;&;nbps;在这样的大背景下,针对文本分类方法在发展过程中出现的问题,围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开深入的研究,笔者有幸申请到国家社会科学基金一般项目“海量网络学术文献自动分类研究(项目编号:10BTQ047)”和教育部人文社会科学一般项目“基于本体集成的文本分类关键技术研究(项目编号:09YJA870019)”。 相似文献
3.
国内文本分类研究论文的统计分析 总被引:1,自引:0,他引:1
介绍文本分类是一个跨信息检索、机器学习和计算语言学的综合研究领域,是信息处理的重要研究方向,指出它在自动标引、信息检索、文本过滤和文献组织等领域中有着广泛的应用;并通过应用文献计量学的方法对1998-2005年国内文本分类的研究论文进行统计分析,探讨近年来我国文本分类研究现状和主要发展趋势。 相似文献
4.
5.
Web文本分类技术研究现状述评 总被引:1,自引:0,他引:1
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。 相似文献
6.
本文对文本数据挖掘在数字图书馆中的应用进行研究,重点对数字图书馆文本分类的构建与实现进行研究,并将开方拟合检验方法、KNN分类算法等经典理论应用到数字图书馆文本分类模型中,以提高数字图书馆检索能力及检索准确性. 相似文献
7.
基于机器学习的文本自动分类研究进展 总被引:6,自引:0,他引:6
文本自动分类是目前最常用的文本信息自动处理技术,也是机器学习、自然语言处理和信息检索领域的研究热点之一。本文比较全面、深入地论述了基于机器学习的文本自动分类所涉及的相关问题及解决方法,并提出了当前该领域面临的主要研究问题。 相似文献
8.
基于词典约简及多分类算法的文本分类系统的设计与开发 总被引:3,自引:1,他引:2
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题. 相似文献
9.
文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量,给出Web文本相似度的计算公式并实现基于语义相似度的KNN算法.结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少计算量并提高了分类精确度. 相似文献