首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
常娥 《图书情报工作》2012,56(11):89-92
结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。  相似文献   

2.
基于粒子群的模糊C均值文本聚类算法研究   总被引:1,自引:0,他引:1  
利用模糊C均值算法解决文本聚类问题时,随机选取的初始聚类中心和聚类数会导致不同的聚类结果,且容易陷入局部最优。提出利用粒子群优化算法确定模糊C均值的初始聚类中心,并通过向量空间模型和特征提取,再利用模糊C均值进行文档聚类。实验表明,这种基于粒子群的模糊C均值聚类算法迭代次数少,能解决经典模糊C均值算法对初始值敏感和易陷入局部极小的缺点,且聚类速度和效果得到明显提高。  相似文献   

3.
[目的/意义] 基于高维矩阵稀疏降维的思想,提出一种利用惩罚性矩阵分解(Penalized Matrix Decomposition,PMD)实现共词分析的新方法。[方法/过程] 以"学科服务"为研究主题,根据PMD算法原理,在Matlab环境下分别实现特征词的提取、特征词的软聚类以及聚类效果的可视化。[结果/结论] 与传统的共词分析方法对比,PMD算法在共词分析中具有独特的优势:提取的特征词比较全面,聚类数目便于确定,聚类结果易于理解。  相似文献   

4.
多类多标签汉语文本自动分类的研究   总被引:9,自引:0,他引:9  
本文提出了一种高效的汉语文本分类方法 ,并在实验中收到了良好的效果。由于汉语文本的特殊性 ,在训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类 ,分类算法采用改进的Boosting算法。实验表明 ,在多类多标签的汉语文本特征提取和文档分类中 ,该算法收敛快、准确性高、综合效果较好  相似文献   

5.
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词鄄文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题.本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法.新方法在整个话题范围内构造语义空间词鄄文档矩阵,采用奇异值分解对原始词鄄文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词鄄文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘.实验结果表明,该方法能够对语义空间词鄄文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果.  相似文献   

6.
通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务。经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足。针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法。这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索。实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的。  相似文献   

7.
[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。  相似文献   

8.
基于ⅡG和LSI组合特征提取方法的文本聚类研究   总被引:3,自引:0,他引:3  
陈涛  宋妍  谢阳群 《情报学报》2005,24(2):203-209
本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法,对文本进行了有效的自动聚类.从语料库中抽取了250篇文本,首先利用向量空间模型和改进的信息增益特征选择方法,构造文本特征向量,利用C-均值方法聚类,聚类结果准确率、查全率、F-measure分别达到0.82、0.88、0.83.在此基础上,对最优的特征选择结果运用潜在语义索引方法,对奇异值分解的结果进行截断处理,发现奇异值K取40时聚类结果的准确率、查全率、F-measure达到0.95、0.57、0.78,在有效地降维的同时,大幅度地提高了聚类的准确率.  相似文献   

9.
基于IIG和LSI组合特征提取方法的文本聚类研究   总被引:8,自引:0,他引:8  
本文利用改进的信息增益特征选择方法和潜在语义索引技术组合的特征提取方法 ,对文本进行了有效的自动聚类。从语料库中抽取了 2 5 0篇文本 ,首先利用向量空间模型和改进的信息增益特征选择方法 ,构造文本特征向量 ,利用C 均值方法聚类 ,聚类结果准确率、查全率、F measure分别达到 0 .82、0 . 88、0 .83。在此基础上 ,对最优的特征选择结果运用潜在语义索引方法 ,对奇异值分解的结果进行截断处理 ,发现奇异值K取 4 0时聚类结果的准确率、查全率、F measure达到 0 . 95、0. 5 7、0 . 78,在有效地降维的同时 ,大幅度地提高了聚类的准确率。  相似文献   

10.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

11.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

12.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

13.
基于Single-Pass算法思想,研究网络话题的在线聚类方法,以期及时捕捉网络信息的动态变化在分析该方法聚类流程的基础上,重点研究网络动态信息流的文本特征抽取和权重计算方法,以及话题类表示和更新等关键问题,设计实验对比分析不同的标题中特征加权系数、特征权重计算和标准化方法以及话题类向量维度对话题聚类质量和时间效率的影响。  相似文献   

14.
基于C-value与TF-IDF的文献簇主题识别研究   总被引:1,自引:0,他引:1  
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一.引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此需要识别这些文献簇的内容特征.本文分析了引文分析中文献簇主题识别的典型方法及局限,提出了结合C-value和TF-IDF算法的文献簇主题识别方法.实验表明,该方法可以充分地利用C-value和TF-IDF算法的优点,对C-value和TF-IDF算法中不合理的地方予以了改进,从而可以更好地应用于引文分析中文献簇的主题识别.  相似文献   

15.
[目的/意义]解决学术期刊多属性评价方法众多、评价结果不一致问题。[方法/过程]提出一种基于聚类分析的多属性评价方法选取方法——聚类结果一致度筛选法。其原理是首先对原始评价指标进行聚类,然后采用可行的多属性评价方法进行评价并对评价结果进行二次聚类,最后根据评价结果聚类与原始指标聚类结果一致度的高低来选择评价方法,优先选取聚类结果一致度最高的评价方法。本文基于JCR2015数学期刊,选取11个指标,分别采用加权线性汇总、TOPSIS、VIKOR、主成分分析、调和平均进行评价,然后基于聚类结果一致度进行评价方法选取,发现调和平均的聚类一致度最高。[结果/结论]可以采用该方法对多属性评价方法进行选择;聚类种类设置对结果影响较小;该方法具有较高的稳健性。  相似文献   

16.
在高维空间中k最近邻搜索(KNNS)应用非常广泛,但是目前很多KNNS算法都根据欧氏距离对数据进行索引和搜索,不适合采用角相似性的应用.本文提出一种基于角相似性的k最近邻搜索算法(AS-KNNS).该算法先提出基于角相似性的数据索引结构(AS-Index),参照一条中心线和一条参照线,将数据以系列壳-超圆锥体方式进行组织并分别线性存储;然后确定查询对象的空间位置,有效确定一个以从原点到查询对象的直线为中心线的超圆锥体并在其中进行搜索.实验结果表明,AS-KNNS算法较其他k最近邻搜索算法有更好的性能.  相似文献   

17.
[目的/意义]系统梳理论文合著者贡献分配算法,比较各种贡献分配算法的适应性,总结使用方式及注意事项。[方法/过程]介绍若干种合著者贡献分配算法,收集数据并对它们的拟合性进行验证,比较分配算法的优劣。[结果/结论]基于合著者署名顺序的分配算法中网络贡献分配算法拟合性最好,其次是调和贡献分配算法。基于学科领域的贡献分配算法更适用于有一定学术声望的学者的评价,基于合著者署名顺序的贡献分配算法如网络、调和分配算法适用于普通的科研人员评价。  相似文献   

18.
雷震  吴玲达  雷蕾  黄炎焱 《情报学报》2006,25(3):289-295
传统的增量k均值法用于事件探测时存在着诸多不足。为了克服其缺陷,本文提出了一种用于事件探测的改进的增量k均值算法(IIKM)。该算法使用密度函数法进行聚类中心的初始化以便客观地选择初始聚类中心,既可以用于在线探测也可以用于回溯探测,并且执行结果受新闻语料被处理顺序的影响较小。本文对有效密度半径和特征空间维数的选择问题进行了讨论,并比较了该方法和Single-pass法及传统的K均值法的性能差异。实验结果表明本文所提出的方法是有效的。  相似文献   

19.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号