共查询到10条相似文献,搜索用时 15 毫秒
1.
引入或然状态指数矩阵,对网络文本特征进行指数分离处理和挖掘优化导向性控制,提出一种引入或然状态指数矩阵优化控制的网络文本特征导向性挖掘新技术。对具有或然性的文本数据进行分离修补导向性挖掘聚类,在文本数据择取过程中,将不同文本分量元素进行初始化倾向性分类处理,由指数矩阵确定元素属性类别概率,从而确定多个导向性聚类中心,从而实现了对或然网络文本特征的准确挖掘。仿真实验表明,新的挖掘技术能有效提取到模凌两可的或然性弱聚类导向性分类特征,数据挖掘准确率达到99.97%,而传统方法是根本无法对这类文本特征进行有效挖掘,展示了算法的优越模糊数据处理价值。 相似文献
2.
3.
4.
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展,指出了文本挖掘在信息检索中的作用。 相似文献
5.
6.
本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。 相似文献
7.
文本聚类算法的质量评价 总被引:4,自引:0,他引:4
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。 相似文献
8.
政策文本内容深度挖掘有助于梳理政策演变轨迹并客观剖析政策与实践存在的脱节问题。基于学术界对科技创新政策整体性、系统性把握不足,采用文本挖掘技术对我国1996—2017年国家科技创新政策典型文本数据进行分析。通过Rwordseg技术提取关键词、构建关系矩阵。据此,采用K-means聚类将国家科技创新政策按内容和性质进行主题分析。其中,内容聚类结果包含八类政策主题,性质聚类结果包含三类政策主题。进一步地,采用多层多维交叉视角分析国家科技创新政策演化过程,结合科技创新实践报告,对政策文本的有效性进一步分析。研究发现不同内容、性质和效力政策在科技创新发展的各阶段表现出差异性和失配特征,据此凝练出政策演化规律,并提出了政策完善的针对性建议。研究结果能够对科技创新政策体系的理论完善形成有益补充,同时为国家科技创新实践提供现实指导。 相似文献
9.