期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

耿向华潘宁《科技通报》2014,(6)

引入或然状态指数矩阵,对网络文本特征进行指数分离处理和挖掘优化导向性控制,提出一种引入或然状态指数矩阵优化控制的网络文本特征导向性挖掘新技术。对具有或然性的文本数据进行分离修补导向性挖掘聚类,在文本数据择取过程中,将不同文本分量元素进行初始化倾向性分类处理,由指数矩阵确定元素属性类别概率,从而确定多个导向性聚类中心,从而实现了对或然网络文本特征的准确挖掘。仿真实验表明,新的挖掘技术能有效提取到模凌两可的或然性弱聚类导向性分类特征,数据挖掘准确率达到99.97%,而传统方法是根本无法对这类文本特征进行有效挖掘,展示了算法的优越模糊数据处理价值。相似文献

2.

中文短语文本相似度计算新方法

王莹莹任贤龙鹏飞《人天科学研究》2011,10(1):79-81

针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法。用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要。相似文献

3.

基于文本挖掘的电子商务市场表现研究

《科学中国人》2017,(12)

大数据转变成可视化数据依靠的是计算机领域中的文本挖掘技术。文本挖掘中最重要且最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。本文重点讲述如何利用文本挖掘技术对当前的电子商务市场表现进行研究。相似文献

4.

文本挖掘技术研究及其在信息检索中的应用

乔良《人天科学研究》2009,(4)

文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展,指出了文本挖掘在信息检索中的作用。相似文献

5.

模拟退火K均值算法在文本挖掘中的应用

谢磊张旭毅郑仕勇《人天科学研究》2010,(6):41-42

讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。相似文献

6.

一种基于特征词聚类的文本分类方法

伍建军康耀红《情报理论与实践》2007,30(1):109-111

本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。相似文献

7.

文本聚类算法的质量评价 总被引：4，自引：0，他引：4

刘务华罗铁坚王文杰《中国科学院研究生院学报》2006,23(5):640-646

文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段，选择了k-Means聚类算法、STC（后缀树聚类）算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明，STC聚类算法由于在处理文本时充分考虑了文本的短语特性，其聚类效果较好；基于Ant的聚类算法的结果受参数输入的影响较大；在Ant聚类算法中引入文本特性可以提高聚类结果的质量。相似文献

8.

国家科技创新政策的主题分析与演化过程 ——基于文本挖掘的视角

张宝建李鹏利陈劲郭琦吴延瑞《科学学与科学技术管理》2019,40(11):15-31

政策文本内容深度挖掘有助于梳理政策演变轨迹并客观剖析政策与实践存在的脱节问题。基于学术界对科技创新政策整体性、系统性把握不足,采用文本挖掘技术对我国1996—2017年国家科技创新政策典型文本数据进行分析。通过Rwordseg技术提取关键词、构建关系矩阵。据此,采用K-means聚类将国家科技创新政策按内容和性质进行主题分析。其中,内容聚类结果包含八类政策主题,性质聚类结果包含三类政策主题。进一步地,采用多层多维交叉视角分析国家科技创新政策演化过程,结合科技创新实践报告,对政策文本的有效性进一步分析。研究发现不同内容、性质和效力政策在科技创新发展的各阶段表现出差异性和失配特征,据此凝练出政策演化规律,并提出了政策完善的针对性建议。研究结果能够对科技创新政策体系的理论完善形成有益补充,同时为国家科技创新实践提供现实指导。相似文献

9.

一种基于语义的中文文本分类算法

赵辉刘怀亮范云杰左晓飞《情报理论与实践》2012,35(3):115-118

针对向量空间模型中语义缺失问题,将语义词典（知网）应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。相似文献

10.

LDA模型在专利文本分类中的应用 总被引：1，自引：0，他引：1

廖列法勒孚刚朱亚兰《现代情报》2017,37(3):35-39

对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果：与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。相似文献