首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
文本软聚类是适应学科发展而逐步兴起的一项文本聚类技术,它更加全面地反映文本的特征信息.本文首先分析了文本软聚类技术的现状,提出了基于惩罚性矩阵分解(PMD)的文本软聚类算法,并应用于文本聚类研究.实验结果表明,本文提出的算法具有较好的聚类结果.  相似文献   

2.
介绍对Web空间和现实社会空间中的新闻事件演变进行可视化是一个新的研究热点。总结归纳文本可视化基本方法,并且结合成功的应用,提出应用在单个新闻事件、同时发生的新闻事件和先后发生的新闻事件上的新闻事件演变的可视化形式。指出综合利用基于词频、语义、聚类、时间序列的可视化技术是对新闻事件演变过程进行可视化展示的关键  相似文献   

3.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

4.
多语言文本聚类研究综述   总被引:1,自引:0,他引:1  
对多语言文本聚类问题进行综述,说明多语言文本聚类的作用、多语言聚类方法的分类、现有方法存在问题以及今后的研究趋势.  相似文献   

5.
自组织映射(SOM)是一种基于人工神经网络的聚类方法,通过将相似的输入数据映射到相同或者相近神经元达到相似相聚的目的,有着不需要先验知识、保持拓扑结构不变、无监督自我学习和易于可视化的优点。由于专利文献有着数量大、文字晦涩冗长、专业性强等特点,分析难度较大,自动聚类分析能挖掘专利文献内在相似性,作为基础性处理用于后期应用,例如专利数据清洗、专利检索、主题分析和专利地图生成等众多领域。基于SOM的专利文本聚类与传统聚类方法相比效率和准确率较高,并且易于可视化展示。本文使用了SOM、k-means和TwoStep算法分别在专利文本聚类中作了对比,得出SOM较优的结论。  相似文献   

6.
针对文本聚类分析结果表达中缺乏语义关系的缺陷,本文利用人们在可视化形式下对模型和结构的理解和获取能力,提出了一种新的可视化表达方法。通过改进的Force-directed模型对聚类分析结果进行文本布局,表现文本间的语义相似关系;使用等值线生成算法构建层次性主题图,聚集和提炼文本主题;最终实现文本聚类分析结果的语义直观表达。实验结果表明,这种可视化方法不仅能够有效地表达聚类结果,体现类间、文本间的语义相关程度,而且还有助于发现隐含的信息,并通过类别之间的关联实现有效的信息导航。  相似文献   

7.
文本聚类结果描述研究综述   总被引:1,自引:0,他引:1  
首先对文本聚类结果描述的研究背景和相关的研究情况进行说明,分析自动标引、自动文摘、概念聚类与文本聚类结果描述的关系,定位文本聚类结果描述的研究内容;然后根据文本聚类结果描述的具体要求,对该问题进行形式化;最后给出文本聚类结果描述的评价方法。  相似文献   

8.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

9.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

10.
Web中文文本聚类研究及实现*   总被引:5,自引:0,他引:5  
采用Web文本自动聚类技术,提出一种将HAC(Hierarchical Agglomerative Clustering)聚类算法与K-Means聚类算法相结合的两阶段文本聚类框架,并通过实验对该框架进行评估。  相似文献   

11.
[目的/意义] 针对目前全领域科学知识图谱构建方法中存在的技术难点,结合网络嵌入模型、机器学习聚类、流形学习可视化算法等人工智能领域的方法与模型,提出一套全新发现科学结构的知识图谱构建方案,以完善科学结构发现与可视化布局,并拓展科学知识图谱的分析应用场景。[方法/过程] 引入基于深度学习的网络嵌入模型和聚类方法改进原有的网络社团划分聚类方法,利用流形学习降维可视化算法扩大数据处理能力,并设计由下至上分层可视化布局方法,提升可视化图谱的稳定性与细节揭示能力。[结果/结论] 以科睿唯安公司的基本科学指标数据库(ESI)研究前沿中高被引论文作为分析数据集,使用新聚类算法得到1 169个研究领域,通过改进的可视化布局算法形成全领域科学结构图谱。与前几期科学结构图谱相比,本文提出的方法支持更大规模的数据分析,对可视化细节揭示与稳定性也有大幅优化,可以更好地展示全领域科学研究宏观结构及内在关系,为全领域科学知识图谱的绘制与构建提供更可靠的方法和技术支持。  相似文献   

12.
主要讨论信息可视化原型系统的理论方法和实现技术。具体探讨可视化模型的构建策略、原型系统的环境配置、功能模块和操作方法;文本信息、语音(音频)信息、图像信息可视化模型的构建、数据准备与数据规模、操作界面与运行结果。该原型系统的研究不仅是通用信息资源管理可视化模型的有益尝试,而且在中文信息可视化方面也取得一定的经验。  相似文献   

13.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。  相似文献   

14.
面对自由无序的网络舆情信息,对舆情组织方式的研究体现出重要研究意义。文章提出一种网络舆情信息的组织方法,采用域加权的方式,通过一种single-pass增量算法聚类实现面向主题的舆情信息组织,即对新闻主题或新闻事件有较强表达能力的域进行加权处理以突出该主题或事件,再以无监督自动化的方式对无序的网络舆情信息进行聚类,进而发现热点话题,达到话题探测的目的。实验结果显示,聚类类簇均基于主题或事件,可以代表一个话题,F-measure评价值在85%以上,也进一步表明了本研究方法的有效性。  相似文献   

15.
The need to cluster small text corpora composed of a few hundreds of short texts rises in various applications; e.g., clustering top-retrieved documents based on their snippets. This clustering task is challenging due to the vocabulary mismatch between short texts and the insufficient corpus-based statistics (e.g., term co-occurrence statistics) due to the corpus size. We address this clustering challenge using a framework that utilizes a set of external knowledge resources that provide information about term relations. Specifically, we use information induced from the resources to estimate similarity between terms and produce term clusters. We also utilize the resources to expand the vocabulary used in the given corpus and thus enhance term clustering. We then project the texts in the corpus onto the term clusters to cluster the texts. We evaluate various instantiations of the proposed framework by varying the term clustering method used, the approach of projecting the texts onto the term clusters, and the way of applying external knowledge resources. Extensive empirical evaluation demonstrates the merits of our approach with respect to applying clustering algorithms directly on the text corpus, and using state-of-the-art co-clustering and topic modeling methods.  相似文献   

16.
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高.  相似文献   

17.
文本可视化及其主要技术方法研究*   总被引:1,自引:0,他引:1  
 文本可视化是通过对文本资源的分析,发现特定信息,并利用计算机技术将其以图形化方式呈现来的一种方法。通过分析文本可视化典型系统,分析现今的文本可视化的特点。并从基于词汇、基于篇章、基于时间序列、基于主题领域4种不同的文本可视化方式入手来分析其的主要技术方法。最后探讨文本可视化如何在信息环境下发挥作用。  相似文献   

18.
从文本视角分析智库文本型成果,可为智库研究、决策分析等领域提供新思路。文章基于自然语言处理技术以及可视化计量分析对美国主流智库的人工智能研究文献进行研究,并结合时事政策事件等进行综合分析,洞察美国智库背后特点,掌握该领域内智库专家的思想动态,为我国智库研究提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号