首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
【目的/意义】从海量微博信息中提取准确的主题词,以期为政府和企业进行舆情分析提供有价值的参考。 【方法/过程】通过分析传统微博主题词提取方法的特点及不足,提出了基于语义概念和词共现的微博主题词提取 方法,该方法利用文本扩充策略将微博从短文本扩充为较长文本,借助于语义词典对微博文本中的词汇进行语义 概念扩展,结合微博文本结构特点分配词汇权重,再综合考虑词汇的共现度来提取微博主题词。【结果/结论】实验 结果表明本文提出的微博主题词提取算法优于传统方法,它能够有效提高微博主题词提取的性能。【创新/局限】利 用语义概念结合词共现思想进行微博主题词提取是一种新的探索,由于算法中的分词方法对个别网络新词切分可 能不合适,会对关键词提取准确性造成微小影响。  相似文献   

2.
将文本挖掘和共词分析方法相结合应用到专利文献的研究中去,以期通过对专利的内容分析更深层次地了解不同技术主题的研究现状及发展趋势.以射频识别(Radio Frequency Identification,RFID)技术领域为研究对象,对此领域专利的摘要进行文本挖掘,从中提取能够反映此技术领域特征的关键词,根据关键词之间的共现关系,对其进行聚类分析,得到目前RFID领域的六个技术主题,并借助战略坐标图对这六个技术主题进行分析,探寻每个技术主题的发展趋势,为企业技术创新活动和产业发展战略的制定提供决策参考.  相似文献   

3.
王连喜  李霞 《情报杂志》2015,(4):127-132
以CNKI数据库中计算机和图书情报学科的核心期刊论文及硕博士学位论文为研究对象,以共词分析法和主题模型为工具,首先从数据集中提取并确定能够反映当前国内关于微博研究的重要关键词,然后采用SPSS的层次聚类法和LDA主题挖掘模型分别对共词矩阵和主题词向量进行定量分析,归纳出国内微博研究的热门知识点和重要主题,并对研究热点和研究主题进行宏观剖析,认为当前国内微博研究主要呈现出用户、内容和应用的三层结构特点。最后通过比较热点分析与主题挖掘的结果发现,国内的主要成果集中在微博内容层面的研究,涉及了情感分析、短文本处理、信息处理技术、主题发现、事件检测和信息挖掘等几个方面。  相似文献   

4.
共词分析法研究(三)——共词聚类分析法的原理与特点   总被引:20,自引:3,他引:17  
共词聚类分析法采用聚类的计算方法,对文章中共观的词对(主题词或关键词)的关联性进行运算,将关系密切的词聚集归类,从而达到挖掘隐舍信息的目的.通过对聚类原理的分析,认为该方法具有客观性、科学性、敏感性的特点.并讨论了共词聚类分析法的不足以及其解决办法,最后介绍了共词聚类分析法的最新研究进展.  相似文献   

5.
一种基于关键词加权的共词分析方法   总被引:1,自引:0,他引:1  
基于关键词的共词分析是文献计量中常见的一种研究方法,该方法是利用论文关键词在文献数据库中成对出现的统计学特征来分析关键词之间的亲疏关系,从而揭示这些关键词所代表的主题之间的关联结构。本文分析了传统的关键词共词分析法中存在的忽视关键词之间的重要性问题,探讨了其中基于关键词加权的合理性和必要性。本文还提出了一种基于关键词加权的共词分析方法,通过在关键词词频统计和词对相似度计算两个步骤中使用的改进的加权算法,从而实现了基于关键词重要性的加权。  相似文献   

6.
共词聚类分析方法是科技情报分析的一种重要的方法和技术,已逐渐发展成为科技情报分析中最活跃的研究领域之一。共词聚类分析方法可以形成一系列由科技文献组成的文献聚类,这些聚类所包含的主题特征对于揭示学科领域知识发展变化具有很好的指示作用。本文分析了基于词频统计共词分析的主题识别方法及其局限,提出基于概率模型的主题识别方法。实验表明,该方法可以充分地利用概率模型的优点,改进了传统共词分析方法的不足,从而可以更好地应用于主题分析中的主题识别环节。  相似文献   

7.
边扬帆  成全 《情报探索》2020,(1):112-119
[目的/意义]旨在了解国内科技政策的热点及政策导向,以期为国家科技政策的制定和完善提供参考。[方法/过程]以2015-2018年国务院和科学技术部印发的科技政策为研究对象,运用共词分析法和社会网络分析法,以及TF-IDF算法对热点主题词进行提取并分析,采用狄利克雷主题模型(LDA)提取科技政策主题并进行主题聚类,挖掘重点关注的政策主题,并对科技政策文本运用MDS(multidimensional scaling)方法进行降维分析,并对科技政策的走向进行分析。[结果/结论]国家科技政策的制定主要围绕高新技术产业、科研诚信、专项研究、科技人才发展、科技成果转化、知识产权等主题领域进行;关于教育、产能激励、装备制造、创新创业、众创空间、加工贸易、科技成果转化与知识产权保护等主题领域已经引起并将持续受到相关政府部门的重点关注。  相似文献   

8.
鉴于近年突发事件在微博传播的巨大影响力,提出基于爆发词识别的微博突发事件监测方法。把微博突发事件监测分为微博预处理、爆发词抽取、爆发词聚类三个模块。先提出微博噪声数据过滤规则从海量数据中过滤噪声微博,然后采用相对词频、词频增长率、爆发词权重三个计算指标来提取出爆发词特征,最后采用共词分析方法来实现爆发词聚类,从而提取突发事件。最后以新浪微博数据为例进行实验,验证了提出的算法对突发事件监测能取得不错的效果。  相似文献   

9.
共词聚类分析法通过聚类的方式对学科主题词进行归类划分,从而实现对学科结构的分析研究.没有聚集中心的聚类,使得类团划分方式与学科研究点主题词分布模式存在一定的差别,并对类团分析产生较大负面影响.为类团指定核心词,并把核心词放置于共词矩阵中进行分析,有助于对类团概念的正确定义以及类团之间的关系分析,其至修正聚类算法中存在的一些问题.笔者的创新点在于通过指定类团核心词,解决没有聚集中心的聚类过程所存在的问题.  相似文献   

10.
数据挖掘和知识发现领域热点主题分析   总被引:1,自引:0,他引:1  
利用词频分析、共词聚类分析、可视化等方法对Web of Science数据库1998~2009年间的数据挖掘和知识发现领域的研究文献进行分析,探讨该领域的研究热点主题及其间关联.  相似文献   

11.
介绍了共词分析法及其一般分析流程,指出目前共词分析中所用作者关键词存在不规范的现象,给出了对作者关键词进行规范化处理的思想方法及规范化处理应遵循的原则。并以图书馆个性化信息服务为研究主题,利用SPSS17.0软件,对规范化处理前后的关键词分别进行了聚类,对比聚类结果,说明对作者关键词进行规范化处理是共词分析的一个必要而有效的过程。  相似文献   

12.
介绍了共词分析方法,分析了目前共词分析方法中存在的问题,在此基础上提出了垂直加权、水平加权和混合加权共词分析。在实例分析部分,根据文献的来源和关键词在文献中的位置,设置不同水平权值和垂直权值,对数据进行加权共词分析,证明了加权共词分析法的有效性。  相似文献   

13.
基于共词分析的学科主题演化方法改进研究   总被引:2,自引:0,他引:2  
学科主题演化是情报分析人员采用一定的信息技术方法观察主题在时间维度上的发展、变化趋势以及不同主题之间的交互作用,它已成为情报研究的一项重要内容。基于词频或共现词频的共词分析方法难以反映主题词对间更层次的语义关系,针对这一情况,提出一种改进的共词分析方法,该方法体现主题词、主题和文档间的层次语义关系,以更微观、精确的语义层面展现主题演化过程。  相似文献   

14.
国内信息资源管理研究热点分析   总被引:1,自引:0,他引:1  
作者从CNKI下载关于信息资源管理论文的题录数据,并利用自编的JAVA程序处理,统计了论文关键词的词频,确定我国信息资源管理领域使用频率最高的51个关键词,在此基础上运用共词分析法,以SPSS软件为工具,结合因子分析法和聚类分析法,探讨了国内信息资源管理研究热点和研究现状。  相似文献   

15.
专利关键词是对专利文献的高度概括,正确提取专利文献中的关键词对于专利文献的分类、标引、聚类等具有重要意义。结合专利文献的特点,在目前已有方法的基础上,提出了专利文献中领域公共词提取方法、词素加权方法以及并列结构惩罚的方法,将其应用到专利文献关键词抽取中。在过滤公共词的基础上,综合运用词在文献中出现的位置、词频、词素和并列结构计算词对文献主题的影响度,抽取专利文献中的关键词。实验结果表明,在抽取关键词个数为5-9个时,所提方法优于局部加权TF-IDF方法,验证了所提方法的有效性。  相似文献   

16.
[目的/意义]关键词是反映期刊研究主题、研究方法和数据源等信息的重要途径。本文尝试通过论文关键词来研究学术期刊的相似度,为期刊分类等学术研究和实际工作提供参考。[方法/过程]首先,在相关文献梳理的基础上,提出了基于论文关键词的两种期刊相似度计算方法。然后,以《中国图书馆学报》和《情报学报》为实证对象,从CSSCI采集了两种期刊1998-2017年的关键词数据。最后,计算了两种期刊的相似度,并分析了两种期刊论文的共现关键词。[结论]研究发现,两种期刊的相似度有一定波动,但整体上呈现为一个下降趋势。这反映出两种期刊上发表的论文的相似性在不断下降,而差异性在不断增加。  相似文献   

17.
基于WoS核心集检索健康信息领域研究性文献4 023篇,以关键词为分析单元,共词分析和聚类分析为方法,SciMAT为工具,识别不同时期的研究主题及其演化路径。研究发现国际健康信息的研究始于1923年,早期发展迟缓、主题少、热度低;后期呈多样化发展。各时期研究主题变化大,演化关系复杂,在两个研究方向上呈现4条演化路径:健康信息查询和健康素养是主要知识脉络,将持续成为研究热点;公共健康和健康信息技术早期受关注程度低,演化过程不稳定,2008年后受关注程度升高,研究地位上升,成为研究热点和有发展潜力的基础研究方向。  相似文献   

18.
以PQDT数据库为数据源,研究2001—2012年地质学博硕士学位论文关键词词频、高频关键词、篇均关键词等的分布特征,利用高频关键词构造共词矩阵,绘制可视化共词网络。研究结果显示,地质学研究热点是地球化学、地球物理、工艺地质学、生态学、沉积地质学和天体物理.可为我国地质学研究、学科建设提供借鉴。  相似文献   

19.
西部大开发中人口与环境,资源,经济的协调发展   总被引:1,自引:0,他引:1  
指出西部土地沙漠化和草原退化的主要原因是人口激增和掠夺式的人为活动,提出西部大开发应走自然资源与人力资源开发并重之路,将生态再造作为振兴西部经济的“第一产业”。  相似文献   

20.
利用本体关联度改进的TF-IDF特征词提取方法   总被引:3,自引:0,他引:3  
针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号