首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

2.
[目的/意义]突破性创新对科技发展具有关键作用。大数据环境下,科学技术发展本身所具有的复杂、多维、不断进化等特征越发凸显。以动态视角进行突破性创新主题识别,对于为国家、企业及高校详析突破性创新领域、合理配置创新资源以及提供创新升级解决方案具有重要意义。[方法/过程]综合运用主题模型、词嵌入算法以及复杂网络分析等方法构建动态主题网络,全面考量主题在时间窗口内的结构特性以及时间窗口间的演化状态,并以其为基础结合突破性创新的新颖性、突变性、影响力和学科交叉性特征识别突破性创新主题。[结果/结论]面向区块链领域展开实证研究,识别出神经网络(Neural Network)和边缘计算(Edge Computing)两个主题的突破性创新特征最为显著。结合区块链现有研究及美国国家科学技术委员会发布的关键和新兴技术清单,验证了本文方法的可行性和有效性。但有关结果的定量验证,以及融合多源数据的突破性创新主题识别有待进一步研究。  相似文献   

3.
图书馆个性化推荐系统强调推荐的精准性,无法满足读者的多样性需求。本文将深度学习算法引入图书馆推荐系统,探讨推荐多样性的问题。首先,依据历史借阅数据,结合时间序列,形成读者借阅行为的共现矩阵;然后将共现矩阵看作上下文的语境,利用Word2vec的潜在语义分析特性,识别读者可能的兴趣;最后挖掘读者可能的兴趣,并提供多样性的推荐结果。本文选取上海浦东图书馆541万余条借阅数据进行实验,对比关联分析的结果,验证了该方法在推荐多样性方面具有较好的效果。  相似文献   

4.
基于共现分析的网络议程设置研究从认知心理学的角度出发,分析媒体议程与公众议程网络,更加贴近回答李普曼所说的“我们脑海中的图景”,但该方法只能体现议程网络中关键词间的显性关系。本文提出通过基于上下文语义的word2vec模型,测度网络议程设置中关键词隐性关系的研究方法。以“红黄蓝事件”为例,揭示党媒、都市类媒体、商业媒体、知乎意见领袖以及公众的议程网络及其相似度。研究发现,知乎意见领袖对公众议程的影响程度最大,其议程主要是对事件背后因果关系的梳理以及对策建议的提供。在媒体方面,党媒和都市类媒体报道基本一致,且二者对公众的影响均高于商业媒体。本研究是对现有网络议程设置研究的补充,对议程设置的本土化研究有一定的启示。  相似文献   

5.
基于词向量扩展的学术资源语义检索技术   总被引:1,自引:0,他引:1  
[目的/意义] 尝试以统计的方法为指导思想,探究基于词向量扩展的语义检索技术来提升学术资源的语义检索能力。[方法/过程] 利用自然语言处理、文本挖掘技术,对采集来的学术资源(主要是学术论文)元数据进行预处理,结合word2vec词向量生成工具和elasticsearch全文检索引擎搭建语义检索系统,对学术资源进行语义检索的探索研究。[结果/结论] 本文提出的方法能够有效提升学术信息的检索效果,一定程度上实现学术资源的语义检索,并为后续语义检索的进一步研究提供借鉴。  相似文献   

6.
在大数据环境下,科研合作是提高科研水平、促进科研产出的重要途径。如何在浩如烟海的学者、机构、领域信息中准确地找到与自身研究方向相近的合作对象是近年来科研合作预测的研究重点。本文通过科学学领域科学文献的记录数据,构建作者-作者、机构-机构、作者-机构、作者-关键词、机构-关键词的共现网络,接着通过网络表示方法学习作者、机构、关键词在所处网络中的语境信息,将信息实体表示成相同空间的低维稠密向量,最后根据表示向量的相似度计算实现合作对象、合作领域挖掘。通过网络表示学习方法能实现多种异质信息融合,定量计算各信息实体间的关联强度,可以很好地捕捉科研网络中学者-学者、学者-机构、学者-关键词的关系,准确地为学者挖掘潜在合作者、合作机构和关键词。  相似文献   

7.
在线评论不仅可以作为消费者了解和购买图书的参考依据,还能成为编辑选题策划重要的信息来源,本文基于当当网文学类图书评论,通过Word2vec技术和K-means聚类方法构建了文学类图书特征词库,利用该词库对图书评论进行挖掘,分析不同销量排名的文学类图书在内容表现上的差异,为选题策划提供参考。  相似文献   

8.
基于Word2vec的情感分析在品牌认知中的应用研究   总被引:2,自引:0,他引:2  
[目的/意义]通过基于Word2vec的文本情感分析技术对某显示器品牌的产品与服务的在线评论进行分析,研究消费者的品牌认知和品牌口碑,为管理者建立更科学的品牌管理体系提供有针对性的建议。[方法/过程]首先利用自然语言处理技术,对评论语料库进行预处理,结合深度学习的Word2vec词向量技术构建产品特征词和情感词词库,进一步构造情感概念对进行情感评分,并将其用于分析品牌产品特定特征的用户情感。[结果/结论]通过Word2vec构建的情感词典相较于传统方法(例如一般的情绪词表)进行情感分析,在情感分析的准确率上有所提高,再结合有效的情感概念对构造与情感评分,可以有效地理解用户的品牌认知。  相似文献   

9.
张乐 《图书情报工作》2020,64(18):126-136
[目的/意义] 针对目前自动问答系统在语义扩展方面存在的缺陷,提出一种基于词向量的语义扩展技术,设计并实现一个图书馆的智能咨询系统。[方法/过程] 使用基于Word2vec词向量语义扩展技术结合中文分词、共现词匹配技术设计智能问答引擎,结合协同办公的管理理念,实现图书馆智能咨询系统的构建,并对系统的运行数据进行统计分析。[结果/结论] 该系统在工作时间、咨询效果和后台管理上较好地满足设计需求,为图书馆智能化信息咨询系统建设提供参考。  相似文献   

10.
[目的/意义]科学与技术之间的密切关系,使得结合论文与专利进行技术机会分析比使用单一数据更加合理与高效。本文使科学技术关系的生成更自动化,减弱对主观判断的依赖,使技术颗粒更加精细,同时为技术研发人员提供研发建议,将科学研究中汲取的理念应用到相应的技术创新中去。[方法/过程]将论文、专利的摘要文本进行Doc2vec向量表示,通过文本相似性将其关联成网络,再基于Louvain算法生成科技主题聚类,识别科学研究推动的技术机会。最后以3D打印技术为案例进行实证研究。[结果/结论]识别出若干科学研究推动的技术机会,并验证所识别的机会具有一定的技术潜力,证明方法的可行性和有效性。  相似文献   

11.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

12.
[目的/意义]以主题短语识别为研究对象,提出基于PhraseLDA模型的主题短语挖掘方法,为快速理解文本内容、准确抽取文本主题提供借鉴思路。[方法/过程]对低频词进行量化定义,提出一种合理的短语重要度计算方法,最终利用PhraseLDA主题模型推理出主题短语。[结果/结论]实验结果表明该方法在多种数据集中挖掘出的主题短语质量较高,主题一致性较强。  相似文献   

13.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

14.
[目的/意义]随着信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,快速主动地从海量信息资源中识别和判断研究主题的发展演化是实现科技创新的基础。[方法/过程]在相关理论调研的基础上,结合医学领域的资源特点,提出一种基于LDA模型的主题演化探测模型和相应的流程步骤。主要步骤包括医学主题词抽取、主题识别、主题关联、关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别,实现深度、细致的主题演化分析。[结果/结论]选用乳腺癌治疗研究文献为实验案例,对判断模型进行试验并对结果进行分析验证,证实提出的技术方法具有一定的可靠性。  相似文献   

15.
[目的/意义] 探索微博舆情传播周期中不同传播者关注的舆情热点和传播内容的主要观点,进而发现舆情传播的特点和规律,为舆情分析与决策提供依据。[方法/过程] 以特定舆情事件的事实文本数据为来源,以生命周期理论和LDA方法为指导,设计研究流程与构建研究模型,对微博舆情事件中不同传播者的话题进行主题研究,其中包括主题抽取和结果语义标注、各阶段的不同传播者主题的语义分析、基于时间维度的舆情主题观点识别与刻画。[结果/结论] 研究发现,论文所提出的研究模型能够挖掘出舆情传播周期中不同传播者的主题结构、观点脉络以及特征,研判出分布在文字当中有关联性的、代表性的、重要的词语。同时,结论中还发现微博中的官媒、大众媒体发布信息中的话题和用户谈论的热点话题具有明显的差异性。  相似文献   

16.
[目的/意义]移动健康信息服务的发展可以为医疗行业创造巨大的潜在价值,但整体应用滞后于金融服务等行业,其源于转移过程中存在诸多的影响因素。对用户健康信息行为研究成果进行文本挖掘能够有效揭示潜在的主要影响因素,进而总结这些因素对转移行为的影响。[方法/过程]利用LDA模型进行文本分析,结合社会认同理论,将相对感知价值、相对忠诚度作为关键影响因素,转移成本作为调节因素,构建用户转移行为影响因素的研究模型并进行实证分析。[结果/结论]研究结果显示,LDA模型分析结果可以获取较为具体的特征词,通过分析特征词能够获取有效的影响因素,同时,这些因素与实际理论具有较高契合度,基于社会认同理论与相关因素理论提出的模型对用户转移行为具有较好的解释效果。  相似文献   

17.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

18.
基于动态LDA主题模型的内容主题挖掘与演化   总被引:1,自引:0,他引:1  
指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号