首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
王静茹  陈震 《情报科学》2018,36(1):102-107
【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。 为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/ 过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数 据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事 件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数 据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。  相似文献   

2.
【目的/意义】大数据时代文本主题挖掘在情报分析领域中的作用日趋重要,通过特征比较共词分析和 LDA模型分析两种主流文本主题挖掘方法,研究两者的具体特点,为相关人员合理地运用文本主题挖掘方法处理 数据提供一定的参考。【方法/过程】本文分两种情况对比研究:第一、两者挖掘不同时段同一种类文本数据的主题 分布信息和主题演化信息的能力;第二、两者挖掘同一时段不同种类文本数据的提取正确主题的能力。【结果/结 论】在不同时段LDA模型分析与共词分析相比挖掘主题分布信息的能力可不断提升,并且其可挖掘出更加细化的 主题演化信息;在同一时段LDA模型分析对语义关系模糊逻辑结构粗糙的文本提取正确主题的效果明显优于共词 分析。  相似文献   

3.
[目的/意义] 运用概率主题模型全面研究专利文献主题演化,分析专利技术发展过程及趋势。[方法/过程] LDA模型按时间窗口对专利文本建模,困惑度确定最优主题数,按专利文本结构特性提取主题向量,采用JS散度度量主题之间的关联,引入IPC分类号度量技术主题强度,最后实现主题强度、主题内容和技术主题强度3方面的演化研究。[结果/结论] 实验结果表明:该方法能够深入挖掘专利文献的主题,可以较好地分析专利技术随时间的演化规律,帮助相关从业人员了解专利技术的演化过程及趋势。  相似文献   

4.
[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和5种文本特征计算方法(Bag of Words、TFIDF、Doc2vec、MiniLM、SciBert)进行中英文科学文献主题建模实验,并对不同建模结果的主题多样性、主题一致性、主题稳定性和主题离散性指标进行对比分析。[结果/结论]不同建模工具的主题识别结果存在较大差异,其中LDA与Bertopic在英文和中文语料上识别出的主题中具有相似性关系的主题占比相对较高,但也仅为9.81%和7.46%;基于Doc2vec算法的Top2vec模型在主题多样性指标上的表现相对最优;基于文本预训练算法的Top2vec模型和Bertopic模型的主题稳定性和离散性指标优于传统主题建模方法。针对大语言模型技术的快速发展和广泛应用,加快推进科学文献预训练模型研发,并将之应用于科技情报业务实践是当前的重要研究方向。  相似文献   

5.
以Web of Science数据库收录的国外创新政策文献为研究数据。首先,采用文献计量方法对国外创新政策研究进行量化分析和影响力分析;其次,运用LDA主题模型进行文本挖掘,提炼出产业发展、国家创新政策以及创新政策工具运用、技术创新政策效应评估、企业创新能力提升、创新网络和区域创新政策等六个研究主题;最后,采用CARROT文献聚类及关键词突现方法,剖析国外创新政策研究新趋势,结果表明创新政策中有关“知识”、“政策绩效”、“数据运用”、“实证研究”以及“政策动态变化研究”是主要研究趋势。  相似文献   

6.
为了更为全面地探索和发现研究领域的热点主题和受欢迎的"主题-方法"对,文章提出了基于分类视角的LDA主题抽取方法;以数字图书馆领域为研究对象,利用LDA主题模型对文献集进行主题抽取,得到25个热点主题,将主题分为两类:主题与方法,通过深入分析各"主题-方法"对,发现热点主题所揭示的知识点;结果表明:基于分类视角的LDA主题抽取方法能够较为全面、细致地挖掘研究领域的学科主题和研究热点,所提的方法未能与其他主题挖掘方法进行对比,研究结果也未与现有文献分析出的传播学领域研究热点进行对照。  相似文献   

7.
基于主题模型(LDA)的查新辅助分析系统设计研究   总被引:1,自引:0,他引:1  
马林山  郭磊 《现代情报》2018,38(2):111-115
文章概述了主题概率模型(LDA)的计算原理和方法,以及开源R语言中lda程序包采用快速压缩吉普抽样算法分析语料库的处理流程。设计了基于LDA模型的查新辅助分析系统设计功能框架,对其功能、编程实现思路和工作流程做了描述。最后结合课题查新实例,详述了采用LDA模型通过相关文献关键词进行潜在主题挖掘,对比分析课题研究内容,对课题给出客观评价的过程。结果表明,基于主题模型的查新辅助分析系统可以快速有效挖掘相关文献主题,降低查新员对相关文献的分析难度,提高课题评价的客观性,整体辅助分析效果良好。  相似文献   

8.
论文以浙江省农业科学院为例,在对该机构科研人员进行抽样调查的基础上,分析科研人员基本特征、2009~2011年科研情况、对科研资助的总体评价及科研资助的影响因素,结果表明:科研项目的资助与申请者的年龄、学历、职称、从事科研工作年限和研究领域等关系不显著,而与研究基础相关,并且国家政策导向对科研项目的获批有显著影响。  相似文献   

9.
[目的/意义]对已有研究成果进行梳理有利于明晰国内科学数据管理研究发展现状。[方法/过程]结合生命周期理论与LDA模型,对1992—2021年国内科学数据管理研究相关文献进行统计分析,以识别我国科学数据管理研究的潜在主题、揭示阶段特征与发展趋势。[结果/结论]依照文献分布特征将我国科学数据管理研究阶段分为萌芽阶段、发展阶段与繁盛阶段。从主题维度来看,国内科学数据管理相关主题围绕科学数据的服务、政策、标准、平台建设与功能拓展、科研用户及科学数据共享而展开。从演进过程来看,国内科学数据管理经历了科学数据存储研究、科学数据共享基础设施建设研究、多主体全方位科学数据管理与服务研究三个阶段的主题演进。从发展趋势来看,科学数据政策、科学数据标准、科研人员以及科学数据共享主题的研究是未来该领域的研究热点。  相似文献   

10.
杨慧  杨建林 《现代情报》2016,36(5):71-81
政策文本是政策生命周期的核心要件,对其进行多种维度的内容挖掘与国内外的对比分析不但有利于指导政策的制定,还有益于把握国际局势,以提升国家软实力。对于政策文本内容的量化研究而言,目前的学术成果采用的方法主要有基于数理统计的内容分析类、文献计量类、社会网络分析类、文本挖掘类等方面。文章选取国际气候领域作为试点对象,采用主题模型的新视角,对采集到的政策文本数据进行基于语义的主题挖掘,并同时融合词频及分布形态研究、时间离散化、实证研究等方法综合对比分析我国与美国、欧盟的气候政策情况。最后,根据数据证据为我国相关政策的制定提出完善建议。  相似文献   

11.
[目的/意义]基于科技文献构建问题—方法矩阵,探索科技文献研究内容新颖性评估方法,辅助科技查新应用。[方法/过程]对科技文献内容进行信息抽取,提取研究问题和方法内容文本并构建问题—方法矩阵。利用LDA模型对科技文献采用的问题与方法进行分类,将科技文献在问题—方法矩阵中定位并可视化。通过设定阈值划分区域,确定待评估科技文献研究问题和方法所在区域,进行新颖性评估分析,并通过实验验证该方法的有效性。[结果/结论]提出的基于问题—方法矩阵的文献新颖性评估方法通过可视化方式不仅有利于辅助科技查新判断,还可服务于创新选题。[局限]基于科技文献的研究问题与方法信息抽取和新颖性评估计算的自动化方法有待进一步研究。  相似文献   

12.
丁堃  李鑫 《科学学研究》2008,26(2):373-377
 随着中文文本挖掘技术的不断发展,使以内容分析为基础的科技文献计量成为可能。本文以我国知识管理研究出现以来的5000余篇学术期刊载文为分析对象,以特征选择算法抽取出10,000个特征词为基础,采用向量空间模型(VSM)和文本挖掘技术中的有序聚类方法,揭示出知识管理学科领域的研究内容在我国经历的三个发展阶段,同时还从特征词入手对这三个发展阶段的研究特点进行了归纳总结。将文本挖掘的相关技术应用到学科领域发展的研究中是一个很有意义的尝试,也为今后相关领域的研究工作起到一个很好的借鉴作用。  相似文献   

13.
边扬帆  成全 《情报探索》2020,(1):112-119
[目的/意义]旨在了解国内科技政策的热点及政策导向,以期为国家科技政策的制定和完善提供参考。[方法/过程]以2015-2018年国务院和科学技术部印发的科技政策为研究对象,运用共词分析法和社会网络分析法,以及TF-IDF算法对热点主题词进行提取并分析,采用狄利克雷主题模型(LDA)提取科技政策主题并进行主题聚类,挖掘重点关注的政策主题,并对科技政策文本运用MDS(multidimensional scaling)方法进行降维分析,并对科技政策的走向进行分析。[结果/结论]国家科技政策的制定主要围绕高新技术产业、科研诚信、专项研究、科技人才发展、科技成果转化、知识产权等主题领域进行;关于教育、产能激励、装备制造、创新创业、众创空间、加工贸易、科技成果转化与知识产权保护等主题领域已经引起并将持续受到相关政府部门的重点关注。  相似文献   

14.
随着科研单位“高、精、尖”仪器设备购置数量急剧增长,仪器设备的验收管理工作显得尤为重要。本文调研了国内仪器设备购置专项相关文献,并重点从项目承担单位角度出发,详细介绍了仪器设备从采购到验收工作中健全验收管理办法和流程,制定了系统的验收技术方法,统一验收标准等措施,阐述了当中的经验和注意事项,对仪器设备采购和验收管理提供了借鉴和参考。  相似文献   

15.
刘贺  胡颖  王冬梅 《科研管理》2019,40(9):282-288
大型科研仪器作为发现自然规律、探索未知领域、实现技术变革的重要科学研究工具,是探索前沿科学、助力社会经济发展和科技强国的技术基础和重要手段。近年来,随着中国科技投入的不断增加,大型科研仪器规模也不断壮大,重大原创成果不断出现,但利用率较低的问题也逐渐凸显出来。本文通过对全国50万元以上大型科研仪器设备进行分析,从仪器原值、类别、所属机构、所处地理等方面,对目前的开放共享情况进行分析总结,并提出合理的建议。  相似文献   

16.
研究国内科学仪器设备购置专项相关文献,并重点从项目承担单位角度出发,详细介绍修缮购置专项仪器设备购置类(以下简称“修购专项”)从项目规划、申报、实施到项目验收的全生命周期过程管理,阐述当中的经验和注意事项,为修购专项管理提供借鉴和参考。  相似文献   

17.
提出一种基于LDA主题模型的科技新闻主题分析方法,选取2009—2018年中、澳、英、美4国极地科考新闻数据,从主题类型和主题强度角度进行主题演化分析。在中文新闻中,极地测绘等主题的热度上升,极地冰川科考主题的热度下降;在英文新闻中,热门主题为极地冰川科考与极地海洋科考;其余主题热度相对稳定。研究结果表明,该方法可以有效识别科技新闻主题并揭示其演化趋势,可以有效改善网络环境下科技情报分析的自动化程度。  相似文献   

18.
王博  刘盛博  丁堃  刘则渊 《科研管理》2015,36(3):111-117
主题模型是一种有效提取大规模文本隐含主题的建模方法。本文将Latent Dirichlet Allocation(LDA)主题模型引入专利内容分析领域,实现专利主题划分,解决以往专利主题分类过于粗泛、时效性差、缺乏科学性等问题。并在原有模型基础上构建LDA机构-主题模型,对专利知识主体和客体联合建模,实现专利主题和机构之间内在关系分析。最后,以通信产业LTE技术领域为例,验证该模型可以有效用于专利主题划分,实现各主题下专利知识主体竞争态势测度。  相似文献   

19.
摘要:本文基于LDA主题建模和Logistic回归等文本量化分析方法,从政策主题、政策工具及创新价值链等三个维度对我国中央及地方政府的区块链政策进行全面的比较分析。研究发现:中央政府主要运用法规管制和技术基础设施两种政策工具,重点关注基础理论研究和技术研发环节,而地方政府主要运用试点示范与资金投入等政策工具,重点关注区块链产业应用环节。为更好地促进区块链技术协调发展,应当优化政策工具结构配比,强化人才建设和技术支持;完善环境型政策工具内部结构,提高需求型政策工具的应用比重,构建与创新价值链相应环节高度匹配的政策工具组合。  相似文献   

20.
随着时代的发展、科技的进步,精密仪器与装备广泛应用于科研、国防、工业制造及人民生活等领域,是科技研究成果的重要产出形式,也是国家创新能力和科学技术可持续发展水平的重要标志,更是社会进步的重要基础和保障。文章介绍了精密仪器与装备的作用和发展现状,剖析了目前精密仪器与装备发展存在的核心问题,并对精密仪器与装备未来发展提出了建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号