首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

2.
为尽早发现颠覆性技术,同时全面监测各个子领域中具有颠覆性潜力的新兴和热点主题,提出一种融合属性计量、LDA模型与网络中心性指标的颠覆性技术识别方法。首先,从技术突破性和市场潜力两个维度设计评价指标,筛选出具有高颠覆性潜力的技术文献;其次,基于LDA模型将技术文献划分为不同子领域;最后,采用中心性指对分类网络中技术节点的影响力进行识别,基于特征向量中心性得到颠覆性主题子网,综合度中心性、中介中心性和接近中心进一步区分颠覆性热点主题和新兴主题。基于类脑智能领域的专利实证研究表明,分类网络可以很好地识别不成熟子领域中颠覆性技术的热点主题和新兴主题,这是对全局网络识别结果的补充和完善。  相似文献   

3.
[目的/意义]对比论文数据和专利数据的特征指标,识别热点、新兴、潜在和消亡研究前沿主题。[方法/过程]利用LDA主题模型,对智能汽车领域相关的论文数据和专利数据进行主题提取,计算两个数据源下各主题的强度和主题新颖度并进行对比分析。[结果/结论]本文识别出路径规划技术等热点研究前沿6个、智能计算等新兴研究前沿2个、安全认证技术等潜在研究前沿6个、车载平台等消亡研究前沿6个。本文在前沿识别方法上进行了创新,有效识别出领域内研究前沿并进行分类,为相关机构和研究人员提供借鉴。  相似文献   

4.
【目的/意义】基于Rao-Stirling 指数和LDA模型进行领域学科交叉主题识别,并以纳米科技为例验证将 Rao-Stirling 指数和LDA模型用于领域学科交叉主题识别的有效性和适用性。【方法/过程】基于Rao-Stirling 指数 测度领域文献学科交叉程度,设定阈值发现高度学科交叉文献。基于LDA模型对筛选出的学科交叉文献进行主题 识别,发现学科交叉点和学科交叉研究主题。【结果/结论】基于Rao-Stirling 指数从引文的角度进行领域文献学科 交叉测度可以有效地发现与某领域相关的学科交叉文献,且有利于大数据集的学科交叉文献发现研究的实现。基 于LDA模型进行学科交叉主题识别可以有效地发现学科交叉主题。两方法的组合应用为发现某领域学科交叉主 题研究提供一种新视角。  相似文献   

5.
王志宇  刘雨薇 《现代情报》2024,(3):47-58+119
[目的/意义]利用政务微博信息构建自然灾害知识图谱,旨在为相关部门加强自然灾害事件的管理提供知识层面的参考价值。[方法/过程]以森林火灾事件为例,选取政务微博信息资源,首先使用LDA主题模型划分微博资源主题;其次构建自然灾害知识图谱的模式层和数据层,包括本体构建、实体抽取、关系抽取和数据融合等环节;最后使用Neo4j图数据库实现自然灾害知识图谱的存储与检索,实现自然灾害信息的组织与可视化。[结果/结论]构建了基于主题划分的自然灾害知识图谱,实现了自然灾害信息的主题知识关联与规范化处理,对提升政府部门防范与管理自然灾害的科学决策水平具有积极作用。  相似文献   

6.
[目的/意义]随着产业和技术复杂化,需要融合多个技术领域才能有效进行创新。研究技术融合趋势,有利于提供产业创新路径,促进技术融合,识别新兴技术。[方法/过程]采用LDA主体模型和社会网络方法,以关节机器人专利为例,对专利文献进行主题分类,提炼技术关键词,构建技术关键词间的主题共现矩阵,对技术融合进行测度并分析技术融合趋势。[结果/结论]研究结果发现:关节机器人专利技术融合呈小世界趋势,机械本体与驱动结构,控制系统与驱动结构融合趋势不明显,传感器是关键核心技术,机器人与人工智能结合是产业技术发展的新兴领域。  相似文献   

7.
提出一种基于企业技术同心多元化进行研发合作伙伴识别与选择的框架与方法,从企业现有技术能力、研发资源及其发展需求出发,为其定制可发展的技术方向和确定可开展合作研发的最佳伙伴。首先利用关联规则挖掘目标企业的同心多元化技术领域,然后利用LDA主题建模对候选研发合作伙伴的专利内容进行文本挖掘并划分为不同的技术主题,最后构建包括专业能力和合作能力两个维度的专利评价体系对候选合作伙伴进行评估,以确定每个技术主题下的最佳合作伙伴。进一步以天士力控股集团有限公司作为目标企业进行实证分析,研究表明上述框架与方法适用、有效。  相似文献   

8.
[目的/意义] 运用概率主题模型全面研究专利文献主题演化,分析专利技术发展过程及趋势。[方法/过程] LDA模型按时间窗口对专利文本建模,困惑度确定最优主题数,按专利文本结构特性提取主题向量,采用JS散度度量主题之间的关联,引入IPC分类号度量技术主题强度,最后实现主题强度、主题内容和技术主题强度3方面的演化研究。[结果/结论] 实验结果表明:该方法能够深入挖掘专利文献的主题,可以较好地分析专利技术随时间的演化规律,帮助相关从业人员了解专利技术的演化过程及趋势。  相似文献   

9.
[目的/意义]构建基于LDA的企业竞争对手识别模型,在海量同领域企业中精准识别竞争对手,剖析其技术发展领域,为企业制定竞争策略提供情报支撑。[方法/过程]首先,根据技术领域与目标企业下载专利数据;其次,将目标企业与相同技术领域企业专利数据合并,对专利摘要进行主题建模并借助LDAvis可视化工具与相对接近度计算识别潜在竞争对手;最后,借助LDA模型、困惑度与主题相似度计算潜在竞争对手技术多样化指数(TD)与技术专业化指数(TS),通过竞争力气泡图识别竞争对手类型,从而完成竞争对手识别模型的构建。[结果/结论]构建的企业竞争对手识别模型可以较好地识别出目标企业的竞争对手,并建议目标企业应积极对标竞争对手的技术领域,制定相应发展战略,从而促进企业在激烈的市场竞争中脱颖而出。  相似文献   

10.
[研究目的]专利是技术信息的载体,以专利数据为研究对象,在产业链视角下进行技术主题提取及识别,从专利数据中识别新兴技术可以有助于把握新兴技术的发展动态。[研究方法]首先,根据产业链的概念和专利IPC分类号构建出产业链各个层级对应的专利集;然后,结合专利文本的特点提出EW-LDA主题模型,从词汇权重和语境两个角度对LDA主题模型进行改进,使用EW-LDA模型提取出产业链的各个层级中得技术主题;最后,根据专利文本及新兴技术的特点,从新颖度、热点度、关注度和增长率四个方面入手构建新兴技术主题识别指标,将技术主题分为新兴、热点、潜在、衰退和噪音五类。并在人工智能领域的专利数据上进行实验。[研究结论]结果表明,提出的EW-LDA主题模型具有更好的主题建模效果,产业链视角下的新兴技术主题识别方法可以有效的识别出新兴技术。  相似文献   

11.
[目的/意义]通过对美国空军公布的专利进行研究,揭示其不同阶段的重点研究方向,更好地把握技术变化,为相关决策提供参考。[方法/过程]引入时间维度将主题模型生成的"文档—主题"分布转换为"年份—主题"分布,结合t-SNE降维并可视化来划分时间段。采用专利分类号与技术领域的映射关系和社会网络分析方法做粗粒度的技术领域演化及可视化分析,并综合运用LDA和JS散度对其中某一技术领域做细粒度的技术主题演化与可视化分析。[结果/结论]将美国空军公布的1958—2019年的专利划分为7个时间段,得到技术领域演化河流图以及"测量"技术领域的技术主题演化桑基图。结果表明该方法可以较好地识别美国空军不同阶段的核心技术演化过程,是从专利的角度研究国防技术发展趋势的一次积极探索。  相似文献   

12.
[目的/意义]为提高新兴技术主题识别的全面性、准确性,在专利、论文信息的基础上,融入舆情信息,提出一种复合型的新兴技术主题识别方法,以期能为微观层面新兴技术主题识别方法的研究提供参考。[方法/过程]面向专利、期刊论文、学位论文、会议论文、舆情共5种不同的科技文献类型,运用LDA模型从多源异构文本中获取主题词,并进行融合分析,提取候选新兴技术主题;设计识别指标体系,弥补现有指标体系缺乏未来前景相应指标的不足;运用CRITIC法进行综合评价,确定最终的新兴技术主题。[结果/结论]以智能网联汽车为实验对象,成功识别出多传感器融合信息技术这项新兴技术,实验结果与业界分析保持一致,说明多源信息视角下的多指标新兴技术主题识别方法能有效地对多源异构文本开展新兴技术的主题识别。  相似文献   

13.
【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。  相似文献   

14.
[目的/意义]专利是企业技术创新活动的重要成果,对专利数据进行分析,有利于客观评价企业技术创新能力。[方法/过程]从计量的角度对企业专利数据进行分析的同时,结合机器学习的方法,通过LDA模型对专利摘要文本进行内容挖掘,构建基于专利文本内容的评价指标,建立由专利数量、专利趋势和专利内容三方面指标组成的技术创新评价体系。[结果/结论]采用熵值法确定各项指标对企业技术创新的影响权重,并通过实验对国内自主品牌制造企业进行技术创新评价,说明了评价方法的现实意义。  相似文献   

15.
大科学时代科研仪器与高端科研成果产出存在紧密的联系,科研仪器作为探索自然规律的重要工具,在科研领域的作用不容忽视。本研究从文献计量视角对我国科研仪器研究文献展开分析,通过可视化工具及LDA模型进行文本挖掘揭示科研仪器研究的知识结构。分析发现以科研仪器为主题的文献数量增长迅速,作者合作密度较低,科研仪器研究主题覆盖范围在逐渐扩大,结合人工编码及LDA文本挖掘确定科研工作、科研基础、科研设备以及科研人员4个主题,其中科研工作与科研基础主题在我国科研仪器研究知识结构中占比较多,科研设备与科研人员主题的研究力量薄弱。  相似文献   

16.
【目的/意义】以近两年(2018-2019)国内有代表性的四件负面公共安全突发事件为例,对其微博评论进行 聚类,并找出影响微博用户消极情感倾向的因素,为政府进行舆情应对处理提供建议。【方法/过程】结合社会网络 分析法与LDA主题模型对评论文本进行关键要素提取,得出评论归因维度,进而通过情感分析软件对各维度进行 情感倾向度分析。【结果/结论】研究结果表明:微博用户主要从事件主体、事件分析、事件处置、社会关系、新闻媒 体、同理心、个人经验七个方面对公共安全突发事件进行评论,其中,事件分析、事件处置、事件主体、社会关系是微 博用户消极情感倾向的主要影响因素,据此本文提出了相应的舆情疏导建议。【创新/局限】本文基于归因理论,创 新性的提出了影响微博用户情感倾向度的归因维度体系,但舆情事件集中数量有限且未进行更细粒度的情感分类 分析。  相似文献   

17.
张亮 《现代情报》2016,36(2):53-56
针对现有的标签推荐方法存在的推荐准确率不高与效果不理想等问题,本文提出了基于LDA主题模型的社会化标签推荐方法。该方法利用LDA主题建模技术将传统的基于对象间关系的推荐方法扩展到融合对象间关系与资源内容特征的统一推荐。实验结果表明,该方法取得了理想的预期效果,能够显著提高标签推荐的质量与效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号