首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 984 毫秒
1.
[目的/意义] 针对现有弱信号全自动识别研究尚不完善的问题,提出基于LDA-BERT融合模型的弱信号全自动识别方法。[方法/过程] 基于无监督的LDA主题模型对文本数据集进行主题分类,构建主题和术语双层过滤函数从主题分类的结果中提取早期预警信号,通过紧密中心度、主题权重以及主题自相关性三大度量函数评价主题的弱性,并基于主题内术语的归一化频率和概率提取出弱信号。最后,运用BERT深度学习模型从语义层面对弱信号上下文及其类似词进行扩展。[结果/结论] 以2021年1月初疫情重爆发事件为例,使用爆发前三月的社交媒体新闻数据集对构建的系统模型进行验证。实验结果表明,该方法可有效检测出相关弱信号,并挖掘出弱信号随时间推移逐渐增强的演化特性。此外,该融合模型在实现弱信号全自动识别的同时,也表现出较单一模型更强的结果可解释能力。  相似文献   

2.
[目的/意义]颠覆性技术关乎国家竞争力和国际地位,科学准确地识别出颠覆性技术主题,能够解决技术发展过程中主题不够明确、发展路径不够清晰等问题,以此有效把握技术发展动态,调整国家科技战略布局,更好地抢占国际竞争制高点。[方法/过程]以能源科技领域的专利文本数据为研究客体,构建基于Word2Vec词向量与LDA(Latent Dirichlet Allocation)主题向量的融合特征向量,并引入K-means算法优化主题聚类效果,最后结合颠覆性技术特征指标,识别颠覆性技术主题,利用DTM(Dynamic Topic Model)模型揭示该领域颠覆性技术主题的发展状况。[结果/结论]通过人工验证和模型结果对比可以发现,实证结果具有合理性,且模型的精准率、召回率、F1值均高于同类型的主题模型,证明该方法对颠覆性技术主题识别具有较好效果。  相似文献   

3.
俞琰  赵乃瑄 《图书情报工作》2018,62(21):118-126
[目的/意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法/过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果/结论]实验结果表明本文提出的模型包含的术语信息提高了主题生成的质量,使主题表示具有更强的可读性和主题判别性。  相似文献   

4.
[目的/意义] 采用hLDA从专利语料库中抽取层次主题,以描述隐藏在专利文本中的技术结构,并基于层次主题随时间变化情况进行技术演化分析。[方法/过程] 从专利术语中获取闭频繁项集,并基于此建立关联规则网络来度量术语的重要性和术语间语义关系强弱,进而对语料库进行重构,并对不同时间片段的专利集合进行层次主题结构抽取。[结果/结论] 将本方法应用于硬盘驱动器磁头领域的专利数据分析,实证结果表明该方法是一种可行和有效的技术演化分析方法。  相似文献   

5.
[目的/意义]在日趋激烈的国际竞争背景下,颠覆性技术被认为是引领技术和产业发展方向、助推企业和产业实现“弯道超车”的绝佳机会窗口。为此,预测和部署颠覆性技术对于国家抢占科技制高点、重塑价值链均具有重大战略意义。[方法/过程]结合深度学习和离群点检测算法,构建基于离群点视角的颠覆性专利预测框架。该研究框架包括五个关键步骤:首先,利用BERT模型和TF-IDF算法将专利文本和专利分类号转化为可计算的高维向量表示,并结合PCA算法进行降维和特征融合;其次,采用三种离群点检测算法,以增量迭代的方式识别离群专利;再者,通过数据集修正,从离群专利中保留新技术专利;在此基础上,通过深度剖析新技术形式颠覆性专利的核心特征,构建有效的测度指标体系;最后,利用深度学习DNN模型拟合专利指标和颠覆性专利标签之间的关联关系,从而实现从大量的新技术专利中对潜在颠覆性专利的有效预测。[结果/结论 ]以人工智能为例,验证了该方法的有效性。结果共预测出411条颠覆性专利,这些专利主要涉及六大颠覆性方向:多模态预训练大模型、增强现实、生成式AI、自动驾驶、图像识别与处理和智能通信。这些技术的推广和应用,将对未来的科技和...  相似文献   

6.
利用专利文献数据识别技术领域的技术主题演化发展路径并分析其发展趋势,对于科技界、企业界进行专利技术创新具有重要的意义。首先,使用Open IE 5.1进行SAO (subject-action-object)三元组抽取,基于LDA (latent Dirichlet allocation)模型进行主题识别,根据TRIZ技术创新思想,基于action语义词典将技术主题划分到四个维度;然后,通过计算SAO三元组之间的相似度来测度技术主题之间的语义关联构建技术主题创新演化路径,并利用可视化技术构建技术主题创新演化路径可视化图谱,利用该图谱辅助分析技术主题演化脉络及其发展趋势。最后,通过石墨烯超级电容器(集流体)领域的实证,对该领域的技术问题(problem to problem,P-P)主题、技术功能(solution to solution,S-S)主题、解决方案(problem to solution,P-S)主题和技术效果(solution to problem,S-P)主题的创新演化路径进行解读分析,验证了本研究提出方法的可行性和有效性。  相似文献   

7.
颠覆性技术可能引发新一轮科技革命,是提升未来经济社会发展和国家竞争力的重要“利器”。通过对近5年颠覆性技术识别方法研究文献的梳理,归纳国内外学者关于颠覆性技术特征、颠覆性技术识别和预测方法的研究进展,为颠覆性技术的识别和培育提供参考与借鉴。重点运用文献调研的分析方法,总结5类颠覆性技术识别和预测方法的最新研究成果和局限性。结果表明,基于模型测度的分析方法、基于多维指标评估框架的分析方法和基于文献计量的分析方法仍然是颠覆性技术识别中比较常用的方法,基于大数据关联挖掘分析的方法开始被应用到颠覆性技术的识别中。由于颠覆性技术发展是一个动态的过程,未来应更多地考虑基于创新全过程,探索对颠覆性技术进行动态、分类识别。  相似文献   

8.
基于定量分析识别技术前沿并测度各国的技术差距具有重要的理论和现实意义。本研究初步探讨了基于专利数据,利用文献计量学的引文耦合分析法,进行技术前沿的识别和技术差距粗略测度,并以锂离子电池为例进行实证研究。研究结果表明,该方法所识别出来的中国、美国和日本在锂离子电池领域的技术前沿以及各国之间的技术差距,与产业现状具有一定一致性,是一条可行的研究途径。  相似文献   

9.
基于专利中术语共现关系,采用同质块建模方法对连续时间段术语共现网络的变化情况进行聚类,以识别技术演化过程中的新兴技术系统构成,并且以硬盘驱动器领域磁头技术为例进行实证分析。实证结果表明,该方法能够对技术系统构成进行有效识别。  相似文献   

10.
[目的/意义] 针对LDA模型主题识别结果通常包含噪声主题的问题,建立科学有效的主题过滤方法,排除噪声主题,确保主题识别及后续演化分析的准确性。[方法/过程] 基于关键词之间的共现关系,构建关键词关联度指标(KRI),借助定量手段进行主题筛选和过滤。以单细胞研究领域为例,计算各主题-关键词分布的KRI值,与人工判读结果进行对比分析。[结果/结论] 实验结果表明,该方法能够有效排除LDA模型识别结果中的噪声主题,提高主题识别的准确性,也在一定程度上降低了主题识别过程对人工判读的依赖性。  相似文献   

11.
国内外颠覆性技术发现方法研究综述   总被引:6,自引:1,他引:5  
[目的/意义] 对国内外颠覆性技术发现方法进行系统梳理,分析存在问题,提出未来研究方向,为今后颠覆性技术识别方法的研究奠定基础。[方法/过程] 在辨析颠覆性技术与相关技术概念的基础上,分析总结目前各种颠覆性技术发现方法及优缺点,并整理归纳各方法所依据的主要评判思想和指标。[结果/结论] 现有的颠覆性技术发现方法主要是基于技术管理与应用角度的主观分析,基于专利或科学论文统计分析的客观性探测研究也开始少量出现,但均处于待发展阶段,仍然存在许多不足之处;颠覆性技术发现方法未来研究方向应该是利用情报学理论方法,基于专利与论文两者相结合的数据源,从客观性角度建立颠覆性技术识别的合理、适用的指标体系,提升技术发现的准确性和有效性。  相似文献   

12.
颠覆性技术是一个具有复杂的内在结构的技术群。从空间维度来看,颠覆性技术是包含了主导技术、辅助技术、支撑技术的复杂技术群,涉及多学科、多领域。在此背景下,运用科学计量的方法对颠覆性技术进行科技评价和科学技术演变规律探索面临挑战,实质表现为数据检索。本文探索了一种基于机器学习的专利数据集构建新策略,将专利检索任务作为机器学习的二分类任务,类似于信息检索中基于主动学习的查询分类思想,并提出了将F-measure特征最大化方法与CNN(convolutional neural networks)模型相结合的文本分类改进方法。本文以人工智能(artificial intelligence,AI)技术域为例进行训练实验,实验结果的准确率、召回率和F1值分别达到98.01%、97.04%和97.89%,这表明本文提出的策略能够精准地识别人工智能专利,提高了专利检索的准确率和召回率,以利于构建精、准、全的人工智能技术域专利数据集。  相似文献   

13.
[目的/意义] 为有效探测科技文献中潜在的研究热点,研究文献中关键词突发的特征条件,构建突发词识别模型对促进科研人员精确把握研究方向具有重要意义。[方法/过程] 获取各年度内关键词及词频,构建关键词-年度矩阵,将分析时间段划分为标准窗口、观察窗口和表现窗口,在观察窗口内利用多测度突发词探测模型识别具有突发特征的关键词;在表现窗口内利用LDA挖掘主题词汇作为热点词集合。设计突发词覆盖率指标,辅助滑动时间窗口法,计算不同时间窗口内突发词集合和热点词集合的覆盖率,验证模型识别准确性。[结果/结论] 3次滑动时间窗口,计算得到3次突发词覆盖率都在70%以上;与Citespace突发词的对照试验中,本模型3次覆盖率均大于前者,表明设计的突发词探测模型性能良好。  相似文献   

14.
[目的 /意义]提出一种潜在学科交叉主题识别方法,主要开展学科交叉主题识别与知识融合测度两方面的研究,以识别处于知识融合潜伏期和萌芽期的潜在学科交叉主题。[方法 /过程]首先,设计并提出学科关联实体抽取规则,构建基于学科关联实体的学科交叉潜力计算方法,以实现学科交叉主题识别,解决潜在交叉点识别的问题;其次,构建以融合强度、融合广度、融合深度为中心的学科交叉主题知识融合阶段特征测度指标与方法,以揭示知识融合过程;最后,基于交叉主题知识融合阶段特征与判断规则,识别处于潜伏期与萌芽期的潜在学科交叉主题。[结果 /结论 ]以合成生物学和水稻遗传改良领域为例,开展潜在学科交叉主题识别研究,以验证方法的可行性。结果表明,提出的方法能够识别学科领域之间的潜在交叉主题,为高效探测有潜力的学科交叉研究领域,发掘未来的研究发展动向和机会提供可能。  相似文献   

15.
[目的/意义]基于大量专利文献数据的核心技术主题识别有助于识别某技术领域的关键技术、分析关键技术的发展方向,是进行技术创新的基础情报工作,对于研究人员、企业乃至国家层面都具有一定的意义。[方法/过程]提出基于Chunk-LDAvis的核心技术主题识别方法,首先基于经典LDA模型进行主题识别,然后利用名词组块对初始LDA主题识别结果进行标注,构建Chunk-LDA主题识别结果,提高其可解读性;然后基于社会网络分析方法构建主题网络,识别核心技术主题;基于R语言的LDAvis工具包绘制可交互的Chunk-LDAvis核心技术主题关联分析图谱,发现核心技术主题的隐含联系,辅助进行核心技术主题识别。[结果/结论]通过对纳米农业领域进行实证研究,验证了本文提出方法的准确性和可行性。  相似文献   

16.
宋凯  陈悦 《情报学报》2024,(1):25-33
揭示技术演化脉络是把握技术发展规律的前提,基于专利信息的主题挖掘是基于技术发展微观机制呈现宏观规律的重要研究内容,对技术超前布局和创新驱动实践具有重大意义。技术主题动态演化分析DPL-BMM (Dirichlet process biterm-based mixture model with labelling)是一种附有标签的基于双项狄利克雷过程的混合模型,其突破了传统主题模型在进行主题识别时需固定主题数目的局限,通过增加技术主题表示模块使识别到的技术主题内容更加明确。本文以人工智能领域技术为例进行实证分析,研究结果表明,该方法对技术主题及其演化脉络展示具有实际应用价值。  相似文献   

17.
侯丽  李姣  侯震  陈松景 《图书情报工作》2015,59(23):115-123
[目的/意义] 从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业术语的映射提供基础,进而优化健康类知识服务平台的知识组织与管理性能。[方法/过程] 设计规则与N-Gram相结合的健康术语新词的识别模型,采集公众查询数据,开展实验验证,通过多次实验,逐步完善过滤语料集合,结合人工判读,不断优化并验证方案的有效性。[结果/结论] 从互联网中公众提问句抽取出规则,结合统计算法进行公众使用的健康类新词抽取,该技术方法对识别公众使用的健康术语具有一定的通用性,能为建立公众术语与医学术语映射提供数据基础。实验结果表明:基于规则进行公众日志数据预处理,能为后续的实验方案提供较好的预处理文本,而采用N-Gram及各种过滤规则结合的术语识别方法,能较好地识别发现短文本中的新词。  相似文献   

18.
魏巍  郑杜 《图书情报工作》2018,62(5):115-124
[目的/意义]社交媒体的出现为医疗健康数据的收集提供了新的途径,应用自然语言处理技术从社交媒体中抽取患者报告的ADR(Adverse Drug Reaction,药物不良反应)信号对于改善药物不良反应监测的临床和科学知识具有很大的潜力。然而,从社会媒体中提取患者报告的ADR信号仍然面临重大挑战。为此,开发一个利用高级自然语言处理技术从健康主题社交媒体中抽取ADR信号的研究模型。[方法/过程]该模型首先采用基于多词典源匹配的方法,从嘈杂的社交媒体中识别医学实体;然后采用最短依存路径核函数为基础的统计学习方法提取药物不良事件;并利用药品安全数据库的语义知识过滤药物的治疗和适用症信息以及否定的药物不良事件;最后,对报告源进行分类剔除传闻等噪音信息。[结果/结论]通过收集糖尿病论坛上的数据对模型的有效性进行验证,结果显示该模型的每一部分都有助于其整体性能的提升。  相似文献   

19.
黎楠  杜永萍  何明 《情报工程》2015,1(3):090-097
LDA 主题模型可用于识别大规模文档集中潜藏的主题信息,本文提出了一种基于LDA 建立发明人兴趣主题模型的方法,合并每位发明人的专利数据,专利信息基于发明人进行划分,将标准的文档- 主题-词的三层LDA 模型变为专利数据中的发明人- 主题- 词的发明人兴趣模型,实现发明人的主题发现,并利用该模型中主题分布之间的相似性进行发明人的个性化推荐。在采集真实专利数据集上的实验结果表明该方法相比传统的向量空间模型方法和隐马尔科夫模型方法具有更高的准确率,推荐效果更优。  相似文献   

20.
[目的 /意义]技术机会识别是企业技术创新活动得以顺利开展的重要前提,及时发现和把握有价值的技术机会对技术创新突破意义重大。[方法 /过程]从主题挖掘与专利评估的视角提出一种技术机会识别方法,首先应用主题模型识别技术领域涵盖的技术主题并进行专利聚类;其次在技术主题层面展开细粒度分析,综合考虑技术机会应具备前沿性、价值性和时效性的重要特性,采用突变级数法和离群因子算法评估技术主题中的高价值专利和离群专利形成核心专利集,并计算每个技术主题的专利平均年龄;最后,将技术主题中的核心专利占比和专利平均年龄作为核心指标绘制技术机会识别地图,用于识别技术机会。[结果 /结论 ]以智慧农业领域为例,对所提方法进行实证,识别智慧农业领域的5个技术机会,为创新主体的技术研发提供决策支持。但识别结果的定量验证以及融合多源数据进行技术机会识别有待进一步探索。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号