首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 154 毫秒
1.
[目的/意义]分析技术主题演化过程可以梳理技术发展脉络,对于发展创新、预测技术发展趋势具有重要意义,但是从语义角度分析技术主题演化轨迹的研究较少。因此,从语义的角度出发,分析技术主题演化过程。[方法/过程]提出基于非负矩阵分解的改进的动态非负矩阵分解模型对专利文本进行动态主题建模,并利用TextRank算法抽取名词短语进行标注,增强所抽取技术主题的可解释性。在此基础上,利用词向量的方式计算技术演化轨迹,并进行可视化展示。[结果/结论]对2002年、2005年、2008年、2011年和2014年的五方专利进行实证分析,识别出65个技术主题及其演化轨迹,表明方法的可行性。  相似文献   

2.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

3.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

4.
俞琰  赵乃瑄 《图书情报工作》2018,62(11):120-126
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。  相似文献   

5.
[目的/意义] 基于AToT模型的多维动态演化分析,不仅可以全面地了解技术主题的动态变化,把握不同时期不同企业的技术布局变化,还可以掌握产业链各环节的技术发展状态,为企业创新提供强有力的决策支持。[方法/过程] 首先提取专利文献摘要中的名词或者名词短语,然后利用AToT模型揭示专利文献中隐含的主题演化及专利权人的技术关注点,最后结合产业链信息把握产业各个环节的发展状况。[结果/结论] 实验结果证明,该方法能够高效地分析专利的内容,揭示企业技术主题的动态演化过程。  相似文献   

6.
[目的 /意义]探索融合引用和文本特征的专利技术创新路径识别分析方法,有助于规避技术创新风险、优化选择技术创新路径,对提升创新主体的创新能力,促进现代产业发展,布局科技前沿发展战略等具有重要的意义。[方法 /过程]首先基于Node2Vec模型和Doc2Vec模型将专利引用和文本数据表示学习为可计算的高维向量;然后利用LDA主题模型进行技术主题识别并结合T-SNE算法降维,添加时间维度构建初始技术创新路径;最后,在专利引用和文本特征向量表示结果基础上,开展向量融合拼接从而实现融合引用和文本特征的技术创新路径识别。[结果 /结论 ]通过对超级电容器领域的实证,验证提出的融合引用和文本特征的的技术创新路径识别方法能够从特定领域专利文献中高效、准确地识别专利技术创新路径,证明方法的可行性和有效性。  相似文献   

7.
梁爽  刘小平 《图书情报工作》2022,66(13):138-149
[目的/意义]梳理国内外基于文本挖掘的科技文献主题演化相关研究,对主题演化分析中使用的各种方法进行分类、归纳与总结,并提出现有研究存在的不足,为主题演化研究提供新的思路与借鉴意义。[方法/过程]依照国内外学者进行主题演化研究的一般流程,对数据集选取与对象分析、主题识别研究、主题演化研究(主题演化时序分析、主题强度演化分析、主题内容演化分析)3个分析层面中所使用的各类模型、指标与方法进行梳理比较与优缺点总结,提出现有研究的局限性并对未来发展做出展望。[结果/结论]当前研究已具有一定规模和较为成熟的分析体系,但仍存在以下不足:数据来源较为单一;LDA及相关扩展模型存在的弊端需进一步克服;缺乏对其他机器学习及深度学习算法的探索应用;演化分析方法需相互结合、互补互融。未来应针对以上问题做出相应改进与深入探究。  相似文献   

8.
[目的/意义] 改善现有LDA专利技术主题分析存在的辨识度低、可解释性弱和界限划分模糊问题,对于把握技术热点、追踪技术前沿具有重要意义。[方法/过程] 将国际分类号IPC引入LDA专利主题分析中,将其作为技术词的语境,以<词/词组,分类号>二元组的WI (Word IPC)结构进行训练,构建WI-LDA模型,实现对专利文献主题的识别和分析。[结果/结论] 通过中国石墨烯领域的实证研究及与传统LDA模型的对比研究证明,WI-LDA模型泛化能力较强,在专利技术主题分析上能有效降低主题的辨识难度,增加主题的可解释性,使文本主题划分更加清晰。  相似文献   

9.
微博主题发现研究方法述评   总被引:2,自引:1,他引:1  
[目的/意义]对现有微博主题发现的研究文献进行全面的梳理和评述,为研究人员深入开展相关研究提供借鉴。[方法/过程]针对传统的主题发现的基本原理和主要研究方法,分析微博文本的组织特征,从基于短文本特征和基于非文本特征的这两个角度对微博主题发现方法进行梳理,并对两类方法进行详细的阐述及特点分析,最后对微博主题发现研究的发展趋势进行展望。[结果/结论]目前微博主题发现的研究还处于探索阶段,未来应该继续深化理论探索、创新研究方法。  相似文献   

10.
[目的/意义]随着信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,快速主动地从海量信息资源中识别和判断研究主题的发展演化是实现科技创新的基础。[方法/过程]在相关理论调研的基础上,结合医学领域的资源特点,提出一种基于LDA模型的主题演化探测模型和相应的流程步骤。主要步骤包括医学主题词抽取、主题识别、主题关联、关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别,实现深度、细致的主题演化分析。[结果/结论]选用乳腺癌治疗研究文献为实验案例,对判断模型进行试验并对结果进行分析验证,证实提出的技术方法具有一定的可靠性。  相似文献   

11.
[目的/意义] 科技文献中的概念是对文献中知识高度凝练的表达,通常以定义句的形式出现在科技文献中。自动从概念定义句中抽取概念,能够进一步挖掘科技文献中蕴含的重要知识。[方法/过程] 通过分析概念定义句的结构、句式等模式特征,提出以WCL数据集为基础的语料构建方案,并采用BERT+BiLSTM+CRF模型学习概念定义句的模式,从而实现概念短语抽取。[结果/结论] 结合以往对概念定义句模式特征的研究,创新性地提出一种基于序列标注学习概念定义句的组成模式,从而实现概念短语抽取。通过BERT+BiLSTM+CRF模型,有效学习了概念定义句中的上下文语义、句式结构、组成项分布等模式特征,实现了句子中概念短语的抽取。  相似文献   

12.
李向阳  张亚非 《情报学报》2005,24(1):100-106
简单分析了语法上界定汉语短语的困扰,提出一种利用语义搭配关系界定汉语短语的方法。首先,借助同义词词林实现语义知识的编码,用这种语义编码来表示语义搭配关系;其次,在此基础上,定义短语与已知语义搭配关系的相似性,计算词语搭配的合理性;最后,利用短语内部的语义搭配合理性优于其他搭配这一性质,用算法实现了基于语义的汉语短语界定过程。该方法应用于军事文本,从中界定出描述作战单位等信息的短语,取得较好的效果。此外,经该方法界定出的短语具有较强的语义信息,对信息抽取等实际应用具有一定的适用性。  相似文献   

13.
俞琰  陈磊  赵乃瑄 《图书情报工作》2019,63(10):134-142
[目的/意义] 为帮助高校师生充分利用网络招聘信息,提出基于大数据量网络招聘文本挖掘的课程知识模型及其自动构建方法。[方法/过程] 本文提出包含"岗位-课程-知识点"的三级课程知识模型,利用自然语言文本挖掘技术实现课程知识点模型的自动构建,并通过实验对其构建过程进行验证和分析。[结果/结论] 实验结果表明本文提出的模型及方法具有高度的可行性与有效性,可为高校和学生提供教学和学习参考。  相似文献   

14.
[目的/意义]将体验型产品在线评论按照文本长度分为长文本在线评论和短文本在线评论,探究这两类评论的时间和内容特征,为电子商务平台掌握消费者在线评论行为规律和商品需求偏好提供情报依据。[方法/过程]利用Python爬虫语言获取电影评论网站中在线评论的相关信息,构造在线评论时间间隔序列,基于人类行为动力学相关构念,探究不同类型在线评论发布行为的时间特征规律;利用文本挖掘方法找出不同类型在线评论的文本内容特征并进行比较分析。[结果/结论]以电影评论网站在线评论为数据来源,从时间角度总结出不同类型在线评论行为的时间间隔序列符合幂率分布;从文本内容角度发现不同类型在线评论的文本内容特征既有一定的相似性,也表现出明显的差异。  相似文献   

15.
[目的/意义]微博评论情感分类模型可以为相关舆情监管部门正确管控话题事件的发展状况和舆情提供一定的指导作用。[方法/过程]基于字词向量的多尺度卷积神经网络,运用多尺度卷积核改善微博评论中上下文信息有限的条件制约,构建基于字词向量的多尺度卷积神经网络微博评论情感分类模型;通过爬取"微博热搜整改"数据,对模型的可行性和优越性进行验证。[结果/结论]验证结果表明基于字词向量的多尺度卷积神经网络在微博舆情等上下文信息有限的短文本分类任务中表现良好。本文在理论层面为微博舆情情感分类提供了更为准确的情感分类理论模型及分类方法,在实践层面可以更好地指导舆情监管部门对舆情的情感倾向进行更好的引导和监管。  相似文献   

16.
[目的/意义] 针对现有移动电子商务服务质量评价指标不客观的问题,重点研究移动电子商务环境下评价服务质量的模型及方法,为消费者科学选择电商服务提供参考,为企业改善服务质量提供建议。[方法/过程] 引入群决策理论中的对语言评价信息的处理方法,首先将7粒度短语评价信息转化为三角模糊数,然后收集用户给出的语言短语形式评价信息,计算各个评价指标的质量评价值,最后计算评价值与三角模糊数之间的相似度,相似度最高的语言短语即为其对应的服务质量评价等级。[结果/结论] 以手机淘宝服务质量为评价对象进行实证分析,验证了基于语言评价信息的移动电子商务服务质量评价方法的科学性和有效性。  相似文献   

17.
[目的/意义] 针对学术期刊文本资源语义标注仍存在的通用本体难以构建、标注粒度单一两大问题,提出基于SKOS的学术期刊多粒度语义标注方法,从而进一步推进语义标注的应用发展,更好满足用户的多粒度学术信息需求。[方法/过程] 在对《中国汉语主题词表》进行SKOS描述的基础上,以学术期刊文本资源为对象,实现其多粒度语义标注,并通过实证研究验证该方法的可行性。[结果/结论] 利用SKOS实现对学术期刊文本资源进行多粒度语义标注,较之当前学术检索系统中的标注结果,在"查全"查准"内部特征检索入口"检索结果反馈形式"4个方面具有一定优势。  相似文献   

18.
[目的/意义] 对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型。[方法/过程] 以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对比文件的检索问题转化为判断其是否相关的分类问题。[结果/结论] 研究结果表明,不同字段数据对分类效果的贡献不同,其中说明书字段的准确率、召回率和F1值分别为79%、48%和59%,并且多特征集成后的分类效果显著优于单一文本相似度的结果,最后对实验错分情况进行分析,指出本研究下一步的研究方向。  相似文献   

19.
[目的/意义]在线医疗信息抽取是实现医疗信息检索、医疗信息推荐、个人医疗健康提醒及警示、疾病诊断、公众健康监控、药物不良反应挖掘等服务的基础环节,而医疗实体抽取则是在线医疗信息抽取的首要工作。本文拟解决传统医疗实体抽取严重依赖于人工特征提取且效率低的问题。[方法/过程]以网络文本为研究对象,首先对医疗实体类型和医疗实体抽取的目标进行描述。将在线医疗文本中的医疗实体抽取任务看作序列标注问题来解决,通过对CNN模型和BiLSTM模型基础理论的探讨,构建基于混合深度学习模型CNN-BiLSTM的医疗实体抽取框架。[结果/结论]通过三组对比实验,验证了本文所使用的CNN-BiLSTM模型在医疗实体抽取任务中的有效性。  相似文献   

20.
[目的/意义]了解文本和图像在阅读心智模型建设中的作用,了解大学生阅读活动中如何处理文本和图像信息,及他们阅读心智模型建设情况,以帮助大学生修改完善阅读心智模型,更好地理解阅读内容,提高其阅读能力,增强图书馆的实用性。[方法/过程]根据阅读信息处理策略提出假设,确定文本图像阅读单位和整合项目,利用眼球追踪方法,调查肇庆学院不同学历不同年级大学生文本和图像阅读情况及其文本图像整合能力和策略使用情况。[结果/结论]文本和图像在阅读心智模型建设中扮演着不同的角色;大学生有较完善的文本阅读心智模型;图像阅读过程中能够形成简单心智模型,完成部分特定任务,但不能解决复杂问题;在使用策略回答较复杂问题时,文本图像整合能力较低,花费在图像上的阅读时间较长;学校比较重视文本阅读能力的培养,对图像阅读能力的培养不足。建议加强图像资源建设(阅读环境)、增强大学生图像相关知识(先知经验)、提高图像阅读和文本图像整合能力(认知能力)。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号