首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 578 毫秒
1.
基于深度学习的中文专利自动分类方法研究   总被引:2,自引:0,他引:2  
[目的/意义] 面向当前国内专利审查和专利情报分析工作中对于海量专利分类的客观需求,设计了7种基于深度学习的专利自动分类方法,对比各种方法的分类效果,从而助力专利分类效率和效果的提升。[方法/过程] 针对传统机器学习方法存在的缺陷,基于Word2Vec、CNN、RNN、Attention机制等深度学习技术,考虑专利文本语序特征、上下文特征以及分类关键特征,设计Word2Vec+TextCNN、Word2Vec+GRU、Word2Vec+BiGRU、Word2Vec+BiGRU+TextCNN等7种深度学习模型,以中国专利为例,选取IPC主分类号的"部"作为分类依据,对比这7种模型与3种传统分类模型在中文专利分类任务中的效果。[结果/结论] 实证研究效果显示,采用考虑语序特征、上下文特征及强化关键特征的深度学习方法进行中文专利分类具有更优的分类效果。  相似文献   

2.
[目的 /意义]探索融合引用和文本特征的专利技术创新路径识别分析方法,有助于规避技术创新风险、优化选择技术创新路径,对提升创新主体的创新能力,促进现代产业发展,布局科技前沿发展战略等具有重要的意义。[方法 /过程]首先基于Node2Vec模型和Doc2Vec模型将专利引用和文本数据表示学习为可计算的高维向量;然后利用LDA主题模型进行技术主题识别并结合T-SNE算法降维,添加时间维度构建初始技术创新路径;最后,在专利引用和文本特征向量表示结果基础上,开展向量融合拼接从而实现融合引用和文本特征的技术创新路径识别。[结果 /结论 ]通过对超级电容器领域的实证,验证提出的融合引用和文本特征的的技术创新路径识别方法能够从特定领域专利文献中高效、准确地识别专利技术创新路径,证明方法的可行性和有效性。  相似文献   

3.
[目的/意义]随着战略型新兴技术产业的迅猛发展,如何识别具有潜在协同效应的技术创新组合、厘清组合中核心的创新关系,是有效规划产业发展路线、提升产业竞争优势的重要前提。[方法/过程]在技术组合进化理论的指导下,结合深度学习、SAO语义挖掘和CFDP算法,提出一种基于专利数据的技术创新组合与演化关系的识别方案。该研究方案共分为3个步骤:首先基于关键词与专利分类号构建领域检索策略,并实现对获取数据的清洗和分词。随后,通过Word2Vec构建领域技术主题的词向量语义网络,并利用CFDP算法识别出潜在创新要素及组合方式。最后,深入挖掘各组合中核心的SAO结构,通过LSTM深度学习算法对其演化关系进行分类,挖掘技术的核心创新方式,进而有效甄别领域潜在的技术机会。[结果/结论]以语音识别领域为例,通过对该领域DII专利文本数据的深入挖掘,识别并追踪5个潜在的技术创新组合及核心创新方式。研究发现,当前我国语音识别领域在智能芯片设计、语音识别算法、新场景和应用等方面有较大的创新潜力。  相似文献   

4.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

5.
[目的/意义] 将论文与专利相结合,建立一套整合基础研究与应用研究的研究前沿识别方法。[方法/过程] 以基于关键词共现的研究前沿识别方法模型为基础,用余弦相似度算法将论文和专利相结合,并使用研究主题年龄和研究主题关注作者数量两个指标来识别研究前沿,最后在LED领域进行应用分析。[结果/结论] 研究表明该方法可以识别出基于单独的论文数据或者专利数据不能识别的研究前沿,同时还可以有效地跟踪研究前沿的产生、成长、消退与消失。  相似文献   

6.
[目的/意义]融合多元网络和网络表示学习方法学习并发现作者间的关联性,能够更好地进行合作者推荐。[方法/过程]文章首先搜集情报学领域相关文献数据作为原始数据集,在经过数据清洗后,根据作者间的多元关系构建各信息实体的多个科研信息网络,然后对高维网络利用Node2vec网络表示学习方法学习各节点的信息,从而得到各网络中节点的向量表示。其次,通过余弦相似度计算各网络中的作者相似度。最后融合作者间机构合作偏好和作者学术水平相似度得到最终的推荐结果。[结果/结论]文章提出的融合模型考虑了多元网络和数据稀疏性,在AUC值上的表现优于单一维度,得到了更好的合作预测效果。实验结果表明,该合作者推荐模型在情报学领域作者合作者推荐中具有可行性。  相似文献   

7.
[目的 /意义]针对在线问诊平台中医生推荐满意度较低的问题,探究如何将信息技术与用户认知相结合以提升医生推荐系统的效果,有助于优化在线问诊平台的用户体验。[方法 /过程]首先,基于1 500名医生的基本信息和78万余条用户提问,对比TF-IDF、Doc2Vec和Word2Vec三种词向量模型的医生推荐效果,以最优模型构建医生推荐系统原型;然后,通过用户实验和访谈获取用户使用该系统的行为数据,深入挖掘在线问诊平台医生推荐情境中的用户认知与意义构建过程;最后,从用户角度提出模型优化思路,实现原型系统的改进。[结果/结论 ]基于Word2Vec词向量模型的医生推荐效果最优,前10位医生候选集中88%的医生有能力回答用户问题;用户实验结果显示,科室信息与医生专业极大影响用户选择,医生曾回答过的相似问题是用户的重要参考信息;基于以上结果,提出并实现建立科室预测分类器以及为健康医学关键词赋予较高权重的两种模型优化思路,并通过匹配度指数对医生推荐结果进行优化排序。结果表明,两种方法均可提高医生推荐系统的准确度,证明用户认知与人工智能算法结合具有可行性。  相似文献   

8.
[目的/意义]针对如何准确进行专利侵权检测,提出一种基于图相似度的专利侵权检测方法。[方法/过程]将专利语义特征抽取为subject-action-object(SAO)结构并利用图论将其表示为图的形式,然后将图转换为邻接矩阵并计算邻接矩阵的相似性来完成专利侵权判定,最后利用专利样本数据比较该方法与传统方法的判定准确率。[结果/结论]实证研究结果表明,本研究提出的方法判定准确率更高,比传统的基于专利文本向量的方法准确率提升4.89%,可以作为专利侵权检测的有效方法。  相似文献   

9.
田创  赵亚娟 《图书情报工作》2016,60(20):123-131
[目的/意义] 提出一种基于相似度的专利与产业类目映射模型,模型拥有准确、易扩展和高效率的优点,可为后续研究提供借鉴和参考。[方法/过程] 整理现有专利与产业类目映射方法,以《国际专利分类》与《国民经济行业分类》为例,设计类目映射模型并做映射实验,通过Z-score标准化方法处理余弦相似度结果,完成《国际专利分类》小类与《国民经济行业分类》小类的部分映射,并根据国家知识产权局的试用版本对照成果综合评价本模型。[结果/结论] 模型综合考虑专利官方注释规范精炼性和大量专利数据覆盖面广的优点,通过自然语言处理技术自动化得到专利与产业类目的映射组合,较现有方法在节省大量人力成本的同时保证了正确率,并可方便地进行映射类目细粒度的调整,适用于其他符合本模型数据格式要求的专利与产业分类的映射。  相似文献   

10.
[目的/意义] 针对关键词共现方法识别领域研究热点过程中数据清洗进行理论研究与探索,以辅助科研工作者准确识别领域研究热点。[方法/过程] 在文献调研的基础上,阐述数据清洗的定义和对象,并分析脏数据产生的原因和影响,进而制定数据清洗的步骤和方案,并采用实证研究方法对数据清洗的效果和方案的可行性进行验证。[结果/结论] 研究结果表明该数据清洗方案能够提高研究热点识别的准确性,从而证明了该方案的可行性。  相似文献   

11.
面向TRIZ的领域专利技术挖掘系统设计与实践   总被引:1,自引:0,他引:1  
[目的/意义] 针对面向TRIZ的专利技术深度、精准挖掘的需求,设计并开发一套领域专利技术挖掘系统。[方法/过程] 首先,归纳面向TRIZ的专利技术挖掘的具体需求,分析现有工具的不足。其次,提出领域专利技术挖掘系统的体系结构,总结其关键技术及解决方案。最后,开发一套面向TRIZ的领域专利技术挖掘原型系统,并进行大口径光学元件(LAOE)领域专利技术挖掘实践。[结果/结论] 该系统基于SAO(subject-action-object)三元组与简单知识对象,集成文本挖掘技术构建细粒度、多维度的领域技术索引,实现领域知识棱镜、面向TRIZ的语义检索与专利可视化分析功能,可以支持深度、精准的专利技术挖掘应用。  相似文献   

12.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

13.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

14.
��[Purpose/significance] In scientific research, identifying mining scientific research hotspots from different sources of scientific literature is of guiding significance for carrying out the next scientific research work. It aims to quickly and accurately identify hot topics contained in multi-source texts through the model method proposed in this study, and provide support services for scientific research innovation.[Method/process] This paper proposed a method based on LDA2vec model for multi-source text research hotspot identification and built a model for scientific research hotspot identification. This method combined the advantages of LDA topic model on implicit semantic mining and the context of Word2Vec word vector model. Taking the scientific literature in the field of machine learning as an example, the model extraction degree (perplexity) and topic coherence (topic coherence) were used to compare the topic extraction effects of LDA2vec and LDA in the context of multi-source text.[Result/conclusion] After experiments, the results show that the method proposed in this paper is feasible and can be improved to some extent in the face of multi-source data. The method can relatively quickly and accurately identify the hot content in the multi-data source text, make up for the shortcoming of the single analysis data source for subject detection, and enrich the practical application of the multi-data source fusion theory system.  相似文献   

15.
[目的/意义]随着网络新闻的广泛快速传播,通过辨析网络新词,及时掌握新闻热点关键词,对于了解新闻热点和社会舆情的预警控制具有十分重要的意义。[方法/过程]利用改进的关联规则算法对网络新闻标题进行挖掘,相邻、有序地输出频繁字符串集合。根据互信息计算字符串的相似度,形成热点新闻的关键词集合,以实际的网络新闻为语料进行实验。[结果/结论]实验结果表明,本文所提出的方法不仅能有效地发现词典中不存在的新词汇以及当前网络中流行的热词,而且有效地区别词汇集合中的复合式新词,继而可通过热词集合的热点度计算对网络新闻热点进行排名。  相似文献   

16.
[目的/意义] 对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型。[方法/过程] 以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对比文件的检索问题转化为判断其是否相关的分类问题。[结果/结论] 研究结果表明,不同字段数据对分类效果的贡献不同,其中说明书字段的准确率、召回率和F1值分别为79%、48%和59%,并且多特征集成后的分类效果显著优于单一文本相似度的结果,最后对实验错分情况进行分析,指出本研究下一步的研究方向。  相似文献   

17.
为了高效分析中美在美国商业管制清单(Commerce Control List,CCL)记录的管制技术上的差距,针对CCL清单数据非结构化程度高的问题,提出了一种管制清单数据和专利数据的自动映射方法,实现了从专利视角自动揭示中美技术差距。基于文本挖掘的思想,研究制定了管制清单文本规范化流程,提出了基于TF-IDF (term frequency-inverse document frequency)和Word2Vec的管制清单数据与专利数据自动映射方法和效果评价指标。以2019年美国商业管制清单和2018年全球PCT (Patent Cooperation Treaty)专利申请数据为例进行实证研究,通过评估模型效果,最终发现当文本相似度阈值为0.87时,Word2Vec模型的自动映射结果最优,并以此开展技术差距分析。本研究提出的方法能够自动化映射管制清单数据和专利数据并开展情报分析,分析结果具有较高的可解释性,是提升情报分析时效性的有力手段,具有较高的实际应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号