首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例
引用本文:阮光册,周萌葳.基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例[J].情报杂志,2024(2):110-117.
作者姓名:阮光册  周萌葳
作者单位:华东师范大学经济与管理学部信息管理系
摘    要:研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。

关 键 词:Sentence-BERT  专利文本  主题识别  文本聚类
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号