基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例 |
| |
引用本文: | 阮光册,周萌葳.基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例[J].情报杂志,2024(2):110-117. |
| |
作者姓名: | 阮光册 周萌葳 |
| |
作者单位: | 华东师范大学经济与管理学部信息管理系 |
| |
摘 要: | 研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。
|
关 键 词: | Sentence-BERT 专利文本 主题识别 文本聚类 |
|