期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

祝娜尹俊华翟羽佳《情报理论与实践》2024,(1):145-153

[目的/意义]作为科技创新的重要手段,技术融合预测对于改进技术研发的策略选择具有重要参考和借鉴意义,文章提出一种专利共类与深度学习模型结合的技术融合预测方法,以提高预测结果的准确性和可靠性。[方法/过程]以燃料电池技术为例,首先采用关联规则挖掘算法识别专利数据中具有强关联的IPC频繁项集,计算技术相对相似度,基于AP聚类算法进行技术聚类;然后运用生成式拓扑映射算法识别其中技术融合点,构建训练数据集和测试数据集。最后基于深度学习模型进行学习训练,预测燃料电池技术未来可能出现的技术融合。[结果/结论]这种方法在准确率和召回率上表现优异,可以快速、客观地识别技术融合,为技术创新的智能决策和预测提供支持和帮助。相似文献

2.

利用词嵌入模型实现基于网站访问日志的专利聚类研究

文奕陈文杰张鑫杨宁赵爽《现代情报》2018,38(4):112-117

[目的/意义]专利信息是人类科学技术进步的结晶,随着社会的发展,专利信息将为促进科技创新发挥日益重要的作用。利用聚类技术可以将海量专利信息进行自动分类,在实现信息有序归并管理的同时,有助于用户高效而全面的获取相关技术领域中的集成专利信息,具有重要的现实意义,传统聚类研究方法效率与准确度存在不足。[方法/过程]本文通过对专利信息服务网站（中国科学院知识产权网）访问日志数据的清洗与分析,生成专利信息点击序列,基于深度学习词嵌入模型,设计了PatentFreq2Vec模型,计算得出专利关联信息。[结果/结论]利用PatentFreq2Vec模型分析计算访问日志数据,能够得到关联专利信息,实现专利聚类,且聚类准确度高于传统方法。相似文献

3.

学术APP用户在线评论主题语义关联研究

下载免费PDF全文

王欣研张向先张莉曼《情报科学》2020,38(6):25-31

【目的/意义】针对学术APP评论数据特征，挖掘用户评论语义关联关系，为平台运营者和开发者高效获取用户需求和关注点提供思路和指导方法。【方法/过程】首先，基于LDA主题模型和GloVe 词向量模型构建学术APP 用户在线评论主题语义关联研究框架，然后，采集超星移动图书馆APP在线评论作为样本数据，通过主题识别获取用户评论主题并基于词向量相似性得到主题语义关联，最后构建出语义关联主题图谱。【结果/结论】实验结果表明运用文章提出的思路方法能够有效发现用户评论主题和主题间关联关系并得到主题关联图谱，从而为学术APP平台运营者完善平台功能提供参考和借鉴。相似文献

4.

基于组合相似度动态聚类和词熵的网络话题在线检测

郭慧王亚楠王欣艳魏艺泽王养廷《情报杂志》2024,(5):159-166

[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。相似文献

5.

基于语义特征句向量距离的汉语-俄语跨语言文本聚类方法研究

潘思铭巫邵诚《情报探索》2023,(7):1-10

[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。相似文献

6.

基于BiLSTM-CRF的政府微博舆论观点抽取与焦点呈现

胡吉明郑翔程齐凯张岩《情报理论与实践》2021,(1):174-179,137

[目的/意义]准确把握公众微博评论中所反映的公众观点并总结舆论焦点,有助于及时获取和引导社会舆情态势,对政府公信力、快速响应能力及执行力提升具有支撑作用。[方法/过程]文章针对当前政府微博评论社会功能发挥的现实要求和其文本特征挖掘的技术需求,从基于深度学习的文本智能语义理解和挖掘出发,提出了适用的细粒度四元组标注策略,构建了政府微博评论观点抽取与焦点呈现的深度学习模型POF-BiLSTM-CRF,即通过细粒度标注策略确定、Word2vec训练词向量、BiLSTM评论特征学习进行标签及其概率输出、CRF学习上下文实现微博评论标注优化,以及观点聚类和主题词提取后最终呈现舆论焦点。[结果/结论]针对"中国警方在线"微博评论的实验表明,文章所提研究框架和模型能够有效进行舆论观点的智能化提取,为快速把握公众观点及为政府决策提供了参考。相似文献

7.

基于SAO结构和词向量的专利技术功效图自动构建研究

翟东升张京先胡等金《情报理论与实践》2020,43(3):116-123

[目的/意义]针对技术功效图构建过程中的主要问题和薄弱环节,提出了一种基于SAO结构和词向量的专利技术功效图构建方法。[方法/过程]利用Python程序获取专利摘要中的SAO结构,从中识别技术词和功效词;结合领域词典与专利领域语料库,运用Word2Vec和WordNet计算词语间的语义相似度;利用基于网络关系的主题聚类算法实现主题的自动标引;采用基于SAO结构的共现关系构建技术功效矩阵。[结果/结论]实现了基于SAO结构和词向量的技术功效图自动构建,该构建方法提高了构建技术功效主题的合理性和专利分类标注的准确性,为技术功效图的自动化构建提供新的思路。相似文献

8.

面向非相关文献的知识关联检索系统的设计与实现

刘爱琴安婷《现代情报》2019,39(8):52-58

[目的/意义]面向非相关文献的知识关联能够促进新知识的产生，为科学研究提供了一种有效的辅助手段。[方法/过程]本文以《中国分类主题词表》为主题词受控词表，首先对文献摘要进行中文分词处理并提取主题词，利用计量分析技术和聚类技术分析文献间特征的相似、相异水平，然后基于该系统为用户检索并利用用TOP-K算法反馈用户精确结果。[结果/结论]设计了面向非相关文献的知识关联检索系统，从更细的粒度层面揭示文献之间的知识关联，为用户提供高质量的服务。相似文献

9.

深度学习驱动的海量人文社会科学学术文献学科分类研究

刘江峰林立涛刘畅何洪旭吴娜沈思王东波《情报理论与实践》2023,(2):71-81

[目的/意义]探索不同社会科学学科间差异,支持学科建设、科技检索服务,进一步完善文献学科的分类体系。[方法/过程]基于多种深度学习模型和预训练语言模型构建社会科学文献学科分类器,利用CSSCI目录中的20多个一级学科中近350万篇文献构成的数据集进行实验;利用Sentence-BERT输出摘要句子向量并进行层次聚类,根据聚类结果划分学科组,并计算模型对于不同学科组的分类性能以缓和学科交叉的影响;利用模糊准确性指标输出模型对每条记录输出的前N个高概率学科以弥补原有学科分类的局限性。[结果/结论]在“摘要+标题”上使用深度预训练语言模型取得最佳性能;基于层次聚类所得的学科组进行的分类较单一学科性能有所提升;模型的模糊准确性在N=3时能够达到96%。[局限]未考虑从全文文本上获取更丰富的文献学科特征进行自动分类。相似文献

10.

基于改进特征提取及聚类的网络评论挖掘研究 总被引：1，自引：0，他引：1

李昌兵庞崇鹏凌永亮王强《现代情报》2018,38(2):68-74

[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。相似文献

11.

基于碎片化UGC的知识元抽取研究 总被引：1，自引：0，他引：1

王忠义郑鑫《情报理论与实践》2021,(1):188-194

[目的/意义]在大数据环境下,从海量的碎片化用户生成内容中抽取具有完整语义的知识单元。[方法/过程]文章提出一种基于碎片化UGC的知识元抽取方法,该方法首先借助BTM主题分割方法从UGC中抽取知识要素,而后基于融合TextRank和Glove词向量的K-means方法实现知识要素聚类,最后根据知识要素相关属性和知识要素聚类结果生成对应UGC知识元。[结果/结论]实验结果显示基于碎片化UGC的知识元抽取方法具有一定科学性和有效性。相似文献

12.

共词网络链路预测局部相似性指标的优化改进研究

蒋茜茜张晓娟《情报理论与实践》2022,(7):165-173

[目的/意义]引入时间衰减因子与聚类系数对共词网络链路预测局部相似性指标进行优化改进,以期进一步提升共词网络链路预测的精确度。[方法/过程]从3个角度来提升局部相似性指标预测精确度：一是引入时间衰减因子计算连边权重,对不同时间段的连边进行区别处理;二是结合聚类系数改进已有相关相似性指标,即利用节点邻域拓扑信息进一步区分不同节点对相似性的贡献;三是同时融合时间衰减因子和聚类系数进行指标优化改进。再以图书情报学领域为例构建共词网络,利用多种分类算法(如朴素贝叶斯、决策树、随机森林、SVM)预测和评估所改进指标的预测精确度。[结果/结论]引入时间衰减因子,指标WCN、WAA、WPA、WRA的预测精确度均得到了有效提升;结合聚类系数,指标CN、AA、RA、WCN、WPA、WRA和SA的预测精确度均得到了不同程度的提升;同时融合时间衰减因子和聚类系数,WCN、WAA、WRA的预测精确度得到了进一步的提升。由此可知,引入时间衰减因子或聚类系数均能在一定程度上提升共词网络链路预测相关指标的准确度。相似文献

13.

三元共现潜在语义向量空间模型

下载免费PDF全文

牛奉高王世昌张亚宇《情报科学》2018,36(1):147-151

【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息的潜在语义向量空间模型（CLSVSM）挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型- 向量空间模型（VSM）相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型（加权 CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/ 结论】结果显示：新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元 CLSVSM。相似文献

14.

基于知识关联度的科学论文扩散效果预测研究——早期施引文献的作用

李悦马亚雪张宇孙建军《现代情报》2023,(11):73-84

[目的/意义]基于早期施引文献与科学论文的知识关联对科学论文扩散效果进行预测，有助于从价值反馈角度前瞻性识别高影响力学术论文，为科研人员建立科学研究成果早期学术影响力评估体系提供参考。[方法/过程]测度早期施引文献与目标科学论文在主题、期刊和作者3个层面的关联程度，采用线性回归与负二项回归模型，挖掘3种类型的知识关联度与目标科学论文扩散效果(即扩散速度、广度和强度)的内在关联机制；在此基础上引入机器学习算法对科学论文的扩散效果进行预测，剖析3类知识关联特征在预测任务中的重要性排序。[结果/结论]神经科学领域的实证分析显示，主题关联与目标科学论文的扩散速度呈正相关关系，与扩散广度和扩散强度呈倒U型关系；期刊关联会抑制目标科学论文的扩散速度，但能够正向影响其扩散强度与扩散广度；作者关联仅对扩散强度有稳定的正向影响；基于主题关联与期刊关联可以实现对科学论文扩散速度的有效预测，但难以预测扩散广度和扩散强度。随机森林模型在扩散速度预测中性能最佳，主题关联特征的重要性高于期刊关联。相似文献

15.

基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究

吴树芳杨强侯晓舟尹萌《情报杂志》2023,(11):119-125

[研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型Word2Vec获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导式主题模型,得到改进后的模型SSI-GuidedLDA。最后,基于SSI-GuidedLDA模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。[研究结论]在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和F₁值上均有一定提高。相似文献

16.

基于图神经网络的专利关键词提取算法研究

王玉叶王玙《情报理论与实践》2023,(5):202-208

[目的/意义]专利关键词提取是专利挖掘任务中非常重要的前置子任务,基于图模型的关键词提取是目前最有效的算法。传统图模型只考虑了单词的局部上下文信息,为了捕获单词的全局信息,提出一种基于图神经网络的专利关键词提取算法,结合词向量与图模型实现专利关键词的提取。[方法/过程]首先,用专利数据集构建异构网络,以专利分类号为标签,训练图神经网络模型,使得同一主题下的单词具有相似的向量表示,获取包含主题信息的词向量;然后,根据专利摘要在滑动窗口内的单词共现关系和词向量相似度,构建融合了单词主题信息的文本图,利用词向量中的主题信息捕获单词的全局联系;最后,在文本图上使用PageRank算法,获取关键节点,构成专利的关键词。[结果/结论]与基线方法相比,该算法在提取专利关键词时,能够检测到新颖性与准确性更高的关键词。相似文献

17.

基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例

阮光册周萌葳《情报杂志》2024,(2):110-117

[研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。相似文献

18.

数据驱动下基于语义相似性的产品需求识别研究

李贺谷莹刘嘉宇吉林大学管理学院吉林长春《情报理论与实践》2022,45(5):99-106

[目的/意义]为了实现从非结构化的在线评论中有效提取用户需求,文章提出了数据驱动下产品需求识别的方法。[方法/过程]利用Word2vec表示学习方法,获取评论文本内容的语义向量表示;结合K-means算法和LSA模型实现评论文本聚类,识别产品需求主题;在此基础上,通过网络分析方法探索需求主题间的关联关系。以华为手机的评论数据为例进行方法验证。[结果/结论]结果表明,基于语义的文本特征可以取得较好的聚类效果,与传统方法相比,CH指标和SC指标均得到显著提高,验证了该方法的有效性。研究方法和结果能够为企业产品创新和运营决策提供一定参考。[局限]样本数据集规模不够,缺少跨平台实验计算和比较。相似文献

19.

基于语义表示和动态主题模型的社科领域新兴主题预测研究

郝雯柯杨建林《情报理论与实践》2023,(2):184-193

[目的/意义]预测社科领域在未来有发展潜力的研究主题对于科研工作者寻找新的学科增长点和政府部门优化资源配置至关重要。文章提出一种基于语义表示和动态主题模型的社科领域新兴主题预测框架,以期丰富和完善主题预测研究的方法体系。[方法/过程]首先,使用BERT模型和UMAP算法对文本进行语义表示和向量降维,再通过动态主题模型对嵌入向量进行聚类,从而获得全局主题;其次,构建新兴主题指标计算公式,基于Neural Prophet模型和非参数检验方法预测新兴主题;最后,通过划分时间窗将全局主题细化为多个局部主题,以定位最近时间段的新兴词汇。[结果/结论]选取“人口老龄化”领域的学术论文和报纸进行实证研究,并采用资料验证法进行方法有效性分析,结果表明该方法能够快速准确地预测社科领域中的新兴主题。相似文献

20.

基于词向量的话题焦点识别方法

下载免费PDF全文

张佩瑶刘东苏《情报科学》2019,37(7):61-64

【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚类效果,有效的获取各阶段的话题焦点。相似文献