首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
李晓敏  王昊  李跃艳 《情报科学》2022,40(4):156-165
【目的/意义】为帮助科研用户快速准确地找到与自身研究兴趣相关的学术论文,构建了基于细粒度语义实 体的学术论文推荐模型。【方法/过程】将实验前期识别出的研究主题、研究对象和理论技术类语义实体作为学术论 文和核心作者的内容特征,分别利用TF-IDF算法、TextRank算法和LDA模型得到学术论文和核心作者的特征词, 利用Word2vec对特征词进行向量化,再计算核心作者和学术论文的余弦相似度,将余弦相似度值靠前的Top20推 荐给作者。【结果/结论】利用准确率、召回率和F值对基于三种算法得到的特征词生成的推荐结果进行比较评价,结 果表明,基于TF-IDF算法得到的特征词生成的推荐效果最佳,并对推荐结果进行了实例展示,可以看出本文提出 的推荐模型能够更为全面地为科研用户推荐与其研究兴趣类似的学术论文,提高科研效率。【创新/局限】本文主要 是从学术论文的内容特征入手,对类型细分后的关键词利用不同算法进行核心作者特征词筛选,进而实现学术论 文推荐,但是对学术论文中包含的网络关系并未涉及。  相似文献   

2.
【目的/意义】研究从用户节点和网络全局两个视角出发,基于用户相似度与信任度对虚拟学术社区中学者 进行推荐,提高学者推荐的质量。【方法/过程】首先,利用 LDA 主题模型挖掘学者发表的博文主题,计算博文相似 度;通过学者共同好友比例计算好友相似度;然后将博文相似度和好友相似度融合计算用户相似度;最后,融合用 户相似度和信任度进行学者推荐。【结果/结论】提出虚拟学术社区中基于用户相似度与信任度的学者推荐方法,综 合利用用户节点和网络全局信息,为虚拟学术社区用户进行学者推荐。【创新/局限】从用户节点和网络全局两个角 度进行学者信息融合,有效提高了虚拟学术社区中学者推荐的质量。局限在于本文主要考虑的是学者在网络全局 中的信任度,用户节点间的交互信任关系还有待进一步研究。  相似文献   

3.
【目的/意义】在国际政治经济环境和全球创新格局不断变化的背景下,拓展全球科技创新合作伙伴、建立更为广泛和紧密的全球科技创新合作网络,成为亟待解决的问题。【方法/过程】本文基于科技论文构建主题词共现矩阵,筛选二阶共现主题词对作为潜在国际科技合作主题对,通过定义主题对的国际合作潜力指数以及主题路径的国际科技合作路径强度指数,判定主题对的国际合作潜力并寻找有效的主题合作路径。【结果/结论】以中俄人工智能领域的SCI论文和CPCI-S论文为分析对象,通过对该领域潜在国际科技合作主题的识别和分析,证实本文所提方法的有效性。【创新/局限】本文提出一种识别潜在国际科技合作主题的方法,并利用中俄两国论文进行实证研究,但未考虑不同国家研究产出规模差异,未对关键词进行语义分析,需在后续研究中进一步探讨。  相似文献   

4.
【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。  相似文献   

5.
李湘东  阮涛  潘练 《情报科学》2018,36(4):14-21
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。  相似文献   

6.
【目的/意义】从国家和地区层面研究科技论文空间分布与地区差距的时空演变,有利于总结其发展规律, 对于优化科技资源的空间配置,缩小地区差距具有重要意义。【方法/过程】本文以图书馆情报与文献学CSSCI期刊 为例,基于中国知网CNKI引文数据,综合采用基尼系数、集中度、重心以及回归分析,研究了学科论文的空间分布 与地区差距的时间演化特征。【结果/结论】图书馆情报与文献学近年来论文总量有所下降,地区分布相对集中;论 文重心总体向西移动但南北变化较小;论文数量的地区差距早期较小现在保持相对稳定;论文期刊差距呈现“缩小 —拉大—缩小”的长周期变化;论文期刊差距对论文地区差距影响不大。【创新/局限】本文首次采用基尼系数、集中 度、重心等研究论文空间分布。  相似文献   

7.
程亚男  王宇 《情报科学》2018,36(8):72-76
【目的/意义】目前问答社区答案数量多且篇幅长,对答案进行重新排序和组织可以方便用户高效获取答案 信息。【方法/过程】针对答案文本的特点,提出基于答案相似度对社区答案进行重新组织、排序的方法。该方法定 义答案文本语义云和情感云,利用标签传播算法计算出词典中不存在的词语语义和情感相似度,即云滴值,然后每 个答案形成多片语义云和一片情感云,通过计算答案云间相似度得到答案文本间的相似度。最后,结合答案“赞” 数对答案进行重新排序。【结果/结论】通过实验的人工评价,发现与基于“赞”数排序相比,基于语义情感相似度的 答案排序方法与人工排序相似度更高,更能满足社区用户需求。  相似文献   

8.
马思丹  刘东苏 《情报科学》2019,37(11):38-42
【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的 分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非 重叠部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行 分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模 型的分类效果有所提升,是一种有效的文本分类方法。  相似文献   

9.
高楠  高嘉骐  陈洪璞 《情报科学》2023,(3):127-135+172
【目的/意义】通过综合使用论文和专利数据源,开展新兴技术的识别与演化路径方法研究,期望以此提高学科领域新兴技术探测研究的准确性和科学性。【方法/过程】首先,针对集成电路这一特定领域使用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,并利用LDA主题模型发现并识别集成电路领域隐含的技术主题,构建新颖度、强度和热度等多维指标对新兴技术进行对比和甄别。其次,划分时间窗,采用余弦相似度算法计算相邻时间窗内主题间的相似性,以可视化路径的形式将筛选结果进行呈现,以此判断主题演化关系类型。【结果/结论】研究发现,集成电路领域呈现学界与业界研究成果相互促进的良好态势,结合论文与专利数据的新兴技术识别方法,可以有效且清晰的发现集成电路研究领域的热点型、增长型、成熟型和潜在型技术主题,并通过新兴技术演化路径的构建,揭示了领域科学与技术间知识的交互与转移。【创新/局限】本研究创新性采用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,提高了词袋构建质量,为后续基于LDA主题模型识别隐含的技术主题奠定了基础,但在数据源的多样性、时滞性问题,以及模型阈值设置的客观性上还存在局限性,需要...  相似文献   

10.
叶佳鑫  熊回香  孟璇 《情报科学》2023,41(1):166-173
【目的/意义】通过深度学习方法对图书评论进行细粒度挖掘,并基于挖掘结果优化图书间相似度计算结果。【方法/过程】首先从在线书评网站上采集图书评论,对评论进行词性分析构建属性词表,随后基于属性词表对评论进行类型标注,通过BERT-BiLSTM模型对标注数据进行学习以实现评论自动分类,最后通过BERT对分类后的评论进行向量表示,通过余弦相似度计算评论间的相似度以表征图书相似度。【结果/结论】本文构造的BERT-BiLSTM评论分类模型准确率、召回率和F1值分别达到0.922、0.921和0.921,可以较好地实现评论分类。通过模型将评论划分为文笔、人物、情节、概要、读者态度5种类型来计算图书间相似度可以得到较为契合的相似度结果。【创新/局限】相较于其他类型的评论,通过人物与情节类评论计算图书相似度的效果有待提高。以后可对这两类评论进行更为细粒度的分析。  相似文献   

11.
孟秋晴  熊回香 《情报科学》2021,39(6):152-160
【目的/意义】为了向在线医疗社区中的用户自动推荐符合其自身实际需求的医生,本文基于在线问诊文本 信息,提出了基于相似用户与相似医生的混合医生推荐算法。【方法/过程】首先从用户咨询问题出发,找到具有相 似咨询问题的用户,将其所选择的医生作为基于相似用户的推荐集合;然后从医生回答从发,通过LDA主题模型训 练,从医生回答文本集中挖掘出隐含的疾病主题,按主题查找具有相似疾病诊治经验的医生作为推荐集合;最后通 过混合相似度计算融合基于相似用户和相似医生的推荐结果,得到最终推荐列表。【结果/结论】通过对在线医疗社 区“39健康网”进行实证研究,结果表明,利用本文提出的方法进行推荐,能够有效降低数据维度,挖掘文本间的潜 在语义关联,有效缩小语义鸿沟,提升推荐质量,具有较好的推荐效果。【创新/局限】本文仅选取了针对科室的小样 本数据进行实验,且部分参数使用经验值,未来可深入探讨该方法在大规模医疗数据集上的应用。  相似文献   

12.
【目的/意义】随着Web网页的爆炸式增长和网页噪声不断增多,企业竞争情报系统和智能化网站的开发 以及移动终端的阅读都急需一种可以高效精确抽取网页信息的方法。【方法/过程】本文提出了基于重复模式识别 的信息提取新方法,通过页面解析、相似度计算、聚类并形成群组、删除横幅广告和导航链接等步骤,提取到了详情 页面的标题和主要内容。【结果/结论】对于结构稳定的页面,本文实现了较高质量的信息抽取。不足之处是聚类和 相似度的计算量较大,时间较长。  相似文献   

13.
【目的/意义】期刊论文、学位论文、专利文献是众多学者的重要研究成果,同时也为后来的学者提供了有力 的参考价值。本文以“机器学习”领域为例,分别从期刊论文、硕士学位论文、博士学位论文、专利文献角度进行了 主题及主题差异性分析。【方法/过程】首先从中国知网(CNKI)获取数据。然后,借用LDA分析主题。第三,运用 KL距离分析期刊论文、硕士学位论文、博士学位论文、专利文献的相似度差异。【结论】通过本文研究我们发现,期刊 论文涉及的研究领域广泛,学位论文关注社会实践意义,专利论文则为学科发展提供支撑。此外,期刊论文与专利 论文最为相似,期刊论文与学位论文的差异最大,这为全面了解领域文献提供了一个很好的借鉴。  相似文献   

14.
【目的/意义】文本相似度计算是自然语言处理中的一项基础性研究,通过总结和分析文本相似度计算的经 典方法和当前最新的研究成果,完善对文本相似度计算方法的系统化研究,以便于快速学习和掌握文本相似度计 算方法。【方法/内容】对过去20年的文本相似度计算领域的经典文献进行整理,分析不同计算方法的基本思想、优 缺点,总结每种计算方法的侧重点和不同方向上最新的研究进展。【结果/结论】从表面文本相似度计算方法和语义 相似度计算方法两方面进行阐述,形成较为全面的分类体系,其中语义相似度计算方法中的基于语料库的方法是 该领域最为主要的研究方向。  相似文献   

15.
周鑫  熊回香  肖兵 《情报科学》2023,(3):145-154
【目的/意义】针对在线医疗信息结构松散,医疗平台医生推荐精度不足的现状,设计了一种基于标签和患者咨询文本的医生推荐算法,提升医生推荐效果。【方法/过程】利用Word2vec模型训练患者咨询文本得到特征向量,改进余弦相似度算法计算医生推荐集A;利用LDA模型训练医生标签得到医生在主题上投影的概率分布,改进KL距离算法计算医生推荐集B;基于社会网络分析理论设计相关算法重构医生网络链接,选择中心性指标得到最终医生推荐集C。【结果/结论】以“丁香医生”数据进行实证,面向UGC数据丰富了算法的可用程度,弥补了单一推荐方法的不足,提高了推荐的精度。本文所提方法有效提升了医生推荐精度。【创新/局限】通过融合标签和患者咨询文本,采用社会网络分析实现了医生混合推荐。虽然通过中心性指标进行重要医生挖掘,但挖掘效果有提升空间。  相似文献   

16.
陈晨  侯景瑞  吴任力  王平 《情报科学》2019,37(7):139-145
【目的/意义】社会化问答社区现已成为网络用户共享、传播及获取知识的重要平台,但其开放性和交互性 也给其问题推荐工作带来了巨大的挑战。本文提出的基于多源混合标签的方法能够有效提高社会化问答社区的 问题推荐质量,以促使问题得到及时有效地解决。【方法/过程】利用自动标签标注系统从问答文本中提取关键词, 将语义扩展后的关键词作为基本标签,并建立多源混合标签库;利用标签表示用户的兴趣偏好与权威度,并建立用 户特征模型;最终通过协同过滤的方式进行匹配推荐。【结果/结论】实验结果表明,本文提出的基于多源混合标签 的问题推荐方法在检全率、检准率以及F值等指标方面均不同程度地优于基于文本相似度的基准方法。  相似文献   

17.
朱光  潘高枝  李凤景 《情报科学》2022,40(4):127-137
【目的/意义】识别信息隐私研究领域的热点主题,梳理主题演化路径。【方法/过程】针对主题识别语义杂乱 等问题,提出时序关联与结构表征视角下的主题演化分析方法。首先利用LDA(Latent Dirichlet Allocation)模型识 别多时间窗口下的文献主题,进一步运用共词分析绘制语义更为独立的主题凝聚子群。在此基础上,从时序关联 维度计算相邻窗口下主题间的相似度,梳理演化路径;从结构表征维度,设计主题新颖度、中心性、影响力等计量指 标,探寻信息隐私前沿和热点主题的演化变迁。【结果/结论】实证分析结果表明,本文方法可以深度挖掘信息隐私 领域研究主题,从宏微观两个维度全面梳理主题的演化路径。研究有利于探测信息隐私研究的前沿。【创新/局限】 综合运用LDA主题模型与共词分析方法绘制主题凝聚子群,从时序演化和结构表征两个维度探寻主题演化路径。 未来研究中有待于引入多种数据源以对比主题差异,有待于引入多元组术语改善主题识别效果。  相似文献   

18.
【目的/意义】利用用户画像以及个性化推荐算法实现智慧图书馆中的图书推荐。【方法/过程】从构建智慧 图书馆用户画像的自然属性、兴趣属性、社交属性三个数据维度出发,借助相似度计算方法分别计算不同维度读者 和图书的相似度,实现基于相似读者和相似图书的虚拟图书推荐,阐述了借助智慧图书馆的先进技术实现基于位 置的实体图书推荐。【结果/结论】实验结果表明将用户画像用于智慧图书馆图书推荐可提升图书馆个性化服务能 力,针对读者实现精准推荐。【创新/局限】基于用户画像的图书推荐从多个维度进行组合推荐,实现了智慧图书馆 虚拟图书和实体图书的个性化推荐,提高了推荐质量,为提升智慧图书馆个性化服务具有一定的借鉴意义。局限 在于选取的读者以及图书数量较少。  相似文献   

19.
【目的/意义】随着网络社交媒体的发展,舆情文本中隐含的主题越来越能体现出人们的关注点所在及变化 情况,因此对其进行检测及演化分析具有重要意义。【方法/过程】为了解决OLDA模型存在的主题混合及权重定义 问题,本文提出了一种可变在线LDA模型(variable online LDA,VOLDA),通过构建主题相似度矩阵,明确主题变化 关系,在主题内容演化矩阵中剔除含有旧主题的时间片,从而构建变长的演化矩阵,并在此基础上设计动态权重计 算方法及先验参数优化方法。【结果/结论】基于论坛文本数据的实验结果表明,VOLDA模型能够有效减少新主题 出现后的主题混合问题,并且提高主题在演化过程中的表示能力。  相似文献   

20.
【目的/意义】通过网络表示学习方法学习和发现作者间的关联性,提高推荐准确率,更好地进行关联推 荐。【方法/过程】基于2010-2017 年中国管理科学领域的数据构建基于网络表示学习的作者合作推荐模型,通过多 关系映射获取到的多关系序列作为语料库,采用Word2vec 方法进行网络表示学习训练,并利用余弦相似度方法计 算作者间相似度。【结果/结论】本文算法推荐精度达到82.8%,其推荐精度显著提高;融合元路径(元结构)特征的推 荐精度大幅提高,能为作者合作伙伴的选择提供建议和参考,对实践具有一定的指导意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号