首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 625 毫秒
1.
讨论了一种运用于搜索引擎中的多文档自动摘要技术。传统搜索引擎返回结果繁杂,常用的解决方案是使用聚类技术将内容相似的网页集合归类,然而聚类后的结果数目庞大,依然无法体现该类的主题。提出一种新的基于文本关系图的多文档自动摘要技术,对每类返回结果依主题思想自动提取多文档摘要,提高搜索引擎使用效率。分析了该系统的结构和算法,评价了实验结果,指出了未来的研究方向。  相似文献   

2.
【目的/意义】引用动机不同会导致一篇论文在多次被引用时的引用主题和重点产生差异,识别这些被引主题并分析其变化,有助于引用动机分析,提高文献推荐效果。【方法/过程】本文首先抽取被引文献的上下文语境信息,根据文本长度界定多种引用内容的划分范围;然后结合多种文本聚类方法,识别被引主题并比较其异同;最后通过时序比较,分析被引主题的演化路径和过程。【结果/结论】选取人工智能研究领域中的代表性高被引论文进行分析,发现前后句是对当前引用句的重要补充,引用句及其前后句组合能够更好地揭示被引主题;基于引用内容的被引主题呈现出多样化的特征,揭示了原文内容的扩展和引用动机的差异;被引主题演化分析能够有效地揭示原文内容被应用或改进的方向、主题、方法和技术。【创新/局限】形成基于引用内容聚类的文献被引主题识别及其演化分析框架,证明被引主题的差异化以及对原文的补充作用,同时揭示引用内容的主题时序变化的特征与现实意义,后续有必要扩大研究样本,使得研究结果具有更好的通用性。  相似文献   

3.
王力  耿爱静 《情报科学》2005,23(10):1505-1508
本文采用现有的中文自动标引与文档自动摘要的技术,将主题讨论区中的内容,通过网络技术自动汇总成常见问答集(Frequently Asked Questions)的知识形式,辅助版主能有效率地将主题讨论区中的知识分享给所有的成员使用。本文通过自动摘要文献的探讨,提出一个FAQ知识转换的概念模式。以混合式自动标引法作为中文关键词抽取的工具并结合相似度计算,将文章整理成FAQ摘要的形式。  相似文献   

4.
【目的/意义】旨在将社会化问答社区中碎片化的答案关联起来,并为用户提供不同主题的高质量答案和更 好的知识服务。【方法/过程】首先,本研究利用Doc2vec算法计算答案之间的语义相似度,并构建答案语义网络。其 次,利用Louvain算法对答案语义网络进行社区划分,并用TextRank算法抽取各个主题下文档的关键词,使用词云 对每个主题进行可视化展示。最后,利用PageRank算法对聚类后的答案语义网络进行排序,从而实现答案文档的 主题聚合和排序。【结果/结论】本研究使用“知乎”上的问答数据进行了实证研究。结果表明,所提出的答案聚合和 排序方法不仅能够向用户直观地展示答案之间的关联强度和各个主题答案的主要内容,还能够为用户提供分主题 的答案排序结果,自动为用户筛选高质量的答案。【创新/局限】创新性地提出了答案语义网络,并基于答案语义网 络,提出了一种集聚合、主题可视化和排序于一体的答案知识组织方法。  相似文献   

5.
【目的/意义】颠覆性技术具有隐蔽性和突变性,而技术主题在演化过程中会释放颠覆性趋势产生的早期信号,本文提出一种基于专利主题演化的颠覆性技术识别方法。【方法/过程】首先,基于S曲线法判断技术生命周期;其次,综合运用文本挖掘和社会网络分析方法识别技术主题的演化事件;最后,定义新主题出现、原主题趋热和多主题融合三类突变情况,用于识别具有颠覆性潜力的技术主题。【结果/结论】通过类脑智能领域专利实证,发现六个新出现主题、四个趋热型主题和六个融合型主题,通过专家判读,证明了所提方法的有效性,同时筛选出五项主题作为最终预测结果。【创新/局限】本文基于动态社区发现算法对技术主题的演化特征进行分析,进而基于主题突变性筛选颠覆性技术,但数据来源较为单一,将在未来研究中加以扩充。  相似文献   

6.
孟秋晴  熊回香 《情报科学》2021,39(6):152-160
【目的/意义】为了向在线医疗社区中的用户自动推荐符合其自身实际需求的医生,本文基于在线问诊文本 信息,提出了基于相似用户与相似医生的混合医生推荐算法。【方法/过程】首先从用户咨询问题出发,找到具有相 似咨询问题的用户,将其所选择的医生作为基于相似用户的推荐集合;然后从医生回答从发,通过LDA主题模型训 练,从医生回答文本集中挖掘出隐含的疾病主题,按主题查找具有相似疾病诊治经验的医生作为推荐集合;最后通 过混合相似度计算融合基于相似用户和相似医生的推荐结果,得到最终推荐列表。【结果/结论】通过对在线医疗社 区“39健康网”进行实证研究,结果表明,利用本文提出的方法进行推荐,能够有效降低数据维度,挖掘文本间的潜 在语义关联,有效缩小语义鸿沟,提升推荐质量,具有较好的推荐效果。【创新/局限】本文仅选取了针对科室的小样 本数据进行实验,且部分参数使用经验值,未来可深入探讨该方法在大规模医疗数据集上的应用。  相似文献   

7.
【目的】解决Indesign XML排版时单双栏混排文档中图像的自动排版问题。【方法】编写Java Script脚本,通过顺序读取标签、提取标签内容、应用样式的方法实现Indesign XML自动排版。【结果】在Indesign XML排版中应用自编的Java Script脚本可以实现单双栏混排文档中单栏图的自动排版。【结论】自编的Java Script程序能够在Indesign中实现以文字和单栏图为主的单双栏混排文档的自动排版与PDF文件导出,优化了排版流程。  相似文献   

8.
【目的/意义】本文通过探究社交媒体主题分布特征及其在不同情感倾向的差异性,对发掘用户意见表达的特征规律,进而在突发事件风险沟通中制定科学合理的内容发布和情感引导策略,提升风险沟通管理效果具有重要作用。【方法/过程】研究从发文和用户两个维度出发,设计主题分布指标,刻画社交媒体主题的散布状态。采用方差分析,检验主题分布特征在情感倾向上的显著差异,解析影响主题情感演变的内在因素。【结果/结论】实验以新浪微博中高影响力用户的常态发文为样本数据,分析发现:(1)通过聚焦主题和集中输出观点,可以培养用户在特定领域中的影响力。(2)高影响力用户习惯于表达明确的情感倾向,且其情感随着时间推移变化。(3)主题分布热度和广度在发文的积极与消极情感倾向上具有显著差异,且均不受时间因素的影响。【创新/局限】本文构建了主题分布特征分析框架,并探讨了主题分布特征与情感倾向的差异,研究结论可为制定科学的风险沟通策略提供参考。后续可通过探究基于用户常态发文与事件发文的异同规律实现观点和情感预测,辅助突发事件中的舆情风险治理。  相似文献   

9.
【目的/意义】在国际政治经济环境和全球创新格局不断变化的背景下,拓展全球科技创新合作伙伴、建立更为广泛和紧密的全球科技创新合作网络,成为亟待解决的问题。【方法/过程】本文基于科技论文构建主题词共现矩阵,筛选二阶共现主题词对作为潜在国际科技合作主题对,通过定义主题对的国际合作潜力指数以及主题路径的国际科技合作路径强度指数,判定主题对的国际合作潜力并寻找有效的主题合作路径。【结果/结论】以中俄人工智能领域的SCI论文和CPCI-S论文为分析对象,通过对该领域潜在国际科技合作主题的识别和分析,证实本文所提方法的有效性。【创新/局限】本文提出一种识别潜在国际科技合作主题的方法,并利用中俄两国论文进行实证研究,但未考虑不同国家研究产出规模差异,未对关键词进行语义分析,需在后续研究中进一步探讨。  相似文献   

10.
【目的/意义】基于文献数据的领域知识图谱构建有助于探测某学科领域的主要研究内容及其发展方向,是 进行技术创新的基础情报工作,对于研究人员、企业都具有一定的意义。【方法/过程】提出基于交互式可视化技术 的知识图谱构建方法,首先基于经典LDA模型进行主题识别,然后基于社会网络分析方法构建领域主题网络识别 关键主题词;最后,基于JS(D3 工具)绘制可交互的关键主题词关联与检索知识图谱,发现关键主题词的隐含联系, 辅助进行领域知识挖掘与分析。【结果/结论】通过对我国医疗健康信息领域进行实证研究,验证了本文提出方法的 准确性和有效性。  相似文献   

11.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

12.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

13.
余本功  王胡燕 《情报科学》2021,39(7):99-107
【目的/意义】对互联网产生的大量文本数据进行有效分类,提高文本处理效率,为企业用户决策提供建 议。【方法/过程】针对传统的词向量特征嵌入无法获取一词多义,特征稀疏、特征提取困难等问题,本文提出了一种 基于句子特征的多通道层次特征文本分类模型(SFM-DCNN)。首先,该模型通过Bert句向量建模,将特征嵌入从 传统的词特征嵌入升级为句特征嵌入,有效获取一词多义、词语位置及词间联系等语义特征。其次,通过构建多通 道深度卷积模型,将句特征从多层级来获取隐藏特征,获取更接近原语义的特征。【结果/结论】采用三种不同的数 据对模型进行验证分析,采用对比相关的分类方法,SFM-DCNN模型准确率较其他模型分类性能有所提高,这说 明该模型具有一定的借鉴意义。【创新/局限】基于文本分类中存在的一词多义、特征稀疏问题,创新性地利用Bert来 抽取全局语义信息,并结合多通道深层卷积来获取局部层次特征,但限于时间和设备条件,模型没有进行进一步的 预训练,实验数据集不够充分。  相似文献   

14.
【目的/意义】为在线医疗问诊平台中的医生自动生成高质量标签,更好地服务于对医生资源的分类、检索和管理。【方法/过程】基于在线问诊文本信息,提出了结合时间周期特征与文本主题特征的医生标签自动生成算法。首先根据医生相关文本信息提取关键词生成候选标签,然后从患者问题文本和医生回答文本两个方面进行LDA主题模型训练,按时间周期挖掘出问题文本和回答文本的主题特征,对候选标签进行质量控制;最后经标签加权混合后得到最终的医生标签。【结果/结论】实验结果表明,该标签自动生成算法能够反映出医生标签生成的动态性,能够准确生成符合医生专业知识特征的高质量标签,具有较好的标签生成效果。  相似文献   

15.
占泚  熊回香  蒋武轩  李琰 《情报科学》2022,39(1):121-129
【目的/意义】在线健康信息的有效组织对提升全民身体素质具有重要的社会价值。【方法/过程】在分析健 康信息主题、关联关系和资源标引的基础上,构建基于主题图的在线健康信息标签语义挖掘模型,从而构建了健康 信息标签主题图并实现了其可视化导航、浏览和检索等功能。【结果/结论】基于主题图的在线健康信息标签语义挖 掘模型能够准确的发现在线健康信息与信息标签间的深层关系,可以更好地揭示在线健康信息标签的语义关联, 为用户提供信息的可视化浏览和导航功能、提升健康信息的组织效果,帮助用户健康信息获取。【创新/局限】本文 将主题图与健康信息标签相结合,提高了健康信息的检索效率和利用效率,但本文也存在着不足,例如标签样本量 和样本范围较小,缺乏专业医学研究者的参与。  相似文献   

16.
Today, due to a vast amount of textual data, automated extractive text summarization is one of the most common and practical techniques for organizing information. Extractive summarization selects the most appropriate sentences from the text and provide a representative summary. The sentences, as individual textual units, usually are too short for major text processing techniques to provide appropriate performance. Hence, it seems vital to bridge the gap between short text units and conventional text processing methods.In this study, we propose a semantic method for implementing an extractive multi-document summarizer system by using a combination of statistical, machine learning based, and graph-based methods. It is a language-independent and unsupervised system. The proposed framework learns the semantic representation of words from a set of given documents via word2vec method. It expands each sentence through an innovative method with the most informative and the least redundant words related to the main topic of sentence. Sentence expansion implicitly performs word sense disambiguation and tunes the conceptual densities towards the central topic of each sentence. Then, it estimates the importance of sentences by using the graph representation of the documents. To identify the most important topics of the documents, we propose an inventive clustering approach. It autonomously determines the number of clusters and their initial centroids, and clusters sentences accordingly. The system selects the best sentences from appropriate clusters for the final summary with respect to information salience, minimum redundancy, and adequate coverage.A set of extensive experiments on DUC2002 and DUC2006 datasets was conducted for investigating the proposed scheme. Experimental results showed that the proposed sentence expansion algorithm and clustering approach could considerably enhance the performance of the summarization system. Also, comparative experiments demonstrated that the proposed framework outperforms most of the state-of-the-art summarizer systems and can impressively assist the task of extractive text summarization.  相似文献   

17.
孙瑞英  马晓伟 《情报科学》2020,38(3):167-176
【目的/意义】通过对"高校智库"研究期刊文献进行分析,寻找到核心作者与核心主题,梳理其演化过程,为促进"高校智库"建设以及履行咨政、启民与育人使命提供有意义的参考。【方法/过程】采用多层次作者模型,利用文献计量学的方法对代表性学者、研究团队进行分析,以明确该主题研究领域的核心作者群;基于亲和思维,对不同时期的研究主题进行对比分析,并对核心作者发文的文本进行内容分析,以动态地认识和把握其演化过程与规律。【结果/结论】在此基础上,明确"高校智库"研究现状的优缺点,找到研究空白点,预测研究趋势,为未来"高校智库"研究提供建议,指导"高校智库"建设和实践工作。  相似文献   

18.
Sentiment analysis concerns the study of opinions expressed in a text. This paper presents the QMOS method, which employs a combination of sentiment analysis and summarization approaches. It is a lexicon-based method to query-based multi-documents summarization of opinion expressed in reviews.QMOS combines multiple sentiment dictionaries to improve word coverage limit of the individual lexicon. A major problem for a dictionary-based approach is the semantic gap between the prior polarity of a word presented by a lexicon and the word polarity in a specific context. This is due to the fact that, the polarity of a word depends on the context in which it is being used. Furthermore, the type of a sentence can also affect the performance of a sentiment analysis approach. Therefore, to tackle the aforementioned challenges, QMOS integrates multiple strategies to adjust word prior sentiment orientation while also considers the type of sentence. QMOS also employs the Semantic Sentiment Approach to determine the sentiment score of a word if it is not included in a sentiment lexicon.On the other hand, the most of the existing methods fail to distinguish the meaning of a review sentence and user's query when both of them share the similar bag-of-words; hence there is often a conflict between the extracted opinionated sentences and users’ needs. However, the summarization phase of QMOS is able to avoid extracting a review sentence whose similarity with the user's query is high but whose meaning is different. The method also employs the greedy algorithm and query expansion approach to reduce redundancy and bridge the lexical gaps for similar contexts that are expressed using different wording, respectively. Our experiment shows that the QMOS method can significantly improve the performance and make QMOS comparable to other existing methods.  相似文献   

19.
孙靖超  刘为军 《情报科学》2021,39(7):147-152
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息 进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对 文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采 样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的 方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性 微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任 务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种 新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号