共查询到19条相似文献,搜索用时 265 毫秒
1.
文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。 相似文献
2.
3.
4.
[目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。 相似文献
5.
6.
7.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。 相似文献
8.
基于句子选择的自动文本摘要方法及其评价 总被引:1,自引:0,他引:1
王知津 《现代图书情报技术》1998,14(1):46-51
简要评述了自动摘要的文献, 介绍了一个基于句子选择的自动文本摘要系统, 分析了该系统的运行, 指出这种方法对于自动文本摘要的意义。 相似文献
9.
提出一种基于基本要素方法的中文自动文本摘要模型(BESM)。该模型主要借鉴基本要素的思想进行建立,和单纯的基于词的自动文摘模型相比,它将语义信息作为评估句子重要程度的一部分,实现基本要素中提出的将语义信息和统计方法的结合。通过与普通方法的实例对比,突出基本要素方法的优越性和BESM模型的可行性。 相似文献
10.
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词鄄文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题.本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法.新方法在整个话题范围内构造语义空间词鄄文档矩阵,采用奇异值分解对原始词鄄文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词鄄文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘.实验结果表明,该方法能够对语义空间词鄄文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果. 相似文献
11.
本文提出了几个可以改善中文自动文摘系统的文摘效果的措施 :1 将字频统计方法和词频统计方法有机结合起来 ;2 进一步研究人工文摘中理解性文摘句的形成机理 ,完善仿人算法 ;3 将自动聚类的方法引入自动文摘研究。 相似文献
12.
13.
Summarizing Similarities and Differences Among Related Documents 总被引:10,自引:0,他引:10
In many modern information retrieval applications, a common problem which arises is the existence of multiple documents covering similar information, as in the case of multiple news stories about an event or a sequence of events. A particular challenge for text summarization is to be able to summarize the similarities and differences in information content among these documents. The approach described here exploits the results of recent progress in information extraction to represent salient units of text and their relationships. By exploiting meaningful relations between units based on an analysis of text cohesion and the context in which the comparison is desired, the summarizer can pinpoint similarities and differences, and align text segments. In evaluation experiments, these techniques for exploiting cohesion relations result in summaries which (i) help users more quickly complete a retrieval task (ii) result in improved alignment accuracy over baselines, and (iii) improve identification of topic-relevant similarities and differences. 相似文献
14.
一种使用自动聚类思想的自动文摘方法 总被引:5,自引:0,他引:5
本文提出了一种使用自动聚类思想的自动文摘方法 ,这种方法是进行自动文摘研究的一种新的有益的尝试。该方法首先利用词频统计方法得到文献的关键词向量、每个段落的关键词向量 ,然后利用自动聚类的方法将文献分为若干个段落类 ,从中选出与文献主题相关的段落类作为候选的用来挑出文摘句的段落类 ,最后从候选段落类中选出文摘句构成文摘 相似文献
15.
16.
Xiaojun Wan 《Information Retrieval》2008,11(1):25-49
In recent years graph-ranking based algorithms have been proposed for single document summarization and generic multi-document
summarization. The algorithms make use of the “votings” or “recommendations” between sentences to evaluate the importance
of the sentences in the documents. This study aims to differentiate the cross-document and within-document relationships between
sentences for generic multi-document summarization and adapt the graph-ranking based algorithm for topic-focused summarization.
The contributions of this study are two-fold: (1) For generic multi-document summarization, we apply the graph-based ranking
algorithm based on each kind of sentence relationship and explore their relative importance for summarization performance.
(2) For topic-focused multi-document summarization, we propose to integrate the relevance of the sentences to the specified
topic into the graph-ranking based method. Each individual kind of sentence relationship is also differentiated and investigated
in the algorithm. Experimental results on DUC 2002–DUC 2005 data demonstrate the great importance of the cross-document relationships
between sentences for both generic and topic-focused multi-document summarizations. Even the approach based only on the cross-document
relationships can perform better than or at least as well as the approaches based on both kinds of relationships between sentences.
相似文献
Xiaojun WanEmail: |
17.
本文系统性地研究面向查询的观点摘要任务,旨在构建一种查询式观点摘要模型框架,探究不同的摘要方法对摘要效果的影响。通过综合考虑情感倾向与句子相似度,从待检文档中抽取出待摘要语句,再结合神经网络和词嵌入技术生成摘要,进而构建面向查询的观点摘要框架。从Debatepedia网站上爬取议题和论述内容构建观点摘要实验数据集,将本文方法应用到该数据集上,以检验不同模型的效果。实验结果表明,在该数据集上,仅使用基于抽取式的方法生成的观点摘要质量更高,取得了最高的平均ROUGE分数、深度语义相似度分数和情感分数,较生成式方法分别提高6.58%、1.79%和11.52%,而比组合式方法提高了8.33%、2.80%和13.86%;同时,本文提出的句子深度语义相似度和情感分数评估指标有助于更好地评估面向查询的观点摘要模型效果。研究结果对于提升面向查询的观点摘要效果,促进观点摘要模型在情报学领域的应用具有重要意义。 相似文献
18.
在理解自动摘要处理流程和梳理国内外重要研究成果的基础上,重点对自动摘要研究在文本分词、冗余度控制、质量评价、短文本自动摘要以及多语言与跨语言文本自动摘要等方面所面临的若干基本问题及其主要解决方法进行归纳和总结,并对部分研究内容的发展方向进行展望,以期为未来的自动摘要和自然语言处理研究提供有意义的参考。 相似文献
19.
自动文摘系统的评测是自动文摘技术研究与发展的关键部分.随着摘要技术的快速发展,国外学者十分重视评测技术,研究工作也如火如荼,而国内相关工作相对贫乏.文摘评测对文摘系统的性能有重大影响,对自然语言处理、信息检索等相关技术有着促进作用.本文详细介绍了文摘评测的两大方法:内部评测和外部评测,并对多年来文摘评测中应用的关键技术做了简要总结,最后指出文摘评测面临的挑战及未来需要努力的方向. 相似文献