首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 810 毫秒
1.
提出一种利用翻译词对信息快速构建知识组织系统中术语之间同义关系的方法:利用单词条的翻译数量、翻译共现强度等作为基本输入,通过简单布尔判断、条件互信息或向量空间模型余弦相似度来计算术语之间的相似度,进而发现并构建同义关系;采用准确率和丰富率来评价构建效果,通过在新能源汽车领域进行实验,发现该方法不但速度快,而且在翻译信息比较丰富的条件下,对于中文同义关系构建有较好效果。  相似文献   

2.
在共指消解领域,目前已经有大量研究工作围绕实体共指问题展开,而有关事件共指方面的研究则相对较少。由于事件表述的灵活性,共指事件识别的研究重点之一在于如何构建事件表述相似度的计算模型。而在对同一事件的相似表述中,不仅包含词级别的同义表述,还包含语句级别的同义表述。针对该状况,本文基于新闻报道语料的特点,一方面针对词级别同义表述模式的抽取,设计了同义词知识库的自动构建策略,并考虑了缩略语、同位语等情况的处理;另一方面在词级别同义表述模式抽取的基础上,设计了语句级别同义表述实例的识别策略,进而可以抽取同义表述模式并剔除模式中的冗余成分。通过在实际数据集合上的实验,表明了本文策略的有效性。基于抽取到的词级别和语句级别的同义表述模式,可以有效提升共指事件识别的效果;本文工作也可以视为对共指事件识别现有策略的有益补充。  相似文献   

3.
在当前词共现分析多关注两词共现分析的基础上,提出多词共现分析方法,并采用关联规则挖掘中的频繁项集抽取法,实现多词共现的抽取和与分析.以我国国家知识产权局专利数据库(SIPOD)中数字信息的传输领域(H04L)为例,抽取和深入分析该领域中词最多的多词集合和频数最大的多词集合.最后,结合当前文献计量学中研究热点的定义与识别,应用多词共现分析方法发现H04L领域中的6个研究热点,进而对这6个研究热点中的部分代表性专利文献进行介绍.  相似文献   

4.
基于词典和统计的语料库词汇级对齐算法   总被引:5,自引:0,他引:5  
语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。实践证明该方法是行之有效的  相似文献   

5.
一种改进的互信息特征选择算法   总被引:3,自引:0,他引:3  
谭金波  黄峰  杨晓江  李艺 《情报学报》2006,25(6):651-656
本文在层次分类的环境下,首先实验比较了文档频率、信息增益、期望交叉熵、χ2统计、文本证据权、互信息6种常用的特征选择算法,结果是互信息的分类效果最差。然后对此作了分析,并在此基础上提出了一种改进型互信息算法。实验结果表明,改进型互信息算法要好于其他算法。单字词的去除使分类效果得到提高,说明词特征更能够比较完整地表达语义信息。  相似文献   

6.
本文首先提出了一种三词共现分析方法,介绍了它的基本结构和特点,并据此提出了三词有序共现对的概念,同时还说明了获取映入词和紧密环的方法.然后,文章重点阐述了如何利用该三词共现分析方法来识别学者主要的研究兴趣特征.在上述研究的基础上,文章随后介绍了一种个性化外文推荐服务的实现方法,对其中外文文献数据的收集处理、规范处理及其推荐策略都进行了详细说明.最后,文章对相关测试实验及其改进效果做了必要的说明.  相似文献   

7.
基于修正点互信息的特征级情感词极性自动研判   总被引:1,自引:0,他引:1  
[目的/意义]基于语料的情感词发现依语句上下文推断情感词极性,能显著提升情感分析的准确率,在面向领域的特征级情感分析任务中有重要应用价值。[方法/过程]对特征级情感极性研判问题展开探讨,提出基于点互信息的"特征-情感"对情感极性自动判别算法,算法借助大规模领域语料,根据观点表达"特征-情感"对与情感语义明确的种子词的共现关系,同时引入依存句法分析语句间的情感转折,通过修正经典的点互信息算法,对上下文约束下的用户观点表达进行褒贬预测。[结果/结论]实验证明,修正算法的性能显著优于词典匹配算法和经典的点互信息情感识别算法,不仅能够推断词典中未纳入的观点表达的情感指向,而且能较准确地推断"语境"中的情感词极性。在餐饮评论和数码产品评论两个评测语料集上,修正算法的F1宏平均指标分别达到0.827和0.878。该算法以领域相关的大规模语料为支撑,基于概率统计和句法分析,因数据获取便利,算法效率高,移植性好,具有普适性,尤其适用于面向领域的情感分析任务。  相似文献   

8.
细粒度语义共词分析方法研究   总被引:2,自引:0,他引:2  
针对共词分析方法存在的共现词对的"同量不同质"问题、共词分析结果解释的"不一致"问题等,提出一种细粒度语义共词分析方法。该方法一方面对词对共现统计单元进行碎片化处理,由"文献单元"变为"知识单元"(RDF三元组),达到细粒度的目的;另一方面对共词分析方法进行语义化处理,将共现词对的语义信息融入到共词分析过程之中。最后,借助该方法进行实证研究,并在一定程度上验证该方法的科学性和有效性。  相似文献   

9.
共词分析是科学计量领域用以识别研究热点的重要方法,但对其有效性的检验相对薄弱。通过应用自然语言处理的方法,以最近30年来动物学领域发表于中文期刊上的科技论文为分析对象,将基于题名、摘要和全文分词结果而提取的高频词连同基于关键词而提取的高频词一起,纳入了共词分析的范畴,通过识别的研究热点与共识性研究热点之间的相关分析,对基于共词分析而识别的研究热点的表面效度进行了检验。研究结果表明,以关键词为分析单元而识别的研究热点的表面效度最低,而基于全文而识别的研究热点表面效度最高;以复合型指标(算法)识别的研究热点表面效度较高,而以单一型指标(算法)识别的研究热点的表面效度较低。  相似文献   

10.
基于共词分析法的学科主题演化研究方法的构建   总被引:1,自引:0,他引:1  
唐果媛 《图书情报工作》2017,61(23):100-107
[目的/意义]相比于以单纯的关键词统计排序为主的词频分析法,和以文献作为分析对象、需要庞大的引文索引作为基础的共引分析法,共词分析法具有一定的优势。因此,基于共词分析法来研究学科主题演化规律。[方法/过程]构建基于共词分析法的学科主题演化研究方法,包括4个模块,分别是:数据准备、演化阶段划分、主题识别和主题演化分析。[结果/结论]在主题识别阶段改进了词频g指数来选取共词分析的对象;在主题演化分析模块,提出从静态和动态两个角度来分析学科主题的演化情况,构建三维战略坐标来进行静态分析,并构建学科主题演化现象识别模型来进行动态分析。  相似文献   

11.
针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS)。这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支持度指标筛选,不需要词典,不需要事先进行语料库学习,不需要建立字索引,通过串匹配获取中文文本中的汉字共现模式,实时地抽取出包含专业术语及专有名词等未登录词在内的专指语义串、短语和词。实验研究了抽词准确率受规则的影响及随文本大小和词频变化的分布,结果表明BMMFS可以取得更好的抽词效果。  相似文献   

12.
针对学科领域中热点研究主题探测,尝试综合运用共词分析方法与自组织映射(SOM)方法,在词频统计的基础上,分析高频主题词在文献中的共现,并作为输入数据利用SOM Toolbox进行SOM聚类分析,得到领域热点研究主题。以传统医药领域为例进行实证分析,结果表明该方法对领域中热点主题探测有一定效果。  相似文献   

13.
文章根据CNKI数据库所收录的相关学术论文,借助sPss和MVSP等统计软件,对我国多智能体系统的应用研究领域予以共词分析。在获得高频关键词共现矩阵基础上,结合因子分析和聚类分析两种方法,明晰各研究主题之间关联,界定研究热点,揭示学科结构,为该领域的进一步发展提供参考。  相似文献   

14.
一种基于词共现图的文档自动摘要研究   总被引:1,自引:0,他引:1  
耿焕同  蔡庆生  赵鹏  于琨 《情报学报》2005,24(6):651-656
本文提出了一种基于词共现图的文档自动摘要算法。该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定文档摘要长度。在实验评估中,该文档自动摘要方法取得了令人满意的摘要效果。  相似文献   

15.
在对可视化概念进行概述的基础上,分析目前在知识图谱领域应用的可视化分析方法与软件工具,并对可 应用于多特征项共现的可视化分析方式进行研究,包括社会网络可视化方式以及交叉图技术可视化方式,还对这两种 可用于多特征项共现可视化的具体分析方法、显示方式进行阐述和展示。最后通过对比这两种不同可视化方式的特 点,发现多特征项共现交叉图的可视化技术较好。在应用前景方面,通过应用本文中基于科技文献多特征项共现的图 谱可视化方法和软件工具,可以对研究机构、研究领域、研究学者等发表论文情况进行分析,能够观测所选论文集中 多  相似文献   

16.
目前,生物医学文献的数量正以爆炸性的速度增长,这些文献中隐含着大量有用的信息,挖掘这些文献可以形成医学假设.然而,传统的基于简单共现的方法会产生大量的目标词,从而导致准确率下降.本文提出一种新的选取连接词的方法,使用统计特征和文本特征来代替每一个连接词并表示为向量形式,然后把这些词分类为相关和不相关.使用相关的连接词发现目标词,可以提高知识发现的准确率.本文通过Swanson的两组经典实验--雷诺氏病和鱼油、偏头痛和镁,使用有效连接词的比例变化作为依据验证了方法的有效性.最后,本文以H1N1为初始词,进行开放式和闭合式知识发现研究,得到了较好的效果.  相似文献   

17.
赵一鸣  尹嘉颖 《情报学报》2023,(10):1187-1198
共词网络是研究语言现象的重要方法,语义特征是词汇共现现象中重要的隐性知识,研究共现词之间的语义关系及特征,可以从语义视角改进共词网络的研究,并利用语义学知识为现有的共词分析方法赋能。本文提出了一种语义增强型的共词网络构建和分析方法,从共现特征、网络特征与语义特征3个维度丰富了共词网络节点和边的属性。通过实验构建了基于14万余篇新闻文本数据的语义增强型全文本共词网络,并重点对共现词对的语义特征进行分析,结合案例呈现了该方法在计算语言学研究和行业应用上的价值。本文从词间语义关系的视角,拓展了共词网络的构建和分析方法,描述了共现词汇的语义特征,证实了语义关系的非对称性和传递性,为语义关系的分类与推导提供了理论依据,在语义消歧、词义理解等方面具有应用价值。  相似文献   

18.
分年度选取了图书情报学高被引论文作为研究样本。指出了高频关键词共词分析的不足,提出了一个兼顾中低频关键词的选词方案。方案中提出删除通用高频关键词的设想,解决通用高频关键词的复分难题;把共现关系较强的中低频关键词纳入共词分析之中,提高关键词的代表性。通过多维尺度图和聚类树状图的对比分析,发现这种共词分析方法相对传统的高频关键词共词分析关键词聚合度更高,组团间关系更明晰,更能揭示研究领域的主题结构,是一种改进共词分析效果的有效方法。  相似文献   

19.
文章从共词分析的角度分析我国高校数字图书馆的研究现状,以CNKI为数据源,选取2000-2015年发表的数字图书馆领域的期刊论文和学位论文为样本数据,借助BICOMB2书目共现分析系统以及SPSS21.0统计分析软件等工具,利用共词分析、因子分析、聚类分析等方法,得出目前高校数字图书馆领域存在的7个研究主题.  相似文献   

20.
共词分析是一种有效地文献内容分析方法,已经在各种情报研究工作中得到了广泛的应用.共词分析方法本身也在应用过程不断被改进和发展,但是目前共词分析研究主要关注二元词对共现的研究,对三元甚至多元词组的共现很少涉及.研究参考国内外共词分析研究成果,借鉴DLG关联挖掘算法,提出基于位向量的三元共词分析算法和基于坐标图的三元共词结果分析方法.并以国内知识发现研究的期刊论文关键词为对象进行三元共词分析实证研究,发现三元共词结果具有一定的实际意义,三元共词分析有一定的应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号