首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
通过计算词共现关系强度,利用基于词共现关系强度和关键词词频的叙词选词方法确定数据通信领域的叙词候选词,并将其选词结果与基于关键词词频的选词方法选出的叙词候选词进行对比分析,结果显示:基于词共现关系强度和关键词词频的叙词选词方法选出的叙词候选词比基于关键词词频的叙词选词方法选出的叙词候选词质量更高。  相似文献   

2.
基于词频信息确定叙词表概念属性   总被引:2,自引:1,他引:1  
认为为了提高叙词表的实用性,在叙词表编制和应用中,需要充分发挥词频信息的重要参考价值。通过总结词频信息的利用方法,包括通过词频和专业偏向度确定专业核心概念、通过词频信息确定优选词属性以及通过词频信息为概念确定范畴号。探讨对词频高低的词汇属性、优选词的重要程度、词频生命周期变化和词频使用的局限性等问题。  相似文献   

3.
讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引,运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析,重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。  相似文献   

4.
赵一鸣  尹嘉颖 《情报学报》2023,(10):1187-1198
共词网络是研究语言现象的重要方法,语义特征是词汇共现现象中重要的隐性知识,研究共现词之间的语义关系及特征,可以从语义视角改进共词网络的研究,并利用语义学知识为现有的共词分析方法赋能。本文提出了一种语义增强型的共词网络构建和分析方法,从共现特征、网络特征与语义特征3个维度丰富了共词网络节点和边的属性。通过实验构建了基于14万余篇新闻文本数据的语义增强型全文本共词网络,并重点对共现词对的语义特征进行分析,结合案例呈现了该方法在计算语言学研究和行业应用上的价值。本文从词间语义关系的视角,拓展了共词网络的构建和分析方法,描述了共现词汇的语义特征,证实了语义关系的非对称性和传递性,为语义关系的分类与推导提供了理论依据,在语义消歧、词义理解等方面具有应用价值。  相似文献   

5.
[目的/意义]提出一种基于词频、词量、累积词频占比三者变化关系的共词分析词集范围的确定方法,尝试对现有词集范围选取方法中仅凭经验判断和过度依赖词频为“1”的关键词的问题进行改进,为相关研究提供一种更加规范、科学、值得借鉴的做法。[方法/过程]该方法充分考虑词集实际分布规律和特点,将词或词组分类成高、中、低频,并选择高、中频词共同作为共词分析的对象。[结果/结论]通过在具体领域的实例验证以及与其他方法的对比,证明该方法可以有效地选择合适的词集范围,对今后相关研究具有一定借鉴意义。  相似文献   

6.
一种基于共词网络社区的科研主题演化分析框架   总被引:3,自引:0,他引:3  
共词网络在一定程度上可以表示特定学科领域的知识结构。为分析主题演化过程,将网络社区的演化分为6种类型,分别为产生、消亡、分裂、合并、扩张与收缩。在此基础上,利用Z-value算法和社区相似度算法,构建一个科研主题演化分析模型。与传统的基于词频的分析思路相比,所提出的基于共词网络社区演化分析的框架不强调词频的变化,而是强调词间关系的变化,试图通过中观层面的网络社区的演化分析揭示科研主题发展规律。  相似文献   

7.
古籍文本抽词研究   总被引:2,自引:0,他引:2  
目前古籍文本检索大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到影响。现将处理现代文本的N元组法移植到古籍文本中进行实义词提取,实验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词。实验共从10万字的文本对象《齐民要术》中提取古籍普通语词和专有名词(包括书名、地名、人名官职名)共3369个,表明此实验方案基本是可行的。  相似文献   

8.
综合采用切分标志、分词词典和N元语法3种方法对古籍文本进行分词,并采用子串比较过滤、相邻词过滤、高频词过滤、低频词过滤等方法对分词结果进行过滤,分别以12种农业古籍和379种<广东方志物产>为语料进行了古籍分词测试.从12种农业古籍中共识别出已有词1164个,约占总词汇量的31%;未登录词2530个,占总词汇的69%.从379种<广东方志物产>资料中共识别出已有词6314个,占总词汇的8%;未登录词75 438个,则占总词汇的92%.通过对379种<广东方志物产>分词结果的分析发现,当词频等级位于区间(2000,8000)时,词频等级与频次乘积基本为常数23 000 000.这一结果说明齐夫定律在古籍文本中同样适用.  相似文献   

9.
本文以"非典型肺炎"和"甲型H1N1流感"两个传染病作为研究样本,以中国知网(CNKI)数据库中的文献关键词作为语料库来源,基于用户关键词词频统计,并结合人工核查,分析同一概念的同义词和近义词以确立关键词词间的等同关系。目的是了解用户关键词和MeSH主题词之间的差异,分析用户表达偏好和习惯,进而为叙词表维护中的候选词汇选择提供一定的参考。  相似文献   

10.
[目的/意义]分析学科主题演化趋势,对科研人员研究学科知识、决策层规划学科布局都有重要意义.相比于词频分析法和共引分析法,共词分析法的优势是能深入文献内部,从微观角度揭示学科主题演化规律.分析中国国内基于共词分析法的学科主题演化研究现状,以期为相关研究人员提供参考和借鉴.[方法/过程]采用人工判读法提炼出基于共词分析法的学科主题演化研究分析流程的5个步骤,并对每个步骤中研究人员使用的策略、分析手段和工具进行归纳总结.[结果/结论]数据集的来源数据库主要有综合类、专门类和引文类等3种,检索策略有基于词、基于期刊和复合检索策略等3种;共词分析对象来源主要为作者关键词,关键词选取主要基于关键词词频、关键词共现词频和前两者相结合3个角度;构建共词矩阵时使用得最多的归一化系数为ochiai系数;最常用的主题演化分析手段为聚类分析和社会网络分析图谱;使用得最频繁的工具为SPSS软件.  相似文献   

11.
奉国和  孔泳欣 《情报学报》2020,39(1):100-110
基于生命周期理论和词频分析方法,对学科领域发展过程进行客观合理的动态跟踪与分析。构建时间-关键词频次矩阵,结合相对词频、词频变化率,引入逻辑斯谛(Logistic)函数赋予词频按时间递减的权重,设计时间加权关键词词频分析模型,计算关键词综合值,揭示学科研究热点及变化趋势;并以CNKI和CSSCI收录的18种图情领域核心期刊2013-2017年所刊载的文献关键词作为实验对象,从高频词、中频词、低频词三个方面验证模型的有效性和准确性。模型计算结果显示,上升型高频词排名上浮,下降型高频词排名下沉,可快速识别上升型高频词;同时排名靠前的低频词具有发展潜能,为学者把握未来研究趋势提供科学判断依据。  相似文献   

12.
[目的/意义]为克服关键词绝对词频分析的局限性,以关键词多因素加权及得分排名实现领域热点与趋势探索。[方法/过程]构建年度-关键词频次矩阵,用水平加权和垂直加权处理关键词词频,设计相对词频模型,计算关键词加权综合分值,以获得更有效的关键词排序。[结果/结论]基于关键词加权排序,可以识别量高质优型、量低质优型和突变型关键词,有利于挖掘研究热点和分析趋势。  相似文献   

13.
[目的/意义]构建关键词热度h值模型,探究近年图书情报领域热点与发展趋势。[方法/过程]基于学者Prathp的z指数模型,对关键词词频和文章被引值进行赋权,引入前人时间加权思想,多维角度归一化处理,计算热度值与年度排名,获得趋势。[结果/结论]比较加权前后绝对词频、z指数和关键词热度h值,排名结果差异明显;热度h值模型可提升热点关键词排名,拉低非热点关键词排名,排名情况验证h值的有效性,效果优良。  相似文献   

14.
基于关键词共现的概念知识网络具有明显的层次结构,以节点k-core值为依据可将其划分出层次。引入三元闭包作为知识网络分析的基本单元,在层次视角下,三元闭包存在多样性,可用于描述节点的同层聚集、知识融合、知识分化等多种现象。以“数字图书馆”领域为例,由其关键词组成的概念知识网络可进行分层,引入节点层级差异和三元闭包类型后,可以更深入地分析知识网络中节点的微观关联结构。  相似文献   

15.
钟伟金 《图书情报工作》2012,56(18):122-126
以科技文献中的共现关键词—叙词词对(以下简称共现词对)为研究对象,运用互信息法、概率法计算方法,以准确率和召回率为衡量指标,通过绝对值方式和相对最高值方式,分析这两种统计方法在不同区间内对同义共现词对的自动识别效果及特点。研究发现,概率法的相对最高值方式具有最佳的同义共现词对识别效果。最后,探讨互信息法、概率法与共现频率的关系,揭示这两种统计方法在同义共现词对的识别上存在互补的特性。  相似文献   

16.
本文探究网络舆论对伊朗突发新闻的关注热点,进而透过社交媒体分析网络舆论对国际热点事件的关注倾向。以含有关键词"伊朗少将遇袭"、"伊朗导弹袭击"和"伊朗"的所有微博作为研究数据,基于词频统计和LDA主题模型提取主题,从文本特征角度分析网络舆论对伊朗局势的关注热点。本研究对基于新浪微博数据检索到的文本内容进行分析发现,网络舆论对于微博关键词"伊朗少将遇袭"和"伊朗导弹袭击"的关注集中于事件本身,并持续关注事件发展态势。对于含有关键词"伊朗"的微博文本分析发现,2020年1月3日-16日网络舆论对伊朗的关注主要集中于政治、战争方面,同时,也关注经济、体育方面的信息。  相似文献   

17.
鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的重要关键词抽取和筛选的技术方法。该方法主要解决两个关键问题:关键词的识别和抽取、关键词重要性的衡量和筛选。以2001-2007年骨关节炎领域的文献集合为数据来源,对该技术方法进行实践尝试,并验证其实际有效性,为知识挖掘中的重要关键词抽取提供一个行之有效的途径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号