首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
王刘安  常春 《图书情报工作》2014,58(13):107-112
对比分析国际标准ISO 25964-1、美国标准ANSI/NISO Z39.19-2005、中国标准GB/T 13190-1991中优选词的定义,总结优选词的4个特性,即抽象性、唯一性、关联性、可变性;并对《英文超级科技词表》构建过程中概念优选词选择方法进行研究,归纳4种优选词选择方法,包括基于来源叙词表、基于文献词频大小、参考中文叙词表以及参考专业人员和用户的推荐;最后讨论优选词选择过程中多种方法的加权,英文术语翻译多样性,词频类型的优先级以及优选词的可变性等问题。  相似文献   

2.
主题词表即叙词表,是以特定的结构集合展示经过规范化处理的优选词和非优选词及其词间语义关系,作为标引和检索的术语控制工具。主题词表自诞生以来得到了很好的应用。例如,EI叙词表支撑EngineeringVillage文献平台的检索、浏览等功能;联合国粮食及农业组织编制的AGROVOC叙词表包含21种语言,在农业方面得到广泛应用;美国NASA叙词表在美国航空航天领域得到较好应用。随着互联网技术高速发展,大数据时代对主题词表提出了新的应用需求,不仅在图书情报机构中应用,更需要在跨界的相关机构中应用。例如,当前发达国家将主题词表应用于电子政务环境下政府信息的描述和提取中,利用主题词表建立知识库的自动分类系统,实现知识本体意义上概念关系的智能推理和语义聚类:应用于电子商务环境和大型企业的知识管理领域中,利用主题词表对海量信息的知识点进行自动标注,实现不同颗粒度的智能查询、领域监测、知识挖掘、领域知识聚类等应用;在医学、教育领域主题词表也应用于词语切分、信息抽取、聚类、词频统计、情感分析等文本信息处理基础工作,利用主题词表进行英汉对照索引,实现英汉跨语言检索和辅助机器翻译功能。这些应用无疑都存在一个需要精确定位信息的较大的社会需要。  相似文献   

3.
总结缩略语的3个特点,即全称多样性、来源多样性、形式多样性,并对《英文超级科技词表》中同义术语归并时缩略语的处理方法进行研究,归纳出直接同全称对应归并处理、添加全称限制、添加范畴限制、基于词频大小选择性归并等4种处理方法;讨论叙词表中缩略语作为优选词和非优选词的原则、缩略语对检全率和检准率的影响以及缩略语范畴号重复性等问题。  相似文献   

4.
网络信息时代叙词表的编制与应用   总被引:3,自引:1,他引:2  
统计我国叙词表的编制情况,分析在网络时代叙词表的发展趋势以及编制和应用特点。认为在叙词表编制方面,将会实现利用海量的数字信息资源,通过计算机抽取相关的专业术语和词间关系,在领域专家人工辅助干预下,建立适合现代网络信息资源特点和大众化的领域用户使用的叙词表。叙词表主要用于计算机系统后台的标引和检索,用户主要为使用网络检索专业信息的普通用户,数字界面和可视化将是叙词表的主要表现形式。  相似文献   

5.
陈立华 《图书情报工作》2010,54(12):124-123
论述叙词表的计算机化管理为转换领域本体创造条件,进行叙词表的概念属性转换本体的理论分析。通过本体转换原理、方法及建模过程的讨论,进一步指出叙词表本体转换的可行性和必要性。并借用农业科学叙词表转换为农业本体的实例来说明OWL语言的实用性及本体理论在信息资源组织过程中的影响与作用。  相似文献   

6.
在叙词表、本体等知识组织体系构建过程中,需要获取通用概念。笔者试验了三种获取通用概念的方法,一是继承传统知识组织体系通用概念,二是通过关键词在文献中词频分布情况确定通用概念,三是基于关键词总词频与标准差二维信息获得通用概念。研究结果表明:以上三种方法各有特点及使用范围,在概念获取时可以根据课题具备条件单独使用或组合使用。   相似文献   

7.
国家叙词库是我国叙词表资源集成与服务系统,体系结构包括三层:数据获取与转换层、存储与语义集成层、服务与应用层。数据获取与转换层实现叙词表数据的采集、规范描述和格式转换;语义集成采用中心词表集成模式,顶层为分类表和本体,中间为概念层,底层为基础词库;服务方面,采用渐进服务思路,提供不同颗粒度和不同语义层次的数据服务。叙词表宏观结构方面,将叙词表及其各组成部分作为独立概念体系,通过描述概念体系间的关联,表达叙词表宏观结构;微观结构方面,将概念和词汇分别作为描述对象,词汇作为概念标签,在概念层面描述语义属性,在词汇层面描述非语义属性。基于DC元数据框架设计叙词表元数据方案,基于SKOS+XL设计概念和词汇描述的元数据方案。图3。表3。参考文献19。  相似文献   

8.
中文叙词表本体——叙词表与本体的融合   总被引:3,自引:0,他引:3  
从网络信息社会对知识组织系统的需求、来自信息科学界和其他相关各界的应对发展现状等方面,详细阐述实现中文叙词表的形式化表示和网络应用的重要性和迫切性.对叙词表和本体的概念进行深入的比较研究,论证将他们合二为一的可行性.阐述直接采用OWL(而不用SKOS)表示中文叙词表本体(OntdThesaurus)的原因,并列出具体的类定义和属性定义.中文叙词表本体共建共享系统OTCSS的多项功能和若干原型系统的实现,证明这些定义的科学性、可行性和通用性.  相似文献   

9.
概念间关系是本体的重要组成部分,概念间关系的细化可以消除概念的歧义性。基于叙词表构建本体时,需要对叙词表中的语义关系进行细化调整。在研究中文叙词词间关系的基础上,对叙词词间关系细化提出了一套完整的调整方案,并对此细化方案进行了具体的描述和举例说明。  相似文献   

10.
UMLS多词表整合机制研究   总被引:1,自引:0,他引:1  
文章基于对UMLS超级叙词表、语义网、专家辞典的分析,及对UMLS系统结构和数据的解析,重最探讨UMLS多来源词表同义概念的归并机制、异构异质词表术语、关系、属性信息的集成方法,以及范畴体系的构建理念,最后就UMLS多词表整合策略进行讨论。  相似文献   

11.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

12.
奉国和  孔泳欣 《情报学报》2020,39(1):100-110
基于生命周期理论和词频分析方法,对学科领域发展过程进行客观合理的动态跟踪与分析。构建时间-关键词频次矩阵,结合相对词频、词频变化率,引入逻辑斯谛(Logistic)函数赋予词频按时间递减的权重,设计时间加权关键词词频分析模型,计算关键词综合值,揭示学科研究热点及变化趋势;并以CNKI和CSSCI收录的18种图情领域核心期刊2013-2017年所刊载的文献关键词作为实验对象,从高频词、中频词、低频词三个方面验证模型的有效性和准确性。模型计算结果显示,上升型高频词排名上浮,下降型高频词排名下沉,可快速识别上升型高频词;同时排名靠前的低频词具有发展潜能,为学者把握未来研究趋势提供科学判断依据。  相似文献   

13.
基于WordScore原理的信息政策价值评价模型与方法   总被引:1,自引:0,他引:1  
文章基于WordScore的基本原理和信息政策价值分类整合方法,构建了政策价值TESCO模型及词表,并以工信部和科技部的信息政策为样本,将政策文本进行语词切分,按照语词的价值属性建立“语词-政策价值”映射,从而提取文本的政策价值取向,并确定该文本或该领域的政策价值结构,比较不同领域的政策价值差异。  相似文献   

14.
中文期刊文献通用词标引分析   总被引:1,自引:0,他引:1  
通用因素是文献主题的构成因素之一,对主体因素起细分作用。通用词是指那些在专业领域没有独立检索意义的泛指词。在中文期刊文献标引的过程中,通用词的使用对其标引结果产生着重要的影响。文章讨论了通用词标引的一般规则,并以《中国期刊网》中的文献为例,进行抽样统计和实例分析,归纳了通用词标引的错误现象及其原因,并对期刊文献的通用词标引提出了几点改进意见。  相似文献   

15.
突发监测算法用于共词聚类分析的尝试   总被引:3,自引:0,他引:3  
Kleinberg算法能在不受外界因素影响的情况下及时发现未达到词频阀值要求但具有情报意义的词,用其计算突发词,并按突发权重排序,同时选择具有一定词频的突发词进行共词聚类分析,总结出当前医学信息学研究的热点领域。将分析结果与单一的高频词分析结果相比较,提出将突发词检测与高频词分析相结合以揭示信息科学的发展。   相似文献   

16.
基于文献标题词汇共现获取词间关系研究   总被引:6,自引:1,他引:5  
通过词汇在文献里共现特征分析,可以为人工确定词间关系起到指引和减轻工作量的作用。文章具体使用水利水电领域专业词汇,通过在重庆维普核心科技期刊数据库中的共现频次和共现率的统计分析,以“水电站”与其他高频词组合检索,统计词频、共现频次以及共现率,结果认为,词频、共现频次、共现率等信息对人工确定词间关系具有指导意义,并且讨论了可能存在的问题及解决办法。  相似文献   

17.
熊文新 《图书情报工作》2012,56(17):115-121
考察在信息检索过程中用户以自然语言表述的查询语句中的词语使用情况。以一个信息需求描述颗粒度不等的查询表述语料库为素材,辅以汉语通用语料作为对照,通过词频以及词语的文本覆盖率等统计数据,按照是否需要在目标文本中直接或以其他形式出现,将查询表述语句中的词语区分为对汉语文本处理具有普遍意义的通用停用词、服务于信息检索表述用的专用停用词和与特定需求相关的信息内容词语。区分词语使用的不同性质,能为信息系统前端的自然语言查询处理增加一道剥离工序,防止将整个查询语句的分词结果全部作为检索项所造成的效率和准确率的退化。  相似文献   

18.
适用于隐含主题抽取的K最近邻关键词自动抽取   总被引:1,自引:0,他引:1  
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题.  相似文献   

19.
鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的重要关键词抽取和筛选的技术方法。该方法主要解决两个关键问题:关键词的识别和抽取、关键词重要性的衡量和筛选。以2001-2007年骨关节炎领域的文献集合为数据来源,对该技术方法进行实践尝试,并验证其实际有效性,为知识挖掘中的重要关键词抽取提供一个行之有效的途径。  相似文献   

20.
基于长度递减与串频统计的文本切分算法   总被引:5,自引:4,他引:5  
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号