共查询到17条相似文献,搜索用时 203 毫秒
1.
总结缩略语的3个特点,即全称多样性、来源多样性、形式多样性,并对《英文超级科技词表》中同义术语归并时缩略语的处理方法进行研究,归纳出直接同全称对应归并处理、添加全称限制、添加范畴限制、基于词频大小选择性归并等4种处理方法;讨论叙词表中缩略语作为优选词和非优选词的原则、缩略语对检全率和检准率的影响以及缩略语范畴号重复性等问题。 相似文献
2.
基于词频信息确定叙词表概念属性 总被引:2,自引:1,他引:1
认为为了提高叙词表的实用性,在叙词表编制和应用中,需要充分发挥词频信息的重要参考价值。通过总结词频信息的利用方法,包括通过词频和专业偏向度确定专业核心概念、通过词频信息确定优选词属性以及通过词频信息为概念确定范畴号。探讨对词频高低的词汇属性、优选词的重要程度、词频生命周期变化和词频使用的局限性等问题。 相似文献
3.
4.
5.
主题词表即叙词表,是以特定的结构集合展示经过规范化处理的优选词和非优选词及其词间语义关系,作为标引和检索的术语控制工具。主题词表自诞生以来得到了很好的应用。例如,EI叙词表支撑EngineeringVillage文献平台的检索、浏览等功能;联合国粮食及农业组织编制的AGROVOC叙词表包含21种语言,在农业方面得到广泛应用;美国NASA叙词表在美国航空航天领域得到较好应用。随着互联网技术高速发展,大数据时代对主题词表提出了新的应用需求,不仅在图书情报机构中应用,更需要在跨界的相关机构中应用。例如,当前发达国家将主题词表应用于电子政务环境下政府信息的描述和提取中,利用主题词表建立知识库的自动分类系统,实现知识本体意义上概念关系的智能推理和语义聚类:应用于电子商务环境和大型企业的知识管理领域中,利用主题词表对海量信息的知识点进行自动标注,实现不同颗粒度的智能查询、领域监测、知识挖掘、领域知识聚类等应用;在医学、教育领域主题词表也应用于词语切分、信息抽取、聚类、词频统计、情感分析等文本信息处理基础工作,利用主题词表进行英汉对照索引,实现英汉跨语言检索和辅助机器翻译功能。这些应用无疑都存在一个需要精确定位信息的较大的社会需要。 相似文献
6.
叙词表中词间关系分为等同关系(EquivaLence Relationship)、等级关系(Hierarchical Relationship)和相关关系(Associative Relationship),词间关系的控制是叙词表编制的关键技术,文章主要针对叙词表词间的等级关系和相关关系,比较国际标准ISO2788、中国标准GB13190—91以及关国标准NISO Z39.19—2005对其的规定,分析异同,总结联系,从三个标准的实用性、检索效率等方面予以分析,并为中国叙词表编制标准提出改进建议。 相似文献
7.
[目的/意义]为增强叙词表实用性,需要不断地将领域中出现的新术语更新到叙词表中,更新维护过程中,从时间及词频等角度对新术语分布特征进行探索研究,可以为新术语发现方法提供参考。[方法/过程]基于新术语相关特征,结合对应文档频率在时间点和时间段上的发展分布,通过相关统计分析,研究术语在不同成长时期的分布特征,尤其界定术语在开始期与成长期的分布差异。[结果/结论]实证分析表明新术语一般处于术语发展的成长期,当候选新术语保持正向增长趋势超过一定年限,可以认为该术语同时具有新颖性、时间持续性及术语性特征。基于该分布特征进行领域新术语的识别,结合词表编制专家的判断,该方法在新术语收录判断中具有较高的准确率,且能有效识别实际应用中占比较多的低频词。 相似文献
8.
中文叙词表的语义化转换 总被引:1,自引:0,他引:1
[目的/意义]随着语义网与关联数据的兴起与发展,采用SKOS语言对叙词表进行语义化描述成为主流,这为叙词表在网络上的发布、共享以及在网络环境下的应用提供新的契机。[方法/过程]以《汉语主题词表》为例,对中文叙词表的语义化表示、验证和关联数据发布进行探索。首先,制定基于SKOS、SKOS-XL和SKOS扩展的叙词表语义化表示方案, 实现对叙词表的无损语义描述, 开发基于N-Triples格式的词表语义化转换程序, 使大规模词表的语义化转换更加简单高效;其次,采用新兴的SPIN框架对语义化词表的完整性进行验证, 为SKOS词表的正确性与合法性提供保证;最后,采用“Jena TDB+Fuseki+Pubby”的组合将SKOS/RDF词表数据在网络上发布为关联数据,并开发词表关联数据检索界面。[结果/结论]实验结果表明,采用本文的方法能够实现整个《汉语主题词表》的高效语义化转换、验证与发布,促进中文叙词表在网络上的共享与应用。 相似文献
9.
10.
通过对ISO2788-1986、GB13190-1991以及ANSI/NISO Z39.19-2005三部词表编制标准中宏观结构部分内容的比较分析研究,可知叙词表的宏观结构显示方式在不断完善.概念图、本体显示、详情显示等一些新的词表可视化显示开始投入使用,而以叙词表为依托发展起来的OverView、Kenardus项目也在积极研发之中.叙词表已不仅仅是标引查词的工具,它已逐渐成为网络信息资源的一部分,并运用到构建知识组织系统中. 相似文献
11.
[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。 相似文献
12.
自动术语识别存在的问题及发展趋势综述 总被引:2,自引:0,他引:2
自动术语识别对于以内容分析为主的情报研究具有重要作用。在目前研究的基础上,重点分析自动术语识别存在的问题,包括词性过滤难以兼顾召回率和准确率、单词术语和低频术语的识别未引起足够重视、术语识别领域相关性有待加强等。最后阐述自动术语识别的多特征融合、机器学习方法、高质量和高隶属度的领域术语识别、新术语识别、语义识别等发展趋势。 相似文献
13.
网络信息时代叙词表的编制与应用 总被引:3,自引:1,他引:2
统计我国叙词表的编制情况,分析在网络时代叙词表的发展趋势以及编制和应用特点。认为在叙词表编制方面,将会实现利用海量的数字信息资源,通过计算机抽取相关的专业术语和词间关系,在领域专家人工辅助干预下,建立适合现代网络信息资源特点和大众化的领域用户使用的叙词表。叙词表主要用于计算机系统后台的标引和检索,用户主要为使用网络检索专业信息的普通用户,数字界面和可视化将是叙词表的主要表现形式。 相似文献
14.
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取.本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重.为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度.采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试.实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.56%和0.21%. 相似文献
15.
杨贺杨奕虹乔晓东李宁朱礼军 《现代图书情报技术》2010,26(6):17-24
讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引,运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析,重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。 相似文献
16.
17.
自动术语识别——对科技文献进行文本挖掘的重要技术方法* 总被引:3,自引:0,他引:3
自动术语识别是知识抽取和文本挖掘等信息技术中的关键步骤。研究现有自动术语识别的主要思路,明确其中的关键问题,研究已有的相关项目和系统的术语识别方法,并分析现有的一些术语资源。借此丰富基于术语识别的文本挖掘理论和方法,为进一步构建相关试验系统提供良好借鉴。 相似文献