首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
自动术语识别是知识抽取和文本挖掘等信息技术中的关键步骤。研究现有自动术语识别的主要思路,明确其中的关键问题,研究已有的相关项目和系统的术语识别方法,并分析现有的一些术语资源。借此丰富基于术语识别的文本挖掘理论和方法,为进一步构建相关试验系统提供良好借鉴。  相似文献   

2.
科技术语属性抽取方法研究*   总被引:3,自引:0,他引:3  
使用共现分析的方法从术语定义抽取术语属性,然后使用对应分析的方法对科技术语和术语属性之间的关系进行分析,并使用图形作为表达方式。最后利用市场营销学科领域的科技文献进行实证研究,对市场营销的概念进行深入挖掘,发现市场营销领域学科研究重点和研究内容等有价值的信息。  相似文献   

3.
文章通过学习扩展的机器学习和深度学习,提出针对非物质文化遗产项目语料的术语抽取及新词发现方法,形成领域术语库并探讨在数字人文领域的应用。首先使用自然语言处理方法对非遗陶瓷语料进行预处理,结合领域术语词表对语料进行标注;然后针对Random-CRFs模型,研究词表特征(DICT)、词性特征(POS)、部首特征(Radical)、拼音特征(Pinyin)对术语抽取效果的影响,再对比Random-CRFs、Random-BiLSTM、Random-BiLSTM-CRFs、BERT-BiLSTMCRFs等4个模型对术语抽取效果的影响;最后使用训练完成的模型对测试集语料进行新词识别,对抽取出的候选词进行人工判断,构建包含1,173个术语的非物质文化遗产陶瓷工艺领域术语库,将其应用于非遗项目画像、非遗陶瓷工艺知识图谱和非遗陶瓷工艺术语检索。  相似文献   

4.
在跨学科知识范式下,数字人文的研究范畴随着自身学科体系的拓展而不断泛化,采取关键语义技术解析文化对象中的人文内涵与情感知识对于重拾学科“人文性”与“计算性”特质具有重要意义。本文以古诗文本为例,面向汉语诗文及其鉴赏实现大规模人文情感术语的自动化抽取与分析。首先在无标注集环境下提出一种基于“冷启动”的字序列自动标引方法来获取学习语料,随后在字向量(Char2Vec)指导下将汉字特征(部首、拼音等)和BERT语言学模型分别引入机器学习与深度学习模型,并从知识发现的角度定义新术语识别规则。研究发现,将现代鉴赏融入古诗原文显著优化了情感知识的广度与深度,领域术语能够被有效标引。训练的BERT-BiLSTM-CRFs深度学习模型的效果明显优于CRFs机器学习,最佳F1与F1_distinct可分别达到9563%和8543%;同时汉字特征的引入也有效提升了传统CRFs效果,以领域特征和基于“竖心旁”“心字底”部首约束特征为最优。相较于机器学习抽取出的长篇幅新术语,深度学习能够拓展出更多寄托情感知识的新意象词。源于诗文与鉴赏的情感术语为文学信息资源的情感分析与知识服务提供了参考(人文性),基于汉字语言特征的抽取方案为中文领域自然语言处理技术的深化提供了启迪(计算性)。图11。表6。参考文献30。  相似文献   

5.
如何运用知识组织理论对术语资源进行有效的组织、管理和利用,为用户提供准确、便捷、丰富的术语服务,是图书情报领域开展知识服务的重要研究课题之一。知识组织以术语为基本单元、将各类知识进行紧密组织、形成有机统一的知识集,产生了叙词表、分类表、本体、术语库等各类知识组织工具。知识组织与术语具有天然紧密的联系,知识组织理论、方法与技术,为术语服务提供了有益的借鉴,而术语服务的研究与开展,将会推动知识组织系统的应用和完善。  相似文献   

6.
文章针对Physical Review 于2000-2010年间刊载论文的科学文献数据进行分析,对论文的前沿术语、关键词、学术机构、被引作者、被引文献和被引期刊等实体绘制研究前沿及其知识基础的科学知识图谱,从定量和定性的角度揭示国际上理论物理研究领域的结构和动态,发现理论物理研究领域的重要文献、  相似文献   

7.
术语的抽取是领域本体构建的基础工作,决定了本体构建的质量.获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度.本文试图研究一种不依赖于背景语料的术语领域度筛选方法.本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析.实验结果表明,在小规模航空航天领域语料库上进行验证性实验后发现,在不大量增加计算时间复杂度的情况下,能够有效提高领域术语抽取的质量,获得令人较满意的结果.  相似文献   

8.
基于隐马尔科夫模型的中文术语识别研究   总被引:3,自引:1,他引:2  
基于对中文文本信息语法构成尤其是词性搭配的概率特征的分析,提出一种基于双层隐马尔科夫模型的中文泛术语识别和提取的思路和系统框架,并实现相关系统,基于训练语料对多个领域的文本信息进行术语提取测试。实验结果表明,所提出的基于隐马尔科夫模型的中文泛术语识别和提取思想具有较好的实践参考意义。  相似文献   

9.
知识管理中本体演化研究   总被引:3,自引:1,他引:3  
贺赛龙  刘柏嵩 《情报学报》2004,23(4):469-475
领域知识和术语的复杂性和多样性是影响知识管理系统成功的关键。本体将在开放式知识管理系统中起到至关重要的作用 ,它通过定义精确的共享术语 ,以提供某一特定领域可重用的知识。但是这些知识并不是静态的 ,而是随着时间的推移不断演化。领域的改变、自适应不同的任务、或概念模型的改变都要求本体的变更。本体演化的支持在本体的分布式开发和应用中非常重要。本文首先对知识管理中本体演化的原因和所带来的问题进行分析 ,然后讨论了本体演化管理的系统框架和应用实例 ,着重强调了本体标识和本体变化机制的定义 ,并对今后的研究工作进行了展望  相似文献   

10.
基于多策略融合的中文术语抽取方法   总被引:2,自引:0,他引:2  
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术.相对于单词型术语,词组型术语的识别过程要更加复杂.由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题.文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务.实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能.  相似文献   

11.
中文文本解构与知识发现研究   总被引:2,自引:0,他引:2  
中文文本是一个结构化的、综合性的信息和知识集合体,对中文文本的结构和特征进行分析,并对文本结构中所包含的各类要素进行分析,或重新排列和组织,以便发现文本中蕴含的知识和信息,是文本知识发现的重要途径之一.文章通过对中文文本的基本结构、主要特征、知识来源、知识组织等的探讨,以期达到文本知识发现的目的.  相似文献   

12.
在对可视化概念进行概述的基础上,分析目前在知识图谱领域应用的可视化分析方法与软件工具,并对可 应用于多特征项共现的可视化分析方式进行研究,包括社会网络可视化方式以及交叉图技术可视化方式,还对这两种 可用于多特征项共现可视化的具体分析方法、显示方式进行阐述和展示。最后通过对比这两种不同可视化方式的特 点,发现多特征项共现交叉图的可视化技术较好。在应用前景方面,通过应用本文中基于科技文献多特征项共现的图 谱可视化方法和软件工具,可以对研究机构、研究领域、研究学者等发表论文情况进行分析,能够观测所选论文集中 多  相似文献   

13.
吕娜 《图书情报工作》2011,55(24):44-47
在文献调研的基础上,从开放式和闭合式知识发现过程的模拟和改进研究角度梳理Swanson方法的研究框架,分析并建立应用开放式和闭合式知识发现过程的通用算法流程,包括输入、实现步骤、输出和分析控制,并就中文非相关文献知识发现进行分析。  相似文献   

14.
基于网络计算的企业市场营销知识获取研究   总被引:1,自引:0,他引:1  
夏火松 《情报学报》2003,22(6):699-703
本文探讨了基于网络计算的企业市场营销知识获取的几个问题。分析了企业网络计算的相关要素 ,并对网络计算的企业市场营销知识获取的方法和获取机理进行了研究 ,提出了网络计算的企业市场营销知识获取的总体框架 ,实现了原型系统  相似文献   

15.
基于微服务架构的第三代图书馆服务平台的研发、建设和实施,推动了图书馆资源发现系统技术的飞跃性发展。第三代图书馆服务平台具有全媒体管理、全流程管理和全网域发现等特点;微服务架构通过统一的互操作标准,实现基于总线管理的多个不同功能模块的敏捷开发和更新;基于微服务架构的资源发现系统可以更灵活地实现异构系统、图书馆知识库等多平台资源的发现和获取。本文设计构建了新一代图书馆资源发现系统的架构,系统采用数据层、支撑层、接口层、应用层和门户层的五层架构设计,实现基于Codex检索的图书馆知识库和开源知识库的资源统一发现获取。文章同时介绍了本地化实现和其他功能扩展,包括统一用户管理、界面设计,以及基于关联数据的可视化展示与分析等。基于各个独立知识库的资源发现系统的构建,能更好更灵活地整合图书馆的电子资源、馆藏资源以及开放资源,通过构建基于微服务架构的各类APP实现多样化的用户服务。  相似文献   

16.
论述“馆所合一”的中医药专业图书馆发展知识服务的必要性,阐释现阶段进行基于数据的中医药知识服务的基础和下一步发展所必需的相关建设,指出数据知识服务是比数据服务级别更高的数据利用手段,也是知识创新、知识发现的有力支撑,主要可分为定制知识服务和扩展知识服务,而知识服务平台则是同时容纳二者的开放性用户界面。目前,真正意义上基于数据的中医药知识服务尚未形成,下一阶段的重心应是人才培养和多学科团队建设。  相似文献   

17.
敦煌遗书图像蕴含丰富的文化内涵,对于研究中国古代社会历史、宗教与美术具有重要意义,但传统单一线性的图像检索方式不利于敦煌遗书图像隐性知识的挖掘,影响知识发现的深度与广度。而关联数据能够连接多源异构资源,实现多种资源的语义互联,既能促进管理标准化与规范化,又有利于提升图像内容的深入整合,同时,将关联数据应用于敦煌遗书图像在理论、实践与技术上都具备可行性。为此,本文针对敦煌遗书图像的物理特征与内容语义特征构建敦煌遗书图像层次模型,使用元数据描述后将这些元数据进行关联;同时,本文基于关联数据设计敦煌遗书图像知识关联的组织模式,其自底向上分为数据收集层、语义描述层、数据关联层与知识应用层四层,旨在改善图像检索效果并利于敦煌遗书图像的知识发现与智能查询。  相似文献   

18.
张德政  谢永红  李曼  石川 《情报工程》2017,3(1):035-042
为了更加有效地分析中医药知识之间的联系,优化知识的检索,共享中医领域知识,使中医更好的进行传承。本文提出了基于本体的中医核心知识图谱表示及其构建方法,研究了中医本体与知识图谱的映射方法,实现了于中医本体的中医核心知识图谱的构建,并进一步研究和实现多源知识获取技术及基于知识图谱的名老中医临证经验的发现,为进一步构建中医领域全面的知识图谱,挖掘整理中医临证经验与学术思想及建立基于信息检索技术的中医知识服务打下坚实基础。  相似文献   

19.
[目的/意义]大数据环境下,用户的知识需求由分散向关联转变,利用多特征耦合可以辅助知识发现服务发现资源间的多种相关关系,从而优化知识发现服务。[方法/过程]通过分析文献内部和外部属性特征定义多特征耦合的概念,从功能角度出发,剖析多特征耦合与数字图书馆知识服务之间的关系,结合现有的知识发现系统构建多特征耦合架构,基于数据层-耦合层-服务层三层提出提升知识发现服务供给侧的方法。[结果/结论]数据层保障数据的质量,数据源由单一向混合转变;耦合层提升耦合分析效果,分析单位由粗向细转变,注重细粒度单元间的语义关联;服务层重视用户的交互体验,开发多维可视化功能。  相似文献   

20.
[目的/意义]分析并提出虚拟健康社区文本数据的知识发现策略,构建虚拟健康社区文本数据知识发现模型。[方法/过程]通过总结分析虚拟健康社区文本数据特点,针对其特点带来的数据挖掘困难制定相应的知识发现策略,并在DIKW体系指导下,依据提出的知识发现策略构建虚拟健康社区文本数据知识发现模型。通过应用计算机编码、自然语言处理技术、句法分析、制定推理规则等方法实现从自由文本数据到药物不良反应智慧的数据价值升华过程。[结果/结论]通过实证研究验证提出的知识发现策略和知识发现模型的有效性和可操作性,为后续虚拟健康社区文本数据知识发现的相关理论与实证研究提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号