共查询到10条相似文献,搜索用时 46 毫秒
1.
文章通过学习扩展的机器学习和深度学习,提出针对非物质文化遗产项目语料的术语抽取及新词发现方法,形成领域术语库并探讨在数字人文领域的应用。首先使用自然语言处理方法对非遗陶瓷语料进行预处理,结合领域术语词表对语料进行标注;然后针对Random-CRFs模型,研究词表特征(DICT)、词性特征(POS)、部首特征(Radical)、拼音特征(Pinyin)对术语抽取效果的影响,再对比Random-CRFs、Random-BiLSTM、Random-BiLSTM-CRFs、BERT-BiLSTMCRFs等4个模型对术语抽取效果的影响;最后使用训练完成的模型对测试集语料进行新词识别,对抽取出的候选词进行人工判断,构建包含1,173个术语的非物质文化遗产陶瓷工艺领域术语库,将其应用于非遗项目画像、非遗陶瓷工艺知识图谱和非遗陶瓷工艺术语检索。 相似文献
2.
3.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。 相似文献
4.
5.
基于集成学习的自动标引方法研究 总被引:1,自引:0,他引:1
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果. 相似文献
6.
汉字误读错用辨析(四)若谷苟拘拘拘这4个字都是合体字,字里面都有“句”字,它们的区别在于部首偏旁。苟,小篆有两个形似字。一个是&,会意字,从羊(羊省作土)从勺从口。“勺口”意思是“慎言”,“羊”即“祥”。“苟”,说话谨慎会带来吉祥。“苟”音n(急),... 相似文献
7.
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。 相似文献
8.
[目的/意义]古诗是我国古典文学的宝贵遗产,从语义关联的视角对领域信息资源中显性知识(人物、时间、地点等)、隐喻知识(物象、情感等)以及用于解释隐喻文化背景的文化图式进行语义组织,对于新时代下我国文脉的内涵式传承与认知服务具有重要意义。[方法/过程]提出基于知识本体的隐喻知识及其文化图式组织模型。从古诗的物象与情感概念切入,剖析物象与意象隐喻知识的概念内涵与作用机制;对古诗文本进行特征解析以归纳核心的元数据,以构建融合显性与隐喻概念的古诗知识本体;获取领域显性与隐喻知识构建古诗知识图谱进而开展图谱解析。采取语义推理逻辑从图谱三元组数据中发掘古诗隐喻文化图式;将文化图式的图谱数据作为古诗表示特征进行计算,从族性和特性的角度探索古诗分类编目和个性化推荐等知识服务应用。[结果/结论]所构建的古诗知识本体能够从语言层面和诗人心理层面对隐喻知识及其文化图式进行有效知识组织,真正实现从语言、语义、情感及隐喻等层面对古诗进行知识挖掘与数据关联,以提升读者对古诗文化的感知、理解与认知能力。 相似文献
9.
校对工作中,经常会使用一些有关的工具书,如《辞海》、《新华字典》等,对于不懂汉语拼音的人来说,使用这些工具书是离不开“部首”或“部首目录”的。而遵循和按照“部首”前后顺序,循序渐进练习不断提高辨别汉字的能力,对于提高校对业务水平是有益的。可以说“校对按照部首辨字法”是属于一种比较科学的好方法。 相似文献
10.
为充分发挥知识组织在企业专利战略中的作用,在分析专利文献的基础上,根据中文专利文献句法描述的特点,利用最大串频匹配、蚁群聚类、多层KMeans聚类、改进关联规则计算、基于规则和CRFs的术语关系抽取等算法,设计出一套领域本体的半自动构建系统,包括术语抽取、分类关系抽取、非分类关系抽取、本体形式化等模块,初步实现结构化数据和非结构化文本的本体半自动构建。 相似文献