共查询到20条相似文献,搜索用时 36 毫秒
1.
[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。 相似文献
2.
方志类古籍地名识别及分析研究——以《方志物产》(广东分卷)为例 总被引:1,自引:0,他引:1
以地方志资料汇编《方志物产》(广东分卷)为语料,利用命名实体识别技术实现物产地名的自动识别。通过对物产地名、识别规则的文献计量学研究,挖掘物产分布、物产引进和传播等知识内容,为方志类古籍的数字化整理提供新途径。 相似文献
3.
4.
近年上海图书馆通过数字人文搭建多个知识服务平台,通过关联数据,以知识图谱、GIS等展示方式提供服务。基于关联数据的专业服务对基础数据提出新要求,如数据本体化须具体到人名、地名、时间等实体;数据保留关联性,以关联数据形式存储。在新的数据要求与数据量日益增加的背景下,传统通过人力来加工数据的方法,或提取简单的实体,无法满足需求。为此,研发命名实体识别工具,以上图关联数据为词典,结合HANLP技术,实现文本的实体挖掘。工具投入使用后,可对数据批量进行实体识别,改进了数据处理流程,缩短了数据加工周期。 相似文献
5.
7.
8.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。 相似文献
9.
[目的/意义] 在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法/过程] 基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果/结论] 基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。 相似文献
10.
我与索引的缘分,源于20多年前。1983年,上海古籍出版社两位编审到大学组稿,我与先生陈冠明正在编纂《李商隐诗集索引》,当时协议,由上海古籍出版社出版。《李商隐诗集索引》分《诗句索引》、《人名索引》、《地名索引》、《书名索引》,为了提高索引的学术性,我们在人名、地名、书名的考订方面下了很大的功夫。由于出版行业不景气,1987年征订时,达不到出版社起印的册数,因此未能出版,出版社退还的书稿至今私藏书箧。 相似文献
11.
译著《心理治疗与咨询的理论及案例》(胡佩诚等译,2000),译之于TheoriesofPsychothernp,andCoun—seling:ConceptsandCases(Sharf1996)。这本译著有15个类型的错误:该书不仅出现许多心理咨询和心理治疗的理论和方法的误译,而且充斥着时间误译、地点误译(地名译成人名、这个城市译成那个城市)、人物误译(人名译成地名、男的译成女的、女的译成男的、多人译成一人、一人译成多人、求助者译成咨询师、病人译成父母)、事件误译、标点乱点、书名和杂志名误译等大量低级错误。 相似文献
12.
对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础。学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别。本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种。研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善。 相似文献
13.
[目的/意义]挖掘和组织先秦典籍中的植物知识,构建先秦典籍植物知识图谱,对认识我国古代人民社会和生活状态等具有重要意义。[方法/过程]对先秦典籍中植物词进行详尽标注与计量分析;基于条件随机场(CRF)和多种深度学习模型构建古汉语植物命名实体识别模型,比较分析各模型性能以确定最优模型;设计面向知识图谱的古汉语植物知识组织模式。[结果/结论]基于古汉语预训练语言模型SikuRoBERTa构建的古汉语植物命名实体识别模型性能最优,调和平均值达85.44%,为基于实体的植物知识挖掘提供了有效方法;所构建的先秦典籍植物知识图谱可实现对先秦典籍中植物实体及其关联知识的聚合与可视化呈现。 相似文献
14.
15.
基于CRFs的角色标注人名识别模型在网络舆情分析中的应用 总被引:4,自引:0,他引:4
本文在理论分析CRFs优于HMM和MEM等序列标注模型的基础上,提出一种基于CRFs的字角色标注人名识别模型.重点阐述了该模型的构建过程,包括角色定义、特征模板建立、特征函数生成及其参数训练、角色标注和基于模式的人名抽取等步骤,并通过实验验证模型的识别效果,探讨包括特征组合、字长窗口等在内的各种影响因素,探索模型的最佳识别条件,同时对CRFs和HMM在人名识别实验中进行了比较分析,认为CRFs在付出更大的实验复杂度的代价下,其人名识别效果明显优于HMM.论文最后通过实例探讨了CRFs-RL-PnR模型在网络舆情分析,包括新闻人物自动抽取、焦点人物时序分析等中的实践应用. 相似文献
16.
17.
18.
2010年11月23日,新闻出版总署发布了《关于进一步规范出版物文字使用的通知》,对规范使用外国语言文字的使用提出了要求。《通知》中规定:“在汉语出版物中,禁止出现随意夹带使用英文单词或字母缩写等外国语言文字……外国人名、地名等专有名词和科学技术术语要按有关规定翻译成国家通用语言文字。” 相似文献
19.
2010年11月23日,新闻出版总署发布了《关于进一步规范出版物文字使用的通知》,对规范使用外国语言文字的使用提出了要求。《通知》中规定:“在汉语出版物中,禁止出现随意夹带使用英文单词或字母缩写等外国语言文字……外国人名、地名等专有名词和科学技术术语要按有关规定翻译成国家通用语言文字。” 相似文献
20.
去年底,国务院发出第192号文件,正式规定我国人名、地名对外改用汉语拼音方案作为罗马字母拼写法的标准。嗣后,外交部、新华社相继宣布从今年一月一日起实施。外文出版局领导的几个对外刊物,也从同时起逐步采用汉语拼音方案在英、法、德、西班牙、世界语等外国文字中拼写中国人地名和中国事物专名,例如《北京周报》英文版的刊名原是“PEKING RE— 相似文献