首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
异名别称是指同一个或同一类事物的不同名称.在古代汉语文献中,异名别称现象十分普遍,而中国地方志以记载动植物为主的物产资料中,物产的异名别称比比皆是.用模式匹配方法识别异名别称国内外研究很少,这种方法的关键在于异名别称的表达模式抽取.本文以明、清及民国时期广东方志中的有关物产门目资料为语料,全面抽取物产异名别称的表达模式,并把这些表达模式分成有别称词和无别称词两大类,分别进行较为详细的进一步分类和研究,探求其用于模式匹配的异名别称表达规则.文章最后对辑录的表达模式进行了测试,识准率为71.6%.识全率为88.6%.  相似文献   

2.
以地方志资料汇编《方志物产》(广东分卷)为语料,利用命名实体识别技术实现物产地名的自动识别。通过对物产地名、识别规则的文献计量学研究,挖掘物产分布、物产引进和传播等知识内容,为方志类古籍的数字化整理提供新途径。  相似文献   

3.
地方志引书挖掘系统的设计与实现   总被引:2,自引:0,他引:2  
古籍文献普遍存在着引书现象,因而构建一套针对地方志引书的挖掘识别系统,对古籍的研究以及目录学史、藏书史、科技史,都具有重要意义.本文以地方志资料汇编<方志物产>为语料,设计并构建了一个古籍引书挖掘系统.重点讨论了引书的模式提取、N-gram分词识别等功能算法.  相似文献   

4.
地方志中的物产,除了记载当地的农作物、动植物等内容外,还涉及不同时期的特有产物、民生日用等多重信息。对物产志信息的挖掘,无疑对农学、中药学以及文化旅游资源等的开发都具有重要的价值。《上海府县旧志丛书》是第一次整体性对上海市当代行政辖区内1949年之前成书的府志、县志的整理,其中物产志部分编写的体例、特点值得深入研究,尤其可以通过编制物产索引、建立上海方志物产数据库等来挖掘方志物产的特有价值,为进一步研究中国方志物产索引数据库提供借鉴。  相似文献   

5.
以方志资料汇编《方志物产》(广东分卷)为语料,探讨GIS在方志开发利用中的应用前景.通过借用GIS,实现对《方志物产》中物产分布、物产传播等相关数据的管理和可视化制图并进行史料数据的空间分析,以最大限度地挖掘、利用方志史料,为方志类古籍的数字化整理提供一种新的思路.  相似文献   

6.
方志类古籍地名识别及系统构建   总被引:4,自引:0,他引:4  
以地方志资料汇编<方志物产>(广东分卷)为语料,设计并构建了古籍地名识别系统.采用规则与统计相结合的命名实体识别方法,实现了物产地名的自动识别.分析了命名实体识别技术在中国方志类古籍整理中的应用前景,为方志类古籍进行数字化整理、挖掘物产分布、物产引进和传播等相关研究提供了新的途径.  相似文献   

7.
综合采用切分标志、分词词典和N元语法3种方法对古籍文本进行分词,并采用子串比较过滤、相邻词过滤、高频词过滤、低频词过滤等方法对分词结果进行过滤,分别以12种农业古籍和379种<广东方志物产>为语料进行了古籍分词测试.从12种农业古籍中共识别出已有词1164个,约占总词汇量的31%;未登录词2530个,占总词汇的69%.从379种<广东方志物产>资料中共识别出已有词6314个,占总词汇的8%;未登录词75 438个,则占总词汇的92%.通过对379种<广东方志物产>分词结果的分析发现,当词频等级位于区间(2000,8000)时,词频等级与频次乘积基本为常数23 000 000.这一结果说明齐夫定律在古籍文本中同样适用.  相似文献   

8.
旧方志中的物产史料是传承中华农业文明五千年历史的重要载体,数据规模大且史料价值高,在语义网环境下对其进行知识组织,是后续基于方志物产史料深度利用以及知识发现的前提。本研究以机构特藏《方志物产》为研究对象,首先提出基于关联数据的方志物产语义知识组织框架;其次设计并构建方志物产知识本体模型,对其概念、属性及关系进行规范化描述;然后基于关联数据技术,从数据预处理、生成RDF数据、实体关联、关联数据存储与发布等步骤探讨方志物产关联数据集的构建与发布过程;最后,以《方志物产》云南卷为例,构建基于关联数据的方志物产知识库,为相关领域用户和社会公众提供各类知识服务。本研究可以激活蕴藏在方志物产史料中的多维度知识,也为其他方志汇编史料语义化知识组织提供参考,同时在一定程度上丰富了我国数字人文研究的应用场景。  相似文献   

9.
基于个性化服务用户需求信息的深层次挖掘   总被引:1,自引:0,他引:1  
本文分析了图书馆个性化服务过程中用户需求信息的体现方式,提出了数据库统计、web数据挖掘、反馈互动三种深层次挖掘用户需求信息的方法,并对其进行了比较,为建立一个综合有效的用户需求信息挖掘系统提供了参考.  相似文献   

10.
平顶山市图书馆通过建立地方文献呈缴制度,对本区域方志文献长期关注及时收藏,利用馆藏方志文献积极服务,举办各种活动扩大宣传,开发方志文献信息和建立方志文献互换制度等方式,做好方志文献工作,使其更好地发挥功用。  相似文献   

11.
[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。  相似文献   

12.
藏族人名汉译名识别研究   总被引:2,自引:0,他引:2  
藏族人名汉译名识别属于人名识别的范畴,但现有的人名识别方法并不能完全切合藏族人名命名特点:藏族人名具有浓厚的宗教文化内涵,字(串)特征和内部构成复杂;其次,藏族人名中含有大量高频单字,使得藏族人名和普通词语之间歧义冲突变得十分突出,同时也使得藏族人名和上下文之间的边界变得非常模糊.本文在大规模藏族人名实例和语料库调查基础上,统计分析了藏族人名的用字(串)特征,并构建了藏族人名属性特征库;通过藏族人名的命名规则及属性特征将藏族人名形式化表示,实现了藏族人名汉译名自动识别系统.真实语料库开放测试F值达到87.12%.  相似文献   

13.
张颖怡  章成志  Daqing  He 《图书情报工作》2022,66(12):125-138
[目的/意义]问题和方法是学术论文的重要组成部分。将散落在学术论文中的问题与方法进行有效组织,例如问题与方法识别及其之间的关系抽取,可挖掘学术论文中的隐性知识,促进学科的方法体系和问题体系构建。对学术论文中问题与方法识别及其关系抽取的相关研究工作的梳理,有助于把握该研究的发展趋势、发现该研究中存在的不足,并为未来的工作提供借鉴和指导。[方法/过程]在学术论文的问题和方法的挖掘方面,现有研究围绕4个研究点展开,分别是问题与方法及其关系定义、问题与方法及其关系标注数据集构建、问题与方法识别及其关系抽取的模型设计以及问题与方法及其关系的应用。本文分别对这4个研究点进行梳理,归纳总结现有学术论文中问题和方法知识挖掘的现状。[结果/结论]分析发现,在问题与方法的相关定义中,较少结合科学哲学中的问题学等理论进行定义;在问题与方法数据集构建中,存在数据集重复标注的现象,另外,开源数据集集中在自然科学领域且一般为英语语料,中文开源语料稀缺;在问题与方法识别及其关系抽取中,现有抽取模型性能较低;有关问题和方法的研究不应止步于词语识别和关系抽取,需对挖掘出的知识进行深入分析和应用。  相似文献   

14.
自动术语识别是知识抽取和文本挖掘等信息技术中的关键步骤。研究现有自动术语识别的主要思路,明确其中的关键问题,研究已有的相关项目和系统的术语识别方法,并分析现有的一些术语资源。借此丰富基于术语识别的文本挖掘理论和方法,为进一步构建相关试验系统提供良好借鉴。  相似文献   

15.
近年上海图书馆通过数字人文搭建多个知识服务平台,通过关联数据,以知识图谱、GIS等展示方式提供服务。基于关联数据的专业服务对基础数据提出新要求,如数据本体化须具体到人名、地名、时间等实体;数据保留关联性,以关联数据形式存储。在新的数据要求与数据量日益增加的背景下,传统通过人力来加工数据的方法,或提取简单的实体,无法满足需求。为此,研发命名实体识别工具,以上图关联数据为词典,结合HANLP技术,实现文本的实体挖掘。工具投入使用后,可对数据批量进行实体识别,改进了数据处理流程,缩短了数据加工周期。  相似文献   

16.
提出一种基于科技文献的学科团队成员挖掘与识别方法,应用社会网络技术,借助领域专家知识导航平台,构建团队成员挖掘、团队成员识别及其科技文献产出为一体的识别方法,同时以国内某研究单位人机交互学科团队成员的构建为例,验证此方法的可行性和有效性,拓展科研机构评估及分析方法.  相似文献   

17.
基于情感倾向识别的汽车评论挖掘系统构建   总被引:2,自引:0,他引:2  
文本情感识别是一个具有广泛应用前景的研究领域,它在信息检索、文本过滤、产品在线跟踪评价、民情民意调查分析、智能教学系统中都有着广泛应用。而汽车情感识别正在成为人们日益关注的研究热点。本文利用文本分类技术,采用分步骤分模型的设计方法,构建出汽车情感倾向识别系统,通过对汽车评论进行挖掘和分析,识别其情感倾向和演化规律,并以可视化的界面将结果展现给用户,从而向汽车生产商提供反馈信息,同时可以为汽车消费者提供购车指导。另外本文还就汽车语料库的建立,分类模型的构建以及本系统构建过程中的一些关键问题进行了分析和探讨。  相似文献   

18.
设计一个可以自动识别古代汉语文献中姓名的模型系统,对纪传体古代汉语文献中的姓名识别作了实验和探索。以晋陈寿的《三国志·蜀书》十五卷为实验文本,对系统的识别效果进行测试,识别结果为召回率75.4%,准确率91.9%。实验证明,基于规则的方法对于识别纪传体古代汉语文献中的姓名是可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号