首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
[目的/意义] 在进行大规模知识库构建时,基于手工方式的构建模式效率较低并且可行性较差,因此,从网络百科中自动地获取海量知识已经被越来越多的学者所关注。目前的研究主要关注于从英文网络百科数据源进行海量知识的抽取,而面向中文百科数据源进行的知识抽取研究工作尚处于起步阶段。[方法/过程] 为解决中文大规模知识库的构建问题,提出一种新的基于中文网络百科架构的大规模知识库的自动化构建方法:在第一阶段,对知识三元组中的主语和宾语之间的语义关系进行自扩展学习;在第二阶段,基于条件随机场和支持向量机协同分类器,对标注出的属性和属性值实体之间的语义关系进行预测。[结果/结论] 实验评测结果表明,该方法较前人工作在典型中文百科分类页面中的实体识别查准率和查全率分别最高有约10%和6%的提升。  相似文献   

2.
随着“数据的网络”的兴起,万维网的内容已不再是纯粹的文本,而是表达和模拟多种事物及事件之间相互关系的实体集合,其中实体名称、属性及取值词表的规范十分重要。国外已形成覆盖广泛的“关联开放数据(LOD)”服务。中文概念术语的缺乏已严重阻碍中文知识图谱和中文领域本体的标准化和推广应用。本文提出的SinoPedia平台采用RDF三元组对目前公共领域的百科概念术语赋予唯一的URI进行资源的持久化,并通过SOOOPA模块提供检索服务。同时,自建的资源词条已与DBPedia、WikiData、上海图书馆人名规范档等多个开放资源做了实体关联。除检索服务外,SinoPedia还提供了关联数据发布服务,可以充当关联数据发布中心(Hub)。通过扩展LODVIEW系统为不同关联数据站点(SPARQL Endpoint)提供统一的关联数据发布和内容协商服务。此外,SinoPedia集成了LODLIVE系统,能够实现不同数据集之间关联数据的发现与融合。目前SinoPedia包括了554万条三元组数据,并提供API接口和SPARQL Endpoint两种数据调用方式,下一步将申请接入LOD云图。SinoPedia将来可以作为数字人文领域的数据链接中心,推动数字人文研究的快速发展。图7。表3。参考文献20。  相似文献   

3.
王颖  张智雄  孙辉  雷枫 《图书情报工作》2015,59(16):119-128
[目的/意义]构建国史知识检索平台,提高用户获取国史知识的效率,促进国史宣传和教育。[方法/过程]提出基于本体的国史知识检索平台构建思路与总体框架,在构建国史本体知识库的基础上,采用Neo4j数据库作为RDF数据仓储,创建基于Solr的实例索引、三元组索引和词条索引,针对多种检索需求设计实现检索引擎的执行流程、检索式构造方法以及查询处理算法,并为国史知识展示设计可视化实现方式。[结果/结论]构建国史知识检索平台,提供实体检索、查询问答、关联检索、时序检索及语义资源浏览等检索与浏览服务。该平台框架及关键技术实现方案可为面向领域知识的深度检索服务提供重要参考。  相似文献   

4.
王彦祥 《中国索引》2009,7(2):53-57
论文首先回顾了中国索引软件开发的前期探索过程,进而讨论了中国索引软件的研制瓶颈和取得的实质性突破。通过分析典型的中文“索引之星”软件,从十方面总结归纳出索引软件的功能与特点,并针对“索引之星”编制中文索引的具体步骤、操作方法、技术特色等进行多角度剖析。论文最后指出,中国索引软件的适应性较强,可应用于中文索引的直接编制、目录快速编纂、排版文档浏览、字词和页码排序、索引词表管理等多个方面,代表了中国索引技术的发展方向。  相似文献   

5.
中文知识链接门户的构筑   总被引:7,自引:0,他引:7  
曾建勋 《情报学报》2006,25(1):63-69
文章在分析我国科学引文索引建设与利用情况的基础上,提出了利用学术文献引证关系和WWW链接机制构造中文知识链接门户的思想,介绍了中文知识链接门户的开发过程和基本功能,论述了其作为中文信息资源整合平台和信息分析工具的重要特征,并阐明和规划了其发展重点和方向。  相似文献   

6.
我国第一部语词索引《老解老》研究   总被引:4,自引:0,他引:4       下载免费PDF全文
《老解老》是中国人最早编纂的汉文古籍语词索引,运用了新兴的汉字逐字索引技术并加以创新,对古籍研究方法和索引技术产生了较大影响,在中国索引学史上占有一席之地。它已经具有完整的现代索引结构。其创新主要表现在:应用词语中词索引技术,引进索引文句结束标识符号,索引排序和词频统计。表3。图2。参考文献12。  相似文献   

7.
[目的/意义]吐蕃时期的金石铭刻是了解吐蕃社会政治制度、宗教信仰、对外交往、社会关系、语言状况等的重要依据。本研究致力于构建吐蕃藏文金石铭刻知识图谱,探索民族古文献数字化新途径。[方法/过程]借助数字人文和知识图谱构建技术,通过本体建模分别构建吐蕃金石铭刻概况、研究现状、刻文内容和语法范畴4种本体,抽取概念、属性、关系,并以三元组方式表示;把刻文中的每一个词作为实例,构建实例之间异体、简缩、变形等链接关系以及命名实体之间的各种关联关系,以高度结构化的形式存储知识,形成吐蕃金石铭刻知识图谱。[结果/结论]吐蕃藏文金石铭刻知识图谱是藏文古文献数字人文研究的有益探索。以藏汉双语词级对齐形式呈现实例,使更多的研究者利用该材料开展研究,更好地挖掘吐蕃藏文金石铭刻的学术价值。  相似文献   

8.
基于本体的专利摘要知识抽取*   总被引:4,自引:0,他引:4  
采用知识工程的方法,对“新能源汽车”中文专利摘要进行研究分析,提出了一个基于本体的中文专利摘要抽取模型。通过构建相应的本体、收集相关的词表、撰写相应的规则,并利用这些规则对专利摘要进行知识抽取结果,抽取结果辅助完成专利知识库的自动构建。即就如何组织非结构化信息以及如何自动构建知识库的进行尝试,验证了基于本体对专利摘要进行知识抽取的可行性。  相似文献   

9.
汉字全文数据库索引机制的定量研究   总被引:11,自引:1,他引:10  
本文从定量方面就汉字全文数据库的单汉字、词索引两种机制在空间、时间、检索效率等方面进行比较分析。通过试验结果, 可为数据库软件开发人员在改善索引效率和检索效率时提供参考依据, 为用户选择软件提供帮助。并探讨了两种机制的发展趋势。  相似文献   

10.
贾君枝  郭丹丹 《情报学报》2007,26(5):733-740
法律框架网络知识本体的构建是以现有美国加州大学伯克利分校的FrameNet本体为参照,以法律文本语料库为依据,以法律专业人员参与为核心.通过核心概念集的抽取及其概念之间关系如域关系、属种关系、总分关系的建立,以此形成法律框架网络知识本体模型.采用斯坦福大学开发的本体构建工具Protégé进行形式化描述,对相关的类、属性及公理进行定义,并运用RacerPro工具进行推理,以验证描述的一致性及分类的合理性.  相似文献   

11.
1911—1949年,我国索引界在编制索引的同时,引进西方索引理论,探讨和建设中国特色的索引理论,其研究主要关注汉字排检法、索引的功能、索引的范围、类型和索引编纂法。这一研究目前存在诸多不足,因而仍是一个极需系统和深入研究的领域。  相似文献   

12.
[目的/意义] 构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程] 本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法。以国际上文化遗产领域通用的CIDOC CRM为框架,设计先秦典籍本体模型。针对典籍文本内容的特点及句法特征,将规则抽取与条件随机场方法相结合,提出一套本体实例自动获取技术,并以《左传》为实验语料进行测试。[结果/结论] 实验表明,本文所提出的本体实例抽取技术能够较好地提高面向典籍文本的本体构建效率。基于规则的本体实例抽取实验F值在93%左右,基于条件随机场的本体实例抽取最佳特征模板的F值为82.51%。在本体实例获取中,词性信息和位置信息具有重要作用。  相似文献   

13.
论述了西方传教士在上海编纂的索引、上海教会大学培养的人才、上海最早建立的索引委员会、上海是民国时期索引检字法发生和论争中心和这一时期上海出版索引的出版社等,指出,上海是中国现代索引重要的发祥地。  相似文献   

14.
将自然语言应用到信息组织、标引、检索和分析所需的各种词表中,实现自然语言与受控语言间的互操作,是新一代知识组织系统构建模式。文章围绕“关键词识别与扩充、关键词-主题词映射关系构建、关键词-主题词映射关系更新”3个方面,介绍了中文生物医学关键词-主题词映射表的计算机辅助构建与维护机制,以及系统的功能架构。  相似文献   

15.
单汉字标引方法的改进研究   总被引:2,自引:1,他引:1  
本文根据信息论中的交互信息,给出了相邻汉字相关度的测量方法,在此基础上提出了基于字串预分割的单汉字标引检索方法,对当前具有代表性的单汉字标引方法进行了改进研究。试验证明本文提出的方法具有较好的性能  相似文献   

16.
杨涛 《图书情报工作》2006,50(4):135-138
从收录范围、收录时间、更新频率、用户界面、检索功能、结果输出及保存等方面对世界各国报纸全文库和中国重要报纸全文数据库进行比较,指出前者在检索途径和结果输出上的优势;提出改进用户界面设计、加强信息标引深度等建议;认为加强个性化服务、提供RSS聚合服务和成为学习的工具是报纸全文数据库的发展趋势。  相似文献   

17.
本文介绍了用.数据库管理系统FOXBASE编写的自动标引系统,其中主要介绍的基本思想、实现过程及其特点。文中着重介绍了词标引、主题标引、赋词标引和抽调标引的方法,和在Compaq386机上建立的试验系统。  相似文献   

18.
以某大学图书馆的所有馆藏书目为研究对象,在对图书关键词标引信息进分析的基础上,总结中文关键词的基本特点及其抽取规律,构建一个基于字序列标注的中文关键词抽取模型,提出中文关键词抽取的基础思路和实现方案,并通过实验论证模型的合理性、正确性和实用性,认为字序列标注方法优于词序列标注,基本上可以解决不分词情况下的中文关键词抽取问题。  相似文献   

19.
领域中文术语识别与抽取是领域中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。在对领域术语的内涵和特征的阐述基础上,重点对领域中文术语识别与抽取的研究现状、主要的方法以及典型的应用进行综述,最后指出其未来的发展趋势。  相似文献   

20.
中文问句与RDF三元组映射方法研究   总被引:1,自引:0,他引:1  
探索中文问句与RDF三元组的转换方法:首先对中文问句的特点进行分析,然后结合RDF(S)模型的优势,探索RDF三元组与问句语义的对应关系,进而提出直接映射和间接映射两种映射方式。该方法只需做浅层的句法分析,将获取的限定成分映射为三元组内部的语义标签,从而降低句法分析和三元组组配的难度。最后分析映射方法中存在的问题并提出未来工作的重点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号