期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

章成志谢雨欣宋云天《图书馆论坛》2021,(3):12-20

考察特定领域文本中蕴含的细粒度知识实体的使用情况,对知识实体的评估和选择具有重要意义。学术文本中的细粒度知识实体通常具有多个类型、多种关联关系,挖掘知识实体的同质与异质关联关系,有助于深入了解特定领域知识实体的实际使用情况。目前相关研究大多针对学术文本中单一知识实体的抽取和评估,缺乏对知识实体间关系的关注,在一定程度上限制了基于实体抽取进行知识发现的能力。文章以自然语言处理领域为例,对学术论文全文中的细粒度知识实体关联数据进行挖掘,并通过可视化方式揭示关联数据中蕴含的信息。主要是选取全国计算语言学会议2009-2018年间收录的中文论文为原始语料,人工标注论文中使用的知识实体,并针对NLP特点将其细分为“指标实体”“工具实体”“资源实体”“方法实体”4种类型;结合关联规则挖掘算法Apriori和复杂网络分析软件构建知识实体关联网络,揭示该领域常用的知识实体,以及这些知识实体的使用相关性。相似文献

2.

面向关联数据的实体链接发现方法研究

高劲松周习曼梁艳琪《中国图书馆学报》2016,42(6):85-101

随着关联数据应用的不断深入,已有众多的数据集发布在网上,但目前已发布的关联数据集之间关联很少,为数据的共享使用带来不便。本研究提出一种基于统计学习方法进行关联数据集间实体识别及链接构建的方法。首先进行数据集间的实体匹配,采用基于K中心点聚类算法实现属性的聚合及关系发现,对具有高相关度的属性进行匹配关系描述,降低实体匹配时的属性匹配计算次数;其次对已匹配的属性进行实体属性值的相似度比较计算,实现实体间相似度的比较,在SILK框架下实现实体的链接构建工作,以达到实体链接发现的目的;最后通过实验验证,这一方法能降低数据集间实体匹配计算次数,提高实体链接的正确率,具有可行性及实用性。图12。表4。参考文献19。相似文献

3.

利用D2R实现关系数据库与关联数据的语义模式映射

白海燕梁冰《现代图书情报技术》2011,(Z1):1-7

关系型数据库和关联数据的概念模型都基于现实世界的实体、属性及其关系而构建,具备建立映射和实现转换的可能性。两者语义模式映射的重点是关联关系的构建与表达。开源软件D2R的映射语言,通过核心要素ClassMap、PropertyBridge及其属性,支持关系数据库的SQL实现,支持将关系数据库不同实体之间、同一实体内部及与外部数据的关联关系构建为RDF链接。相似文献

4.

面向馆藏数据库的关联数据发布研究 总被引：2，自引：0，他引：2

游毅《国家图书馆学刊》2014,23(5)

D2R Server关联数据发布工具能够基于关系型数据库与关联数据在概念与数据层面的映射机制,利用D2R服务器、D2RQ引擎与D2RQ映射文件,构建数据库关系模型与关联数据RDF模型之间的语义映射规则。基于此,图书馆可以分别针对文献管理与馆藏书目数据库,利用D2RQ映射文件编制、主外键转换、关联映射定义、书目本体构建将馆藏元数据转换为RDF文档并实现多重客户端访问查询,从而为图书馆关联数据应用提供一种现实选择。相似文献

5.

语法规则和改进关联规则的中文文本非等级关系提取研究

余凡程虹楼雯《图书情报工作》2013,57(22):126

针对目前适用于中文文本非等级关系提取方法偏少以及关联规则筛选方法忽略了集中出现在部分文本集中的领域词汇关系的问题,通过对中文文本的统计分析,尝试定义一套中文非等级关系提取的规则,同时提出一种加入平均值变量的改进的关联规则。实践证明,基于自定义的语法规则提取方法能够有效地从中文文本中提取出主、谓、宾语,进而提取出非等级关系,改进的关联规则方法能够提取出集中出现在部分文本集中的领域词汇非等级关系。相似文献

6.

基于FCA和关联规则的情报学本体构建

刘萍胡月红《现代图书情报技术》2012,(2):34-40

提出一种新的领域本体学习方法,结合形式概念分析(FCA)与关联规则挖掘从非结构化文本中获取情报学本体。该方法从文本集中通过种子-扩展机制的方法获取领域核心概念,构建文档概念格(文档×关键词矩阵),在此基础上通过形式概念分析方法来识别概念之间的等级关系,通过关联规则挖掘概念间的相关关系。最后,采用基于"黄金标准"的方法对本体学习的结果进行评价,结果表明:通过这种方法构建的本体可以达到较高的领域知识覆盖率,而且能够识别概念之间部分隐含的关系,从而验证该方法在领域本体的构建中实用且有效。相似文献

7.

基于BIBFRAME模型的书目资源关联数据化

贾君枝崔西燕《国家图书馆学刊》2022,31(3)

BIBFRAME可以实现书目数据的关联数据化以及图书馆数据与外部资源的链接,为智慧图书馆建设提供书目的数据化支持。在BIBFRAME模型特点及词表重用方式的基础上,利用采集到的国家图书馆书目数据,着重探讨了基于BIBFRAME中文书目关联数据化的映射设计过程,并归纳相应的映射处理方式;同时利用拟定义URI,分析书目数据内外部实体资源链接方式,以完善关联数据发布过程。通过此研究路径,提出了书目数据映射过程中的相关问题,构建了书目数据实体资源关联模型,为实现中文书目数据CNMARC语义关联数据化提供借鉴。相似文献

8.

关联数据在数字人文领域中的应用剖析——以关联爵士项目为例

崔春毕强《图书情报工作》2014,58(24):99-105

关联爵士项目是一项探索关联数据在数字人文领域中应用的实验项目,主要关注如何利用关联数据提升文化遗产文献的可视性,即通过爵士历史的数字档案揭示音乐家之间的关系以及他们在爵士领域的社交网络.介绍关联爵士项目产生的背景、具体内容、开发步骤以及项目中的关键问题,认为其可以为我国关联数据与数字人文领域的结合研究带来一定的启示:采用挖掘实体关系为目标的研究路线与方法、最大化文本来源、发布中文名称规范关联数据、对现有本体进行选择和映射、利用众包方式开展文本分析工作. 相似文献

9.

面向图书馆关联数据的语义链接构建研究

游毅《图书与情报》2014,(3)

语义链接构建原则包括链接来源确定、链接对象评价与链接属性选择,而链接类型则分为概念间的词汇型链接与实体间的关系型链接。基于此,图书馆可利用SPARQL查询从目标数据集中选择满足链接要求的术语变量,或通过基于本体映射的相似度计算在概念间构建词汇型链接。另一方面,关系型链接构建可利用SPARQL查询寻找与馆藏存在语义相似性的实体并判断其语义关系,或利用字符串相似度匹配对资源文本特征属性进行精确匹配,从而实现图书馆与外部关联数据集的链接构建与资源共享。相似文献

10.

面向图书馆关联数据的自动问答技术研究

欧石燕唐振贵《中国图书馆学报》2015,41(6):44-60

早期针对语义网的自动问答主要是面向单一RDF数据集,随着网络上相互关联数据集的急速增加,迫切需要将自动问答扩展到多个RDF数据集,但同时在语义标注、答案整合方面也带来了更大的难度与挑战。本文提出了一种面向图书馆关联数据的自动问答新方法,通过将自然语言提问转换为结构化的SPARQL查询,从图书馆领域相互关联的五个RDF数据集中提取特定答案。该方法的创新点在于,将问句分为涉及一个数据集的简单句和涉及多个数据集的复杂句分别进行处理,又将简单句分为查询属性和查询实例两种类别分别制定SPARQL查询构建规则,将复杂句分解成若干个简单句进行处理,有利于SPARQL查询的构建和答案的整合。通过实验测评,100个问句的回答精确率达到91%,表明这是一种行之有效的问答方法,对于促进关联数据在图书馆中的应用具有重要意义。图5。表5。相似文献

11.

基于多层特征的字符串相似度计算模型 总被引：12，自引：6，他引：12

章成志《情报学报》2005,24(6):696-701

针对计算字符串相似度传统方法的不足之处,提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法。对常规计算方法中存在的,由相似元排序引起的相似元位置信息丢失问题进行了修正。实验结果表明该算法的有效性,并且对句子间、段落间的相似度计算有启发意义。相似文献

12.

基于混合策略的公众健康领域新词识别方法研究

侯丽李姣侯震陈松景《图书情报工作》2015,59(23):115-123

[目的/意义] 从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业术语的映射提供基础,进而优化健康类知识服务平台的知识组织与管理性能。[方法/过程] 设计规则与N-Gram相结合的健康术语新词的识别模型,采集公众查询数据,开展实验验证,通过多次实验,逐步完善过滤语料集合,结合人工判读,不断优化并验证方案的有效性。[结果/结论] 从互联网中公众提问句抽取出规则,结合统计算法进行公众使用的健康类新词抽取,该技术方法对识别公众使用的健康术语具有一定的通用性,能为建立公众术语与医学术语映射提供数据基础。实验结果表明:基于规则进行公众日志数据预处理,能为后续的实验方案提供较好的预处理文本,而采用N-Gram及各种过滤规则结合的术语识别方法,能较好地识别发现短文本中的新词。相似文献

13.

Multimodal biomedical image indexing and retrieval using descriptive text and global feature mapping

Matthew S. Simpson Dina Demner-Fushman Sameer K. Antani George R. Thoma 《Information Retrieval》2014,17(3):229-264

The images found within biomedical articles are sources of essential information useful for a variety of tasks. Due to the rapid growth of biomedical knowledge, image retrieval systems are increasingly becoming necessary tools for quickly accessing the most relevant images from the literature for a given information need. Unfortunately, article text can be a poor substitute for image content, limiting the effectiveness of existing text-based retrieval methods. Additionally, the use of visual similarity by content-based retrieval methods as the sole indicator of image relevance is problematic since the importance of an image can depend on its context rather than its appearance. For biomedical image retrieval, multimodal approaches are often desirable. We describe in this work a practical multimodal solution for indexing and retrieving the images contained in biomedical articles. Recognizing the importance of text in determining image relevance, our method combines a predominately text-based image representation with a limited amount of visual information, in the form of quantized content-based visual features, through a process called global feature mapping. The resulting multimodal image surrogates are easily indexed and searched using existing text-based retrieval systems. Our experimental results demonstrate that our multimodal strategy significantly improves upon the retrieval accuracy of existing approaches. In addition, unlike many retrieval methods that utilize content-based visual features, the response time of our approach is negligible, making it suitable for use with large collections. 相似文献

14.

美国商业管制清单与专利自动映射方法及实证研究

吕璐成韩涛陈芳王学昭赵亚娟郭世杰《情报学报》2022,41(1):50-61

为了高效分析中美在美国商业管制清单(Commerce Control List,CCL)记录的管制技术上的差距,针对CCL清单数据非结构化程度高的问题,提出了一种管制清单数据和专利数据的自动映射方法,实现了从专利视角自动揭示中美技术差距。基于文本挖掘的思想,研究制定了管制清单文本规范化流程,提出了基于TF-IDF (term frequency-inverse document frequency)和Word2Vec的管制清单数据与专利数据自动映射方法和效果评价指标。以2019年美国商业管制清单和2018年全球PCT (Patent Cooperation Treaty)专利申请数据为例进行实证研究,通过评估模型效果,最终发现当文本相似度阈值为0.87时,Word2Vec模型的自动映射结果最优,并以此开展技术差距分析。本研究提出的方法能够自动化映射管制清单数据和专利数据并开展情报分析,分析结果具有较高的可解释性,是提升情报分析时效性的有力手段,具有较高的实际应用价值。相似文献

15.

Document–document similarity approaches and science mapping: Experimental comparison of five approaches

Per Ahlgren Cristian Colliander 《Journal of Informetrics》2009,3(1):49-63

This paper treats document–document similarity approaches in the context of science mapping. Five approaches, involving nine methods, are compared experimentally. We compare text-based approaches, the citation-based bibliographic coupling approach, and approaches that combine text-based approaches and bibliographic coupling. Forty-three articles, published in the journal Information Retrieval, are used as test documents. We investigate how well the approaches agree with a ground truth subject classification of the test documents, when the complete linkage method is used, and under two types of similarities, first-order and second-order. The results show that it is possible to achieve a very good approximation of the classification by means of automatic grouping of articles. One text-only method and one combination method, under second-order similarities in both cases, give rise to cluster solutions that to a large extent agree with the classification. 相似文献

16.

基于句子关系图的网页文本主题句抽取*

何维王宇《现代图书情报技术》2009,3(3):57-61

针对网页文本结构信息少、噪声大的特点，将句子看作点，将句子间的相似性看作边，用句子关系图描述文本中句子间的关系。抽取文本主题句的任务转化为搜索图中边最多的点。利用语义词典，将句子相似度定义为句子语义相似度，解决短文本词频相似度低的问题。选用互联网公开语料进行测试，抽取的主题句达到平均80.6%的可接受性。相似文献

17.

基于精确匹配的概念映射关系规则研究

邓盼盼常春《图书情报工作》2013,57(16):25-29

从知识组织的角度介绍概念映射的重要性,分析概念映射方法的深度及研究情况。面向等同、等级和相关映射的类型特征,提出基于精确匹配可以继承的概念映射关系,并分析由于中英文词表异质异构而引起的映射关系矛盾情况,如由于代项或参项而引起的一个概念精确匹配到多个概念的问题、等级映射的深度及相关映射的选择等,并基于汉语用户的需要及编制规则提出相应的处理规则。相似文献

18.

Analysis of Statistical Question Classification for Fact-Based Questions 总被引：1，自引：0，他引：1

Donald Metzler W. Bruce Croft 《Information Retrieval》2005,8(3):481-504

Question classification systems play an important role in question answering systems and can be used in a wide range of other domains. The goal of question classification is to accurately assign labels to questions based on expected answer type. Most approaches in the past have relied on matching questions against hand-crafted rules. However, rules require laborious effort to create and often suffer from being too specific. Statistical question classification methods overcome these issues by employing machine learning techniques. We empirically show that a statistical approach is robust and achieves good performance on three diverse data sets with little or no hand tuning. Furthermore, we examine the role different syntactic and semantic features have on performance. We find that semantic features tend to increase performance more than purely syntactic features. Finally, we analyze common causes of misclassification error and provide insight into ways they may be overcome. 相似文献

19.

基于语义相似度的Web文本分类研究

王静婷《图书馆学研究》2012,(9):64-69

传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。相似文献

20.

Robustness,replicability and scalability in topic modelling

《Journal of Informetrics》2022,16(1):101224

相似文献