共查询到16条相似文献,搜索用时 171 毫秒
1.
句子级知识抽取在情报学中的应用分析 总被引:3,自引:0,他引:3
通过比较句子级知识抽取与词语级知识抽取的差异性,分析句子级知识抽取在情报学中的意义,表现在四类典型应用系统:学术抄袭检测系统、参考文献自动标注系统、文献自动综述系统、知识库构建系统。分析了知识抽取的难点与关键技术,针对难点与关键技术提出了知识抽取的3个转向:抽取对象转向以学术文献为主;抽取技术转向以内容结构分析为主;抽取目标转向以构建知识元数据库为主。 相似文献
2.
3.
从知识抽取相关概念辨析看知识抽取的特点和发展趋势 总被引:4,自引:0,他引:4
通过知识抽取与知识获取、信息抽取、知识发现等概念之间的概念辨析确定知识抽取的研究范畴。知识抽取以学术文献为抽取对象,以总结学术文献的特征规律为特色,构建以知识元为存储单位的知识库,必将会给图书情报学的发展带来新的机遇与活力。 相似文献
4.
国内外知识抽取研究进展综述 总被引:1,自引:0,他引:1
信息泛滥与知识贫乏的问题越来越突出,用基于NLP的技术从文献中抽取知识有望解决这一矛盾.首先对知识抽取的含义进行界定,接下来论述知识抽取的意义.通过对国内外知识抽取研究现状的分析,总结知识抽取的抽取对象、抽取模式.发现国内关于知识抽取研究差距较大,从文献中抽取知识并进行实验研究的还很少,有待重视. 相似文献
5.
[研究目的]为细粒度发现相近学科间的知识关联,推动学科间知识交流,通过抽取方法知识元,探析不同学科领域研究方法的交流态势。[研究方法]以情报学和计算机科学学为例,首先,编写方法知识元抽取规则,基于规则抽取两学科领域大样本文献的方法知识元,构建学科领域方法知识元库;再利用LDA模型抽取两学科领域代表性期刊的方法知识元;以此为基础,对比分析两学科领域的高频研究方法、已交流的研究方法、存在交流潜力的研究方法。[研究结论]研究发现,两学科已交流的研究方法有:聚类分析、LDA模型、BP神经网络、支持向量机、主成分分析、协同过滤、文献计量等;具有交流潜力的研究方法有:提高准确率的分类算法(AdaBoost算法、XGBoost算法、SMOTE算法)、图卷积神经网络、自然语言处理模型GloVe模型等。该研究不仅能为情报学研究者选择计算机科学学领域的研究方法提供参考,而且也为学科交叉研究提供了一种新思路。 相似文献
6.
基于HNC理论的期刊文献知识元检索 总被引:1,自引:0,他引:1
针对期刊文献知识元提出了一种基于HNC理论的六元组表示方法,以及在文献结构分析基础上依据依存分析和HNC理论进行知识元的抽取。利用HNC符号的领域信息以及最大熵模型建立的分类器,对所抽取的知识元进行分类并存储,最后通过两阶段检索实现知识元的语义检索。 相似文献
7.
8.
自由文本信息抽取技术 总被引:13,自引:0,他引:13
信息抽取是从自由文本语料库构建数据库,实现情报自动收集的有效途径之一。近十多年来,信息抽取技术逐步走向成熟,已成为与信息检索相平行的技术之一。对信息抽取技术进行系统的归类、总结,已显得较为迫切。在对当前多种主要的信息抽取技术进行分析、比较的基础上,结合信息抽取所面临的挑战,分析了信息抽取的三个趋势。 相似文献
9.
数字图书馆作为一种以网络技术为环境基础的知识网络系统,是重要的知识来源。为了满足用户精细化信息需求,数字图书馆数字资源的知识管理单位进一步细化到知识元。以事实知识元为研究对象,在对数字图书馆的数字资源管理现状及知识元的研究现状进行综述后,提出事实知识元的定义,针对事实知识元的特点,建立起事实知识元描述模型及抽取规则,以该抽取规则为基础,对事实知识元的抽取流程进行梳理,提出事实知识元描述框架。 相似文献
10.
基于信息抽取的古籍知识检索系统研究 总被引:1,自引:0,他引:1
通过分析目前古籍数据库信息检索系统存在的不足,提出通过利用信息抽取技术(IE)实现语义智能检索,使古籍数据库具有强大的智能检索功能和知识研究功能. 相似文献
11.
12.
13.
[目的/意义]近年来,科技文献资源呈爆炸性增长,海量科技文献中依旧存在大量非结构化摘要。非结构化摘要一方面不利于学者阅读与理解;另一方面不利于对摘要内部信息进行知识的自动化抽取和相应的检索。研究科技文献非结构化摘要的知识表示模型及其自动化抽取方法,对学者快速阅读和机器自动化处理具有重要意义。[方法/过程]文章在分析科技文献非结构化摘要结构的基础上,结合知识元本体理论,构建了一个面向科技文献非结构化摘要的知识元本体模型。通过分析非结构化摘要的写作特征,将文本按句子级划分为目的、方法、结果或结论三个要素,统计每个要素句中的线索词、句型和位置,建立相关规则库,根据本体模型和规则库构建相关抽取算法。最后,下载《计算机技术与发展》中的部分文献进行实验。[结果/结论]通过增加句型集和线索词集,完善了非结构化摘要的要素,构建了非结构化摘要知识元本体模型。实验结果表明,根据本文提出的模型能有效地对非结构化摘要中的知识元进行抽取。[局限]实验的不足之处是需要人工对摘要中的句型和线索词进行归纳总结。 相似文献
14.
基于碎片化UGC的知识元抽取研究 总被引:1,自引:0,他引:1
[目的/意义]在大数据环境下,从海量的碎片化用户生成内容中抽取具有完整语义的知识单元。[方法/过程]文章提出一种基于碎片化UGC的知识元抽取方法,该方法首先借助BTM主题分割方法从UGC中抽取知识要素,而后基于融合TextRank和Glove词向量的K-means方法实现知识要素聚类,最后根据知识要素相关属性和知识要素聚类结果生成对应UGC知识元。[结果/结论]实验结果显示基于碎片化UGC的知识元抽取方法具有一定科学性和有效性。 相似文献
15.
16.
Extracting semantic relationships between entities from text documents is challenging in information extraction and important for deep information processing and management. This paper investigates the incorporation of diverse lexical, syntactic and semantic knowledge in feature-based relation extraction using support vector machines. Our study illustrates that the base phrase chunking information is very effective for relation extraction and contributes to most of the performance improvement from syntactic aspect while current commonly used features from full parsing give limited further enhancement. This suggests that most of useful information in full parse trees for relation extraction is shallow and can be captured by chunking. This indicates that a cheap and robust solution in relation extraction can be achieved without decreasing too much in performance. We also demonstrate how semantic information such as WordNet, can be used in feature-based relation extraction to further improve the performance. Evaluation on the ACE benchmark corpora shows that effective incorporation of diverse features enables our system outperform previously best-reported systems. It also shows that our feature-based system significantly outperforms tree kernel-based systems. This suggests that current tree kernels fail to effectively explore structured syntactic information in relation extraction. 相似文献