首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 750 毫秒
1.
鲍玉来  耿雪来  飞龙 《现代情报》2019,39(8):132-136
[目的/意义]在非结构化语料集中抽取知识要素,是实现知识图谱的重要环节,本文探索了应用深度学习中的卷积神经网络(CNN)模型进行旅游领域知识关系抽取方法。[方法/过程]抓取专业旅游网站的相关数据建立语料库,对部分语料进行人工标注作为训练集和测试集,通过Python语言编程实现分词、向量化及CNN模型,进行关系抽取实验。[结果/结论]实验结果表明,应用卷积神经网络对非结构化的旅游文本进行关系抽取时能够取得满意的效果(Precision 0.77,Recall 0.76,F1-measure 0.76)。抽取结果通过人工校对进行优化后,可以为旅游知识图谱构建、领域本体构建等工作奠定基础。  相似文献   

2.
【目的/意义】使用人工或常用软件工具获取本体概念及概念间关系已无法满足自媒体环境下大数据的本 体构建及维护的要求,本文尝试用自动或半自动方式予以实现。【方法/过程】对电子商务领域原始语料进行分句、 分词等预处理,构建领域语料库;使用基于语言学以及统计学的方法提取电子商务领域本体概念,同时提出基于混 合策略的本体概念抽取方法;然后使用基于语言学、聚类的方法提取电商领域本体概念与概念之间存在的分类关 系,使用基于关联规则挖掘的方法抽取其本体概念与概念之间存在的非分类关系。【结果/结论】将文本挖掘与本体 构建结合起来,提出了领域本体概念及概念间关系自动抽取与本体构建方法,实验表明使用本体框架 Jena利用此方 法可以自动构建电子商务领域本体,并可将其应用到通用的语义检索系统中。  相似文献   

3.
[目的/意义]当前各学科领域文献增长迅速,迫切需要以面向“问题解决”的思路,从大量科技文献中抽取出研究问题、解决方案及其解决关系,并以此为基础开展领域知识演化研究。[方法/过程]文章提出了可应用于实践的低成本领域实体关系抽取方案:依托词嵌入类比的思想,仅从领域知识资源中提取的少量实体关系对作为基准即可实现关系分类。[结果/结论]在人工智能领域数据集上使用基于词嵌入类比方案的集成模型,抽取解决关系、问题层级关系、方法层级关系的F1值分别为82.33,81.49,74.81。最后,将集成模型应用于全量数据抽取实体关系,从宏观、中观、微观三个层面展示了面向问题解决的人工智能领域知识演化情况。  相似文献   

4.
[目的/意义]实体语义关系分类是信息抽取重要任务之一,将非结构化文本转化成结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索系统的基础工作。[方法/过程]本文详细梳理了实体语义关系分类的发展历程,从技术方法、应用领域两方面回顾和总结了近5年国内外的最新研究成果,并指出了研究的不足及未来的研究方向。[结果/结论]热门的深度学习方法抛弃了传统浅层机器学习方法繁琐的特征工程,自动学习文本特征,实验发现,在神经网络模型中融入词法、句法特征、引入注意力机制能有效提升关系分类性能。  相似文献   

5.
[目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,本研究以ChemBE化学键能语料为实验对象,设计在较少专家支持的情况下,使用迁移学习的方法在化学论文中自动抽取与化学键能相关的科学数据。本文提出了一种端到端的BERT-CRF模型,通过构建领域高频子词的方法来解决大量未登录词的问题,并在后续深度学习模型的训练中,将构建好的领域高频子词作为领域特征输入到深度学习模型中,实现了对论文中的化学键能科学数据自动、高效地抽取。[结果/结论]实验表明,端到端的BERT-CRF模型与需要专家构建规则的基线模型相比,取得了理想的实验结果,F1值达到了88.56%。本文通过构建领域高频子词来解决大量未登录词的问题,降低了对领域专家的要求,可以较为容易地、低成本地迁移到其他领域。本文的研究结果是情报分析技术在化学领域的实践,为化学键能的智能知识检索提供了重要支撑。  相似文献   

6.
[目的/意义]预测社科领域在未来有发展潜力的研究主题对于科研工作者寻找新的学科增长点和政府部门优化资源配置至关重要。文章提出一种基于语义表示和动态主题模型的社科领域新兴主题预测框架,以期丰富和完善主题预测研究的方法体系。[方法/过程]首先,使用BERT模型和UMAP算法对文本进行语义表示和向量降维,再通过动态主题模型对嵌入向量进行聚类,从而获得全局主题;其次,构建新兴主题指标计算公式,基于Neural Prophet模型和非参数检验方法预测新兴主题;最后,通过划分时间窗将全局主题细化为多个局部主题,以定位最近时间段的新兴词汇。[结果/结论]选取“人口老龄化”领域的学术论文和报纸进行实证研究,并采用资料验证法进行方法有效性分析,结果表明该方法能够快速准确地预测社科领域中的新兴主题。  相似文献   

7.
[目的/意义]情报学作为信息科学群的一个分支学科,在大数据时代呈现出更高的职责要求,iSchool这一高校信息学院联盟培养符合新时代需求的信息领域人才。[方法/过程]为探索情报学学科的教学模式和特点,文章以iSchool培养计划为研究对象,分别基于Bi-LSTM-CRF和BERT深度学习方法,构建能力和研究领域的自动抽取模型,挖掘其中情报学科教学信息。在模型的基础上,完成iSchool培养计划的知识挖掘,统计iSchool院校对学生的能力要求以及主要的研究领域,并按照iSchool等级进行系统和深入的统计分析。[结果/结论]在上述分析的基础上,发现和总结当前情报学教育的发展态势,为我国情报学教育体系设计提供切实可行的建议。  相似文献   

8.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

9.
[目的/意义]用户间的专业知识异构以及用户场景的动态性,导致现有的目录式数据查询方式难以为用户提供主动式数据服务。文章针对用户在数据使用中的差异化专业知识进行识别和重组,作为连接用户和数据资源的中间知识库,以支持进一步的场景化数据互操作研究。[方法/过程]为实现这一目的,提出一套基于主题分析和语用情境融合的多义术语识别、建模方法,借助静态概念关系和动态语用情境构建术语知识库。主要研究内容包括:基于词频和词性构建文本向量空间;在领域知识不充足的情形下,提出采用主题模型半自动识别多义术语,并基于语用情境模型,在多义术语与其适用情境之间建立语义关联路径。[结果/结论]文章提出的一套基于主题分析和语用情境建模的多义术语识别方法,通过建筑工程领域的实例研究,证明该方法能够识别并解决用户之间的专业知识异构问题。  相似文献   

10.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

11.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

12.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

13.
孟旭阳  白海燕  梁冰  王莉 《情报杂志》2021,(3):125-131,7
[目的/意义]资源数字化时代文献服务向知识服务方向转变,高质量的文献自动标引是文献知识服务能力提升的基础和关键,针对目前英文科技文献自动标引准确率不高的问题,提出了基于语义感知的概念遴选优化方法。[方法/过程]基于知识组织系统的自动主题标引,采用自然语言处理中的神经网络词向量技术,对概念和英文文献内容语义进行表示并进行语义感知与评估,实现概念标引结果在语义层面的遴选。该方法采用基于知识组织系统与自然语言处理技术相结合的方法,弥补了在语义层面上的不足,从而进一步降低不相关概念的影响,提高概念标引结果的准确率。[结果/结论]实验结果表明,该方法具有较好的语义感知性能,在概念遴选上有效降低了不相关概念,大大提高了标引结果的文献相关性,为科技文献资源知识化服务建设和相关研究提供有价值的参考和支持。  相似文献   

14.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

15.
[目的/意义]从学术共同体的评论性引用视角出发,以引文全文本为基础,结合词频统计、深度学习等方法,探析引文文本中表征突破性评价的文本特征并构建自动识别模型以实现从海量文献中识别潜在突破性文献。[方法/过程]以诺贝尔生理学或医学奖获得者的关键文献以及Science十大科学突破主题的代表文献(医学领域)作为金标准突破性文献集并获取引用语句,对引用语句进行词频统计并结合人工筛选获取表征突破性评价的常用词。对引用语句进行人工标注,利用BERT、BIOBERT模型进行训练形成自动识别模型,并选择癌症领域进行实证分析。[结果/结论]结果表明,学术共同体在评价具有重大突破价值的文献时具有明显的文本特征;相较BERT模型,生物医学语言表示模型BIOBERT对突破性评价引用语句的识别能力明显增强,F1值为0.84。基于引用语句的自动识别模型能够较为精准地识别具有重要学术价值的文献并能在一定程度上实现早期识别和早期评价。  相似文献   

16.
[目的/意义]准确把握公众微博评论中所反映的公众观点并总结舆论焦点,有助于及时获取和引导社会舆情态势,对政府公信力、快速响应能力及执行力提升具有支撑作用。[方法/过程]文章针对当前政府微博评论社会功能发挥的现实要求和其文本特征挖掘的技术需求,从基于深度学习的文本智能语义理解和挖掘出发,提出了适用的细粒度四元组标注策略,构建了政府微博评论观点抽取与焦点呈现的深度学习模型POF-BiLSTM-CRF,即通过细粒度标注策略确定、Word2vec训练词向量、BiLSTM评论特征学习进行标签及其概率输出、CRF学习上下文实现微博评论标注优化,以及观点聚类和主题词提取后最终呈现舆论焦点。[结果/结论]针对"中国警方在线"微博评论的实验表明,文章所提研究框架和模型能够有效进行舆论观点的智能化提取,为快速把握公众观点及为政府决策提供了参考。  相似文献   

17.
[目的/意义]针对技术功效图构建过程中的主要问题和薄弱环节,提出了一种基于SAO结构和词向量的专利技术功效图构建方法。[方法/过程]利用Python程序获取专利摘要中的SAO结构,从中识别技术词和功效词;结合领域词典与专利领域语料库,运用Word2Vec和WordNet计算词语间的语义相似度;利用基于网络关系的主题聚类算法实现主题的自动标引;采用基于SAO结构的共现关系构建技术功效矩阵。[结果/结论]实现了基于SAO结构和词向量的技术功效图自动构建,该构建方法提高了构建技术功效主题的合理性和专利分类标注的准确性,为技术功效图的自动化构建提供新的思路。  相似文献   

18.
Nowadays a large amount of knowledge has been born on the Internet and the way of constructing knowledge graph is not uniform. Due to the recent outbreak of numerous diseases, the community has placed more importance on the healthcare system. Diabetes is a severe disease that affect people's health. To assist the health sector in combating this deadly disease, the authors developed a deep learning strategy for diabetes named entity extraction based on a fusion of text characteristic and relationship extraction utilizing text data as the object. This study aims to develop a multi-feature entity recognition model that considers the differences in text features across different fields. Firstly, in the word embedding layer, a multi-feature word embedding algorithm is proposed, which integrates Pinyin, radical, and the meaning of the character itself, so that the word embedding vector has the characteristics of Chinese characters and diabetes text. Then in modeling, CNN and BiLSTM are used to extract the local and global features before and after the text sequence, respectively, which solved the problem that the traditional method cannot capture the dependence before and after the text sequence. Finally, CRF is used to output the predicted tag sequence. The experimental results show that the multi-feature embedding algorithm and local features extracted by CNN can effectively improve the recognition effect of the entity recognition model.  相似文献   

19.
[目的/意义]在自动摘要技术的基础上,结合专利特性,提出一种专利技术功效特征的自动抽取方法。[方法/过程]抽取对象包括核心技术内容、功能效用描述两部分;根据专利的文本结构特性设计抽取方案;对所抽取到的技术内容语句进行核心性计算和评价,对所抽取到的功能效用语句进行情感分析,凝练和筛选后得到专利技术功效特征。[结果/结论]样本对比试验显示,本文提出的方法较同类方法在ROUGE值上有所提升,能够较好地实现专利技术功效特征的自动抽取。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号