首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。  相似文献   

2.
[目的/意义] 针对现有弱信号全自动识别研究尚不完善的问题,提出基于LDA-BERT融合模型的弱信号全自动识别方法。[方法/过程] 基于无监督的LDA主题模型对文本数据集进行主题分类,构建主题和术语双层过滤函数从主题分类的结果中提取早期预警信号,通过紧密中心度、主题权重以及主题自相关性三大度量函数评价主题的弱性,并基于主题内术语的归一化频率和概率提取出弱信号。最后,运用BERT深度学习模型从语义层面对弱信号上下文及其类似词进行扩展。[结果/结论] 以2021年1月初疫情重爆发事件为例,使用爆发前三月的社交媒体新闻数据集对构建的系统模型进行验证。实验结果表明,该方法可有效检测出相关弱信号,并挖掘出弱信号随时间推移逐渐增强的演化特性。此外,该融合模型在实现弱信号全自动识别的同时,也表现出较单一模型更强的结果可解释能力。  相似文献   

3.
[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。  相似文献   

4.
[目的/意义]事件自动识别抽取是当前典籍主题挖掘研究中一个新的重要课题,其中事件触发词的识别是一项基础的工作,本研究旨在探索古代典籍中事件触发词自动识别和分类的通用方法。[方法/过程]首先运用LDA模型对动词进行主题聚类,归纳典籍事件触发动词的分类体系;并依据聚类结果与分类体系,初步构建触发动词的种子词集。在此基础上,通过语义相似度计算,对种子词集进行扩展,构建典籍事件触发词语义数据集。在实验阶段,以先秦时期的重要典籍《左传》为例,对分类体系构建和种子词集扩展的方法进行验证。[结果/结论]结果表明,本文所提出的典籍事件触发词识别方法可行有效,据此构建的事件触发词集具有较高可信度,未来可进一步扩大实验的样本数量及范围。  相似文献   

5.
异构信息网络融合方法研究综述   总被引:1,自引:1,他引:0  
[目的/意义] 异构信息网络融合对于异构信息网络本身及其相关应用意义重大。综述异构信息网络融合方法,并进行客观的分析和评价,以期为进一步研究提供新的思路。[方法/过程] 在对异构信息网络及其相关概念进行辨析的基础上,对异构信息网络融合方法进行调研、分析与归纳,评述该领域的研究现状,提出未来可能的研究方向。[结果/结论] 异构信息网络融合方法分为基于元路径提取、多重关系网络及超图/超网络建模等五种类型,具体方法各有优势与局限;当前异构信息网络融合研究尚处起步阶段,研究方法有待丰富;基于元路径提取的融合方法显现不足;基于异构信息网络融合的应用型研究需进一步开拓。  相似文献   

6.
俞琰  赵乃瑄 《图书情报工作》2018,62(11):120-126
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。  相似文献   

7.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

8.
[目的/意义] 基于专利数据开展技术融合研究是技术融合研究的主要方式和热点方向,面向为技术融合后续研究工作开展提供参考和启发的目标,对国内外基于专利数据的技术融合研究现状进行较为全面的综述。[方法/过程] 将已有研究按研究内容划分为技术融合测度及预测方法研究、特定领域/多领域间/全领域的技术融合态势测度及趋势预测、技术融合的测度指标研究、影响技术融合的特征因素研究、基于技术融合视角进行技术机会发现以及技术融合与创新的关系研究六类,并对各类别取得的研究成果进行评述。[结果/结论] 基于专利数据开展技术融合研究已经取得一定的成果,但是仍旧存在测度依据不合理、预测方法缺乏验证、全领域研究关注度低的问题,这些问题可通过引入语义关系优化技术融合网络、采用图神经网络技术改进技术融合预测方法、完善全领域技术融合测度和预测方法来解决。  相似文献   

9.
[目的/意义]数字化浪潮催生了类型繁多的海量文化遗产大数据,合理的分类已经成为文化遗产大数据科学管理与有效利用的关键。[研究设计/方法]根据文化遗产与大数据的基础理论提出了文化遗产大数据的概念及特征,并采用文献调研法对文化遗产数据分类现状进行探讨。[结论/发现]分类焦点应从具体类别的文化遗产信息向文化遗产大数据这一类资源整体转变;同时,现有分类体系中出现的维度单一、粒度粗糙、类目设置不严谨等问题也亟需解决。[创新/价值]采用组配分类法,以文化遗产大数据为研究对象,以文化遗产领域特征和数据特性为切入点,提出了基于文化遗产领域特征与数据特性的二维分类框架。  相似文献   

10.
[目的/意义]技术生长点是具有生长潜力且可以形成新技术的技术领域。理清其概念内涵,系统梳理当前识别研究进展并对未来进行展望,以期深化相关学者对该领域的认知与理解。[方法/过程]首先,梳理技术生长点的概念,归纳相关理论模型,辨析与其他技术概念之间的关系,并归纳总结其特征;其次,从识别与预测方法以及与其他技术研究的不同等角度总结主要研究进展;最后,进一步对研究趋势进行展望。[结果/结论 ]技术生长点作为新兴的研究领域悄然兴起,与已有研究相比,其概念和研究具有独特特征和价值,正逐渐形成独立的研究领域;未来研究中,还需深化规律和特征研究,聚焦技术融合视角,融合多源数据,优化识别与预测方法,同时注重技术生长点的实践应用以及合理善用机器学习和大语言模型技术。  相似文献   

11.
纳米出版及其应用研究进展   总被引:1,自引:0,他引:1  
[目的/意义]随着学术期刊文献的大量增长,在传统科学文献出版模式下,科研人员需要花费大量时间从文献中查找、获取和解读所需信息。为了促进科学信息的传播与交流,面向科学文献内容的细粒度语义出版成为一种新趋势。本文介绍语义出版中的一种代表性出版模式“纳米出版(nanopublication)”,并剖析纳米出版在不同学科领域中应用的可能性及应用特点。[方法/过程]首先对纳米出版模型进行了介绍,然后通过文献调研对纳米出版的应用现状进行了述评,最后以实例说明纳米出版在不同学科领域中的应用特点。[结果/结论]研究结果表明:①纳米出版目前主要应用于生物医学领域,在计算机和人文科学有少量应用,在其他领域几乎没有什么应用;②纳米出版可以扩展到其他学科领域进行应用,但是需要根据学科特征构建符合学科领域特点的纳米出版物。  相似文献   

12.
陈翀  高欣妍  黄红 《情报工程》2023,(5):97-111
[目的/意义]自动识别优质术语一直是多领域普遍关注的问题,其中一个突出困难是缺乏领域标注语料,为此本文提出一种基于BLSTM-CRF的自举式领域术语识别方法。[方法/过程]首先选取少量种子术语标注语料,训练BLSTM-CRF模型,识别候选术语;再基于术语质量特征构造筛选准则,从候选术语中挑出优质且新增的结果加入到新一轮训练的标注词汇集合,迭代标注训练,直到新增术语量小于某一阈值或迭代达到特定次数。本文还检测了模型迭代训练效率及在其他领域的推广性,将在计算机领域语料训练出的模型用于新兴的融合出版领域的技术术语识别。[局限]术语质量特征量化方法待综合多指标优化,模型改进学习机制未引入负例且迭代不易收敛等。[结果/结论]本文最终通过标注数量和标注语境丰富度实验表明了采用新增标注数据进行迭代的有效性。以50轮迭代训练后结果为例,在计算机测试语料上识别术语及其所有标注序列的F1值为0.43和0.59,新术语率为0.79,均优于基准BLSTM-CRF模型、BERT-BLSTM-CRF模型效果,证实了新方法启动成本低,领域适应性好,能够有效解决术语识别中训练语料缺乏的问题。在模型迁移效能评价中,抽样...  相似文献   

13.
张颖怡  章成志  Daqing  He 《图书情报工作》2022,66(12):125-138
[目的/意义]问题和方法是学术论文的重要组成部分。将散落在学术论文中的问题与方法进行有效组织,例如问题与方法识别及其之间的关系抽取,可挖掘学术论文中的隐性知识,促进学科的方法体系和问题体系构建。对学术论文中问题与方法识别及其关系抽取的相关研究工作的梳理,有助于把握该研究的发展趋势、发现该研究中存在的不足,并为未来的工作提供借鉴和指导。[方法/过程]在学术论文的问题和方法的挖掘方面,现有研究围绕4个研究点展开,分别是问题与方法及其关系定义、问题与方法及其关系标注数据集构建、问题与方法识别及其关系抽取的模型设计以及问题与方法及其关系的应用。本文分别对这4个研究点进行梳理,归纳总结现有学术论文中问题和方法知识挖掘的现状。[结果/结论]分析发现,在问题与方法的相关定义中,较少结合科学哲学中的问题学等理论进行定义;在问题与方法数据集构建中,存在数据集重复标注的现象,另外,开源数据集集中在自然科学领域且一般为英语语料,中文开源语料稀缺;在问题与方法识别及其关系抽取中,现有抽取模型性能较低;有关问题和方法的研究不应止步于词语识别和关系抽取,需对挖掘出的知识进行深入分析和应用。  相似文献   

14.
新兴技术识别方法研究综述   总被引:3,自引:1,他引:2  
[目的/意义] 对国内外新兴技术识别方法进行系统梳理,总结研究现状,分析存在问题,为今后新兴技术识别方法的研究提供参考。[方法/过程] 在文献调研与计量分析的基础上,归纳总结目前主流的新兴技术识别方法,结合典型案例分析各类方法的特征及其在新兴技术识别过程中的优缺点,并为未来新兴技术识别方法研究提出建议。[结果/结论] 目前的新兴技术识别方法既有定量的,也有定性的,常见的方法包括基于测度模型、文献计量以及文本挖掘的方法,且越来越倾向于多方法融合应用,不过现有研究仍然存在一些不足。未来对新兴技术识别方法的研究应该加强对新兴技术本质特征的探究,加强具体识别方法对新兴技术的解释意义,以及从数据源、识别方法两方面共同提升新兴技术识别的时效性;同时,还应该加强对新兴技术识别中多源数据有效融合与应用方法的探索。  相似文献   

15.
[目的/意义]了解国内外图书馆出版服务现状,探索图书馆出版的发展趋势,为图书馆出版服务实践提供基本策略。[方法/过程]研究过程中浏览国内外图书馆主页,阅读代表文献,通过内容分析,归纳图书馆出版的演进脉络和发展趋势。[结果/结论]图书馆出版的演化历程经历3个阶段;出版内容发展有5个层次;在与用户合作的基础上,图书馆出版向内与图书馆各项业务不断融合,向外与出版社和数字出版领域其他机构逐步合作或整合。最终提出不同类型图书馆的出版服务策略。  相似文献   

16.
[目的/意义]为缩小博物馆图像检索中的语义鸿沟现象,探究社会标签及其分类机制在博物馆资源组织中的应用价值,以期进一步推进文化遗产在博物馆中的虚拟展示并提高其资源访问率。[方法/过程]将现有的图像需求表达分类框架进行扩展,构建社会标签分类模型,搭建社会标签分类平台,研究标签分布与用户语言表达规律。[结果/结论]研究表明:用户更偏好描述图像的主题内容而非其外部特征,更习惯使用通用类型的语词来表达图像主题内容,更倾向于描述人或物的相关内容。  相似文献   

17.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

18.
[目的/意义] 构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。  相似文献   

19.
王译晗  赵艳 《图书情报工作》2020,64(12):136-143
[目的/意义] 了解国内外图书馆出版研究与实践现状,归纳热点研究主题,总结当前实践进展,提出未来发展建议。[方法/过程] 采用文献调研法与网络调查法,对近十年国内外图书馆出版研究与实践现状进行调研和分析。[结果/结论] 在对国内外研究与实践的比较分析基础之上,从丰富图书馆出版研究、完善图书馆出版机制、提高图书馆出版服务能力、融入学术出版生态系统、提供学术出版版权服务5个角度提出对未来我国图书馆出版研究与实践的建议,以期对我国图书馆出版研究与实践有所裨益。  相似文献   

20.
[目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成。从数据科学招聘的公告信息中,抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态,而且有助于改进数据科学教学的内容。[方法/过程]基于各大招聘网站职位招聘公告,结合情报学的数据获取、标注和组织方法,构建数据科学招聘语料库并从中抽取相应的实体进行分析与研究。[结果/结论]在搜集到的11 000篇经过标注的职位招聘公告语料的基础上,基于Bi-LSTM-CRF、CRF和Bi-LSTM模型,对数据科学招聘实体的抽取任务进行性能的对比,确定最终的数据科学招聘实体自动抽取模型,设计数据科学招聘实体自动抽取平台,并构建数据科学招聘实体网络。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号