首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 281 毫秒
1.
[目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。[方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。[结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。  相似文献   

2.
中文电子病历的分词及实体识别研究   总被引:1,自引:0,他引:1  
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。  相似文献   

3.
[目的/意义] 对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型。[方法/过程] 以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对比文件的检索问题转化为判断其是否相关的分类问题。[结果/结论] 研究结果表明,不同字段数据对分类效果的贡献不同,其中说明书字段的准确率、召回率和F1值分别为79%、48%和59%,并且多特征集成后的分类效果显著优于单一文本相似度的结果,最后对实验错分情况进行分析,指出本研究下一步的研究方向。  相似文献   

4.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。  相似文献   

5.
沈敏  杨新涯  王楷 《图书情报工作》2015,59(11):143-148
[目的/意义] 针对大数据环境下高校图书馆检索系统的信息超载问题, 提出一种机器学习方法, 为用户提供个性化的偏好检索服务。[方法/过程] 通过提取用户检索行为大数据中的用户特征, 利用监督机器学习方法, 在线学习可随用户偏好同步变化的自适应检索模型, 预测用户对文献的选择概率, 优化检索结果的排序。[结果/结论] 设计出用户偏好检索原型系统, 介绍用户偏好检索系统工作流程, 对比分析系统效果, 并对系统进行客观评价。  相似文献   

6.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

7.
[目的/意义] 构建基于关联数据的探索式检索系统,充分利用关联数据中隐藏的知识网络,向用户提供发现新知识的机会。[方法/过程] 基于DBpedia电影数据集,采用改进的向量空间模型进行关联数据的语义相似度计算,使用可视化的交互技术对检索结果进行呈现。[结果/结论] 通过基于任务的评价方法与IMDB进行对比,证明基于关联数据的探索式检索系统能够提高检索效率,提升用户体验并能引导用户发现其感兴趣的信息。  相似文献   

8.
[目的/意义]为识别并去除非理性投资者的网络评论,提升评论的专业程度与质量,促进理性投资,本文以识别股吧中的用户是否属于噪声投资者为研究任务,进行用户画像。[方法/过程]对股吧的用户发文内容进行深度用户表示学习(deep user representation learning),结合股吧用户的粉丝数量、影响力、关注量、自选股、吧龄、发帖量、评论量、访问量等行为特征,提出一种行为-内容融合模型(behaviour and content combined model,BCCM),并在标注数据集上进行实证与对比研究。[结果/结论]实验结果显示,该模型对噪声投资者识别的F1值为79.47%,优于决策树方法(69.90%)、SVM方法(75.61%)、KNN方法(73.21%)和ANN方法(74.83%)。在噪声投资者识别这一特定用户画像研究任务中,通过利用深度用户表示学习引入文本内容特征,能够显著提升用户画像的各种评价指标。  相似文献   

9.
赵华茗  钱力  余丽 《图书情报工作》2020,64(11):108-115
[目的/意义] 探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程] 以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工具对目标文本进行词性标注;②基于标注结果,围绕核心谓词和SAO结构,将目标文本分割为结构规范的语义片段;③通过依存句法分析,找出与核心谓词语义相关的主语和宾语,构成(实体,关系,实体)三元组。[结果/结论] 与Ollie、Reverb等主流算法进行的对比测试表明,该方法可以有效提升科研命名实体识别的准确性。  相似文献   

10.
[目的/意义]通过在标注资源丰富的源领域(Source Domain)中学习,并将目标领域(Target Domain)的文档投影到与源领域相同的特征空间(Feature Space)中去,从而解决目标领域因标注数据量较小而难以获得好的分类模型的问题。[方法/过程]选择亚马逊在书籍、DVD和音乐类目下的中文评论作为实验数据,以跨领域情感分析作为研究任务,提出一种跨领域深度循环神经网络(Cross Domain Deep Recurrent Neural Network,CD-DRNN)模型,实现不同领域环境下的知识迁移。CD-DRNN模型在跨领域环境下的平均分类准确度达到了81.70%,优于传统的栈式长短时记忆网络(Stacked Long Short Term Memory,Stacked-LSTM)模型(79.90%)、双向长短时记忆网络模型(Bidirectional Long Short Term Memory,Bi-LSTM)模型(80.50%)、卷积神经网络长短时记忆网络串联(Convolution Neural Network with Long Short Term Memory,CNN-LSTM)(74.70%)模型以及卷积神经网络长短时记忆网络并联(Merged Convolution Neural Network with Long Short Term Memory,Merged-CNN-LSTM)模型(80.90%)。[结果/结论]源领域和目标领域的知识迁移能够有效解决监督学习在小数据集上难以获得好的分类效果的问题,通过CD-DRNN模型能够从无标注数据中有效地筛选特征,从而大大降低目标领域数据标注相关的工作量。  相似文献   

11.
[目的/意义]为解决大数据时代中政务数据质量问题以及应对数据质量治理困境提供理论参考和解决思路。[研究设计/方法]基于适应性结构化理论构建政务数据质量影响因素模型,从结构源出发探究政务数据质量的影响因素,利用政务12345热线数据进行影响因素的验证并通过随机森林算法进行重要性评估。[结论/发现]基于分析结果提出应加强治理监管,用制度规范数据管理过程及培育大数据专业队伍,从而提升政务数据质量治理的能力和效果。[创新/价值]从结构层面探究了政务数据质量的影响因素并构建理论模型,解决当前数据治理及应用问题,提升社会治理成效。  相似文献   

12.
[目的/意义]专利相似度检测(Similarity Measurement)可从宏观上辅助制定国家创新战略规划,发现国内外的热点及应对其他国家的专利流氓,从微观上为专利发明人、专利审查员、专利权人提供辅助支撑。[方法/过程]提出基于深度学习的Doc2Vec专利相似度分析方法,基于未进行清洗的专利语料库,采用深度学习的Doc2Vec模型,随机挑选了专利,研究了专利相似度检测问题,并和传统的相似度检测模型进行对比研究。[结果/结论]实验结果表明,基于深度学习的Doc2Vec模型和TF-IDF模型对于处理不做数据清洗的专利语料的结果有相近性,该方法对分析人员的专利领域知识要求较低,不需要对专利数据进行基于专利领域知识的数据清洗,同时可为专利侵权、专利查新提供新的智能工具支撑,降低研究门槛和工作量,提升研究效率。  相似文献   

13.
��[Purpose/significance] In the era of big data, institution name data presents new features such as mass, dynamic and diversity. Normalization of institution name can improve the reliability of data in scientific research management, subject evaluation and subject service under big data environment, and improve the quality and application effect of data retrieval based on institution name.[Method/process] From the perspective of linguistics and model construction, this paper studied name normalization. This paper constructs a Framework Model for Normalization of Institutional Names Based on Co-occurrence Relations and Similarity. Firstly, it proposed a method of identifying the entity boundary of names. Secondly, it compiled a multi-level vocabulary and proposes a normalized method of names. Finally, the Chinese bibliographic data from 2008 to 2018 were selected for experiment.[Result/conclusion] Experiments verify the validity of the model, which has some enlightening significance for the normalization of the names of other types of institutions.  相似文献   

14.
杨昭  任娟 《图书情报工作》2020,64(4):95-102
[目的/意义] 大数据时代,机构名称数据呈现海量性、动态性、多样性等新特征,机构名称归一化可改善大数据环境下科研管理、学科评价、学科服务中的数据可靠性,提升基于机构名称的数据检索质量和应用效果。[方法/过程] 从语言学角度和模型构建层面研究机构名称归一化,构建基于共现关系和相似度的机构名称归一化框架模型,提出机构名称实体边界识别方法,编制机构多层级词表,提出机构名称归一化方法,最后选取2008-2018年中文文献题录数据进行实验。[结果/结论] 实验结果验证了模型的有效性,对其他类型机构名称归一化有一定的启发。  相似文献   

15.
大数据环境下图书馆文献资源建设模式的变革   总被引:1,自引:0,他引:1  
袁芳 《图书情报工作》2015,59(18):91-94
[目的/意义]将大数据理念、大数据技术引入图书馆资源评价、选择和管理体系,改进图书馆文献资源建设的馆员决定模式,建立读者决策采购的模式。[方法/过程]通过分析大数据时代的基本理念和图书馆大数据的构成体系,论述大数据再造文献资源建设的模式及必要手段,并介绍一些应用大数据增强资源采访效益的方法。[结果/结论]建议图书馆应采取树立大数据思维、培养大数据馆员等手段,创新图书馆文献资源建设的措施。  相似文献   

16.
[目的/意义]从科技论文中自动识别与抽取研究设计指纹,能够为科研人员项目设计、研究方法的有效性评估、研究过程问题诊断、研究结果鉴别与评价提供重要的方法论和研究操作支撑。[方法/过程]基于科技论文研究设计指纹的概念模型,提出基于多规则模式混合机器学习方法,设计并实现指纹识别算法,并以数据挖掘领域的期刊文献数据为例,对识别算法的可行性与有效性进行分析验证。[结果/结论]除研究数据与研究趋势外,其他研究设计指纹识别准确率的认可度都基本达到80%以上,覆盖率的认可度,除研究工具与研究数据外,基本达到80%以上。  相似文献   

17.
[目的/意义] 开放式创新背景下,平台企业所处的市场竞争越来越激烈,平台同质化严重,平台企业内部所拥有的创新资源、创新能力不足,无法有效支撑企业商业模式创新。跨界搜寻与大数据能力的协同作用能够为平台企业商业模式创新提供有力支撑。[方法/过程] 对跨界搜寻、大数据能力及商业模式创新相关文献进行梳理,基于平台企业商业模式构成要素,构建跨界搜寻与大数据能力协同作用模型。[结果/结论] 跨界搜寻有助于创新知识流动和创新资源获取,大数据能力可以完成资源整合及深度分析,二者的协同作用可以促进市场新知识发现,有利于平台企业商业模式创新。  相似文献   

18.
��[Purpose/significance] Under the background of open innovation, the market competition of platform enterprises is becoming more and more fierce, the platform homogeneity is serious, the user flow is drying up day by day, and the growth is difficult. The lack of innovation resources and capability in the platform enterprises can't effectively support the business model innovation of enterprises. In this context, boundary-spanning search and big data capability construction provide a strong support for business model innovation of platform enterprises.[Method/process] Through literature related to boundary-spanning search, big data capability and business model innovation was review.Based on the elements of business model of platform enterprises, a synergistic model of boundary-spanning search and big data capability was constructed.[Result/conclusion] Boundary-spanning search is helpful to innovative knowledge flow and obtain innovative resources. Big data capability can complete resource integration and analysis in-depth. The synergistic effect of the two can promote the discovery of new knowledge in the market and facilitate the innovation of business model of platform enterprises.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号