首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 109 毫秒
1.
[目的/意义] 政府网络问政平台是政府部门知晓民意的重要途径之一,为提高问政留言分类的精度以及处理留言数据质量差、数量少等问题,对比多种基于BERT改进模型与文本增强技术结合的分类效果并探究其差异原因。[方法/过程] 设计网络问政留言分类集成对比模型,文本增强方面采用EDA技术与SimBERT文本增强技术进行对比实验,文本分类模型方面则采用多种基于BERT改进的预训练语言模型(如ALBERT、RoBERTa)进行对比实验。[结果/结论] 实验结果表明,基于RoBERTa与SimBERT文本增强的文本分类模型效果最佳,在测试集上的F1值高达92.05%,相比于未进行文本增强的BERT-base模型高出2.89%。同时,SimBERT文本增强后F1值相比未增强前平均提高0.61%。实验证明了基于RoBERTa与SimBERT文本增强模型能够有效提升多类别文本分类的效果,在解决同类问题时具有较强可借鉴性。  相似文献   

2.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

3.
[目的/意义] 采用hLDA从专利语料库中抽取层次主题,以描述隐藏在专利文本中的技术结构,并基于层次主题随时间变化情况进行技术演化分析。[方法/过程] 从专利术语中获取闭频繁项集,并基于此建立关联规则网络来度量术语的重要性和术语间语义关系强弱,进而对语料库进行重构,并对不同时间片段的专利集合进行层次主题结构抽取。[结果/结论] 将本方法应用于硬盘驱动器磁头领域的专利数据分析,实证结果表明该方法是一种可行和有效的技术演化分析方法。  相似文献   

4.
[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。  相似文献   

5.
[目的/意义] 针对现有弱信号全自动识别研究尚不完善的问题,提出基于LDA-BERT融合模型的弱信号全自动识别方法。[方法/过程] 基于无监督的LDA主题模型对文本数据集进行主题分类,构建主题和术语双层过滤函数从主题分类的结果中提取早期预警信号,通过紧密中心度、主题权重以及主题自相关性三大度量函数评价主题的弱性,并基于主题内术语的归一化频率和概率提取出弱信号。最后,运用BERT深度学习模型从语义层面对弱信号上下文及其类似词进行扩展。[结果/结论] 以2021年1月初疫情重爆发事件为例,使用爆发前三月的社交媒体新闻数据集对构建的系统模型进行验证。实验结果表明,该方法可有效检测出相关弱信号,并挖掘出弱信号随时间推移逐渐增强的演化特性。此外,该融合模型在实现弱信号全自动识别的同时,也表现出较单一模型更强的结果可解释能力。  相似文献   

6.
任海英  李真 《图书情报工作》2021,65(19):117-129
[目的/意义] 基于专利文献识别产业技术领域的核心技术链,对于梳理产业核心技术架构,分析我国核心产业链的薄弱环节,确定技术攻关方向,完善技术链和产业链具有积极意义。[方法/过程] 改进经典的SAO结构,提出基于输入输出型SAO网络的核心技术链识别方法。从领域专利文本中提取输入输出型SAO结构作为技术要素,根据技术要素间的输入输出关系构建技术的领域知识网络;运用加权k-Core方法获得包含主要技术关系的核心知识子网络,并通过识别强连通分量实现核心知识子网络的分解;利用主路径分析等方法识别核心知识子网络中的外部核心技术链与内部核心技术链,并参照其涉及专利对核心技术链进行解读。[结果/结论] 将所提出方法应用于量子计算领域,识别出其中蕴含的外部和内部核心技术链,通过专家验证以及与相关学者研究的对比,验证了结果的准确性。该识别方法具有技术链关系连贯、自动化程度高以及灵活性强等优点。  相似文献   

7.
[目的/意义] 快速、准确地从突发网络舆情文本中识别事件。[方法/过程] 提出一种融合句法特征和句法相似度的网络舆情突发事件识别方法。结合句法特征提出面向事件的句法特征提取方法,利用事件语义标注和句法特征提取方法构造事件句法特征库,通过计算待测文本与句法库的句法相似度来识别网络舆情突发事件。[结果/结论] 以新型冠状病毒肺炎疫情为例,所提出网络舆情突发事件识别方法在该舆情下的最优相似度为0.93,在此相似度下从一段新的文本中识别出160个事件和30个非事件,F1值达到了0.848。通过方法测评证明网络舆情突发事件识别方法在利用句法相似度识别事件和进行相同相邻词性合并等方面创新的有效性。  相似文献   

8.
[目的/意义] 面向语义信息以层次渐进的方式识别技术演化轨迹,有助于加强对技术细节的理解并提升轨迹识别的准确性。[方法/过程] 首先,提取专利和科技论文的SAO结构,依据语义信息确定研究主题,并利用S曲线分析技术生命周期。其次,借助机器学习算法与社会网络分析指标,分不同周期,通过多层次提取,筛选技术演化轨迹。最后,以造血干细胞领域为实证对象,发现该领域中与遗传病因技术主题相关的专利和科技论文的研究重点存在显著差异,该主题尚未形成统一的演化路径,且有关免疫系统疾病与糖尿病方面的研究是未来潜在的演化趋势。[结果/结论] 所提方法通过客观的数值计算结果,逐步实现复杂技术演化路径的提取与凝练,在揭示技术主要发展历程的同时,能够客观预测技术演化趋势。  相似文献   

9.
[目的/意义]鉴于传统的作者身份识别方法不适用于当前大量涌现的网络文本。综述近年文本作者身份识别的典型方法和关键问题,并进行客观分析和评价,以期为进一步研究提供新的思路。[方法/过程]分别从应用领域、文体特征选取、作者身份建模和性能评价指标等方面对国内外作者身份识别相关研究现状进行客观分析,梳理相关领域研究发展脉络和趋势。[结果/结论]作者身份识别需要适应短文本、不规范文本、海量、高维和多语种环境,需更具表现和刻画能力的多层面特征和相应的作者身份建模方法,并借助信息检索、机器学习和自然语言处理领域的最新研究成果提高效率和准确率。  相似文献   

10.
[目的/意义] 专利技术相关性研究对专利分析、专利管理等意义重大。综述专利技术相关性研究的典型方法,并进行客观分析和评价,以期为进一步研究提供新的思路。[方法/过程] 在界定专利技术相关性概念的基础上,对专利技术相似性和专利技术互补性的研究方法进行调研、归纳与分析,评述该领域的研究现状,提出未来可能的研究方向。[结果/结论] 专利技术相似性的研究方法可分为基于专利分类、专利引证和文本挖掘3种,且各自有其优势和局限;当前专利技术互补性研究比较薄弱,研究方法有待丰富;专利技术相似性和互补性的协同研究不足;专利技术相关性的应用范围有待进一步扩展。  相似文献   

11.
[目的/意义] 现有研究进行技术融合差异度测度时仅在分类号层面开展、尚未涉及到分类号背后的技术语义内涵层面,且未对测度方法的效果进行对比,对此,本研究从揭示技术语义的角度进行技术融合差异度测度方法研究和效果比较研究,助力其方法论的完善。[方法/过程] 表示学习技术能够利用海量先验知识计算研究对象的语义差异,因此,提出基于Word2vec和Bert的技术融合差异度测度方法,可以利用专利分类号释义文本和关联专利文本来度量技术融合的差异度,共形成6种测度方法。采用这6种测度方法对2019-2020年申请的四方专利进行技术融合差异度的测度,与现有基于分类号共现频次和共现关系的差异度测度方法进行效果对比。[结果/结论] 研究发现,同时利用专利分类号释义文本和关联专利文本,采用Word2vec进行MC分类号向量化,较之其他方案能够更为有效地测算技术融合差异度,可以在未来技术融合的研究工作中推广应用。  相似文献   

12.
张晗  赵玉虹 《图书情报工作》2016,60(11):135-142
[目的/意义]针对共词分析存在的普遍问题,提出一种基于细粒度语义分析的共词网络构建与分析方法。[方法/过程]借助SemRep实现源文本主题概念及其语义关系的规范化抽取并由此构建语义共词网络,然后以节点的中心度和边的频次为指标对内容特征词进行抽取,利用UMLS语义网络规定的语义搭配模式,通过概念-语义类型-语义类型组的两级映射,对语义述谓项进行类团划分。[结果/结论]通过与常规共词分析方法比较,发现基于细粒度语义关系的共词分析能有效地揭示文本主题内容,利用UMLS语义网络资源能从语义学角度清晰准确地对语义共词网络进行类团划分。  相似文献   

13.
[目的/意义] 旨在对大量的中文专利实现快速分类,满足专利审查以及情报分析等工作的要求。[方法/过程] 结合专利文本的固有格式以及存在多个IPC分类号的实际情况,将多示例多标签学习应用于专利自动分类中,在介绍几种经典的多示例多标签模型的基本原理之后,将这些模型运用于中文专利IPC分类号的确定。[结果/结论] 实验证明,多示例多标签模型适合运用在专利的自动分类中,并且从Average precision、Hamming Loss、Ranking Loss、One Error、Coverage、Training time等指标分析可以发现,MIMLRBF模型能快速、准确地运用在中文专利IPC分类号的确定中,为大规模专利的自动分类提供借鉴。  相似文献   

14.
[目的/意义] 信息技术的快速发展与广泛应用推动了敦煌学研究的变革,使敦煌学研究及其知识资源的利用更加便利,由于还停留在现有数据库传统知识平台与检索方式上,使敦煌遗书图像知识的价值挖掘不全面。为此,笔者对敦煌遗书图像研究进行梳理,对敦煌图像知识发现的深度和广度及其知识关联进行充分的语义描述,以利于发掘敦煌遗书图像的多元价值。[方法/过程] 通过敦煌遗书图像研究现状的考量、语义描述,根据敦煌遗书图像语义特征设计其语义特征层级模型,结合智能+关联数据技术构建敦煌遗书图像知识关联的组织框架,并深入分析了敦煌遗书图像知识关联及其组织框架中的数据收集层、语义描述层、数据关联层、资源应用层。[结果/结论] 提出敦煌遗书知识关联模型的实践价值,能够打通与外部开放数据关联渠道、提高敦煌遗书图像智能化的检索质量以及提升敦煌遗书图像知识服务的深度与广度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号