首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
郑阳  莫建文 《大众科技》2012,14(4):20-23
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。  相似文献   

2.
因特网经济学未登录词计算机辅助挖掘试验   总被引:2,自引:0,他引:2  
近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,侧重对未登录词挖掘步骤设计和处理方法的讨论。  相似文献   

3.
[目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,本研究以ChemBE化学键能语料为实验对象,设计在较少专家支持的情况下,使用迁移学习的方法在化学论文中自动抽取与化学键能相关的科学数据。本文提出了一种端到端的BERT-CRF模型,通过构建领域高频子词的方法来解决大量未登录词的问题,并在后续深度学习模型的训练中,将构建好的领域高频子词作为领域特征输入到深度学习模型中,实现了对论文中的化学键能科学数据自动、高效地抽取。[结果/结论]实验表明,端到端的BERT-CRF模型与需要专家构建规则的基线模型相比,取得了理想的实验结果,F1值达到了88.56%。本文通过构建领域高频子词来解决大量未登录词的问题,降低了对领域专家的要求,可以较为容易地、低成本地迁移到其他领域。本文的研究结果是情报分析技术在化学领域的实践,为化学键能的智能知识检索提供了重要支撑。  相似文献   

4.
揭示VR技术研究领域作者数与所著科学文献数之间的规律,表明该领域的研究状况。应用洛特卡定律常数的非线性回归方法,针对"VR技术"这一研究领域进行了样本分析。为提高n与c值的准确度,根据最小二乘法公式设计出n与c值的计算程序,并进行了K-S检验,用以更准确地表征其统计的科学领域的研究成熟度。统计分析表明,我国在VR技术领域的研究处于迅速发展阶段,但核心作者群还未稳定,该领域研究成熟度较低。  相似文献   

5.
单点登录是用户访问可信任应用服务前的一种一次性认证模式,采用单点登录方式可以减少用户登录不同系统所耗费的时间,提高用户管理的可维护性和安全性。提出了一种基于Thrift的跨平台单点登录实现方法,并从接口描述语言定义、服务端和客户端实现三个方面讨论了其具体实现。该方法充分利用了Thrift在跨语言服务调用、数据传输以及高并发性方面的优势,具有一定的应用前景。  相似文献   

6.
为了更为全面地探索和发现研究领域的热点主题和受欢迎的"主题-方法"对,文章提出了基于分类视角的LDA主题抽取方法;以数字图书馆领域为研究对象,利用LDA主题模型对文献集进行主题抽取,得到25个热点主题,将主题分为两类:主题与方法,通过深入分析各"主题-方法"对,发现热点主题所揭示的知识点;结果表明:基于分类视角的LDA主题抽取方法能够较为全面、细致地挖掘研究领域的学科主题和研究热点,所提的方法未能与其他主题挖掘方法进行对比,研究结果也未与现有文献分析出的传播学领域研究热点进行对照。  相似文献   

7.
EBSCO数据库使用分析   总被引:1,自引:0,他引:1  
胡兆芹 《现代情报》2012,32(12):161-164
EBSCO数据库是世界上最大的多学科学术期刊数据库和综合性商业资源全文数据库,已经被多个科研机构和高校图书馆订购使用,从用户登录与检索、文献类型偏好、使用成本和文献学科需求等方面对EBSCO数据库进行使用分析,探索电子资源建设的科学性与合理性,对优化图书馆资源结构,提升信息服务质量,提高使用效率具有重要的意义。  相似文献   

8.
熊泉浩 《科技广场》2009,(11):222-225
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望.  相似文献   

9.
单点登录系统对于信息的安全保密性要求很高,而信息高保密性实现的难点是如何在现代发达的网络技术条件下对非法的登录访问实现隔离。提出一种基于改进Kerberos协议的对称密钥下虚假身份认证方法,在对称密钥约束下,采用Kerberos协议解密的方法对访问用户的登录信息进行深层次识别和判断,并且与数据库中的身份特征相互比较,如果满足设定的门限要求,则认定为正常登录,否则,拒绝登录。采用某企业实际的访问数据进行测试实验,结果显示,采用基于改进Kerberos协议的对称密钥下虚假身份认证方法,虚假身份的识别概率提高了25%,具有很好的应用价值。  相似文献   

10.
魏伟  郭崇慧  唐琳  陈静锋 《情报科学》2017,35(6):138-144
【目的/意义】文献挖掘是文本挖掘领域中的重要研究方向,文献挖掘技术在信息化时代发挥着越来越重要 的作用。【方法/过程】首先在文献挖掘过程中引入知识元概念,提出了一套基于知识元的文献挖掘处理模式。其次 针对海关贸易档案文献资料,提出了一种五元组结构的知识元表示方法,并用领域知识元本体进行领域知识元间 的组合链接。同时针对期刊文献资料,提出了五类知识元共同表示一篇期刊文献的知识元表示方法。最后以“粤 海关”相关贸易档案文献资料和中文期刊文献资料为例,运用所提方法进行知识元的抽取和表示,在知识元的基础 上进行知识元间的组合链接进而实现快速精确的领域知识挖掘。【结果/结论】基于知识元的文献挖掘模型,能够增 强文献挖掘过程的可重复操作性并提高挖掘成果的可重复利用性。  相似文献   

11.
张彬  徐建民  吴树芳 《情报科学》2020,38(4):147-152
【目的/意义】通过对大数据环境下的多源用户兴趣特征有效融合,缓解个性化推荐中用户兴趣偏好数据的稀疏性和准确性问题。【方法/过程】考虑到多域的数据权威度、内容质量及体系结构的差异化较为明显,提出了基于多源用户标签的跨域兴趣融合模型,首先把多个域中的用户兴趣进行标签化处理,然后利用跨域用户识别和标签权重归一方法得到多个域的用户实体-标签矩阵,最后使用域权重影响系数对标签进行融合,构造具有复合权重的用户兴趣标签集。【结果/结论】使用5个来源数据域进行实验与分析,融合模型能够有效提高标签用户覆盖效果,在查全率不断提高的情况,融合域能够保持较高的标签用户查准率,有效提高用户兴趣特征的描绘效果。  相似文献   

12.
针对传统图像预处理中图像信息损失的问题,提出基于小波变换的图像去噪和增强的算法。实验证明基于小波变换的图像预处理方法能在去噪和增强的同时,保留了图像在时间和空间域的信息,为视频录播后续的目标检测与跟踪提供了高质量图像,提高了录播系统的跟踪准确性。  相似文献   

13.
孟旭阳  白海燕  梁冰  王莉 《情报杂志》2021,(3):125-131,7
[目的/意义]资源数字化时代文献服务向知识服务方向转变,高质量的文献自动标引是文献知识服务能力提升的基础和关键,针对目前英文科技文献自动标引准确率不高的问题,提出了基于语义感知的概念遴选优化方法。[方法/过程]基于知识组织系统的自动主题标引,采用自然语言处理中的神经网络词向量技术,对概念和英文文献内容语义进行表示并进行语义感知与评估,实现概念标引结果在语义层面的遴选。该方法采用基于知识组织系统与自然语言处理技术相结合的方法,弥补了在语义层面上的不足,从而进一步降低不相关概念的影响,提高概念标引结果的准确率。[结果/结论]实验结果表明,该方法具有较好的语义感知性能,在概念遴选上有效降低了不相关概念,大大提高了标引结果的文献相关性,为科技文献资源知识化服务建设和相关研究提供有价值的参考和支持。  相似文献   

14.
15.
[目的/意义]基于文本挖掘技术自动发现更具代表性的文献内容主题词,通过定位主题词在章节中的具体位置,并基于可视化技术进行主题标引,帮助读者直观高效发现文献主题间的潜在关系。[方法/过程]基于文本挖掘技术深入文献内容层挖掘主题词,并利用可视化工具直观呈现所获信息,在此基础上尝试构建可视化主题自动标引系统,并在格萨尔领域的多个主题中对该系统的自动标引效果进行验证。[结果/结论]研究结果显示,该标引方法在格萨尔领域实现了文献内容级的可视化主题自动标引,快速精准地定位到章节、段落和句子。标引相关信息获取过程直观可视,并且具有交互性,可提升用户体验和参与度。文章以《英雄格萨尔》为例完成系统验证,但该标引方法技术本身无领域限定,可应用于其他领域的文献。  相似文献   

16.
及时准确地对舆情信息进行主题分类,不仅能实时了解舆情动态变化,还能为预判舆情发展趋势、舆论引导建立基础。本文提出一种基于本体和加权朴素贝叶斯的网络舆情主题分类方法,通过使用本体将领域知识和领域文本特征融入分类过程中。将该方法应用到动物卫生领域舆情主题分类中,分类结果精确度为0.9402,Marco_F1达到0.9339。通过与朴素贝叶斯(NB)和THUCTC两种方法的对比实验,证明本文提出的基于本体和加权朴素贝叶斯的分类方法有效且具有可行性,但是领域本体的概念、关系的完备程度会影响分类的效率。  相似文献   

17.
孙靖超  刘为军 《情报科学》2021,39(7):147-152
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息 进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对 文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采 样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的 方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性 微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任 务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种 新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。  相似文献   

18.
[目的/意义]实现对领域概念的自动学习抽取,解决领域本体自动化构建的首要基础任务。[方法/过程]以无监督的学习方法和端到端的识别模式为理论技术基础,首先通过对主流词嵌入模型进行对比分析,设计提出了基于Word2Vec和Skip-Gram的领域文本特征词嵌入模型的自动生成方法;其次研究构建了以IOB格式的标注文本作为输入,基于自注意力机制的BLSTM-CRF领域概念自动抽取模型;最后以资源环境学科领域为例进行了实验研究与评估分析。[结果/结论]模型能够实现对领域概念的自动抽取,对领域新概念或术语的自动识别也具有一定的健壮性。[局限]模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

19.
姜华 《情报科学》2008,28(11):1685-1688,1698
基于本体基础提出相似度和相关度分析,以充分挖掘领域本体所提供的背景知识,通过语义推理将描述的隐含语义显式化,提供计算机被描述资源的可理解语义.设计了实现该方法的Web信息检索模型,实验表明该方法能提高查准率和查全率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号