共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。 相似文献
3.
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。 相似文献
4.
命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体。利用了隐马尔可夫模型(HMM,Hidden Markov Model)和改进的隐马尔可夫模型进行英文命名实体的识别。 相似文献
5.
6.
[目的]随着科学技术的不断发展,网络化发展的现象越来越受到人们的重视。如何在海量的网络信息中识别人物观点成为研究者关注的焦点,网络人物观点被视为网络文本表达的主要思想,是构成网络信息的"魂"。在海量的网络信息中快速识别网络人物观点对掌握网络信息主题具有重要作用。[方法]本文在前人研究的基础上理论与应用相结合,从文本分析的视角研究网络人物的观点。利用相应的算法对文本内容进行预处理,再通过文本句子中的词汇、词性标注和词汇之间的距离关系实现观点指示动词识别和观点持有者识别,从而实现网络人物的观点识别。[结果]通过网络人物观点算法识别的实证研究发现,通过对网络人物进行指代消解和观点持有者的扩展能有效地提高观点识别的准确率。 相似文献
7.
本文介绍了一种机器翻译框架,能够完成汉-英文本的自动翻译任务。对于输入句子,分别进行分词、词性标注和句法分析处理。在翻译转换之前,集成了词义消歧的结果以提高自动译文输出质量。 相似文献
8.
微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文资源及藏文应用软件开发的主流平台。藏文分词作为信息处理的基础性工作之一,在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用,所以很有必要对Unicode藏文文本进行分词研究。 相似文献
9.
随着互联网不断发展,境外反动势力利用网络传播不良信息呈愈演愈烈之势,尤其在藏文信息方面。利用最大熵模型,可对网络藏文文本进行分类,识别不良藏文文本及正常藏文文本。用互信息进行特征提取,建立藏文不良文本库用以训练最大熵模型,利用Opennlp最大熵工具包实现功能,利用最大熵模型求出文档属于不良文本和合法文本的概率,通过分析准确率、召回率对识别结果进行分析。通过实验实现了最大熵算法进行藏文文本分类功能,用最大熵算法进行藏文不良文本识别效果比较明显。 相似文献
10.
11.
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。 相似文献
12.
13.
14.
15.
16.
【目的/意义】从海量论文元数据中抽取算法术语并构建它们之间的创新演化关系,有利于对算法的有效管
理和运用,以帮助科研工作者提升研究效率、采纳前沿成果。【方法/过程】首先,以GAN算法论文摘要为语料,通过
人工标注与规则抽取相结合的方式进行算法术语标注,并利用BERT-BiLSTM-CRF模型实现算法术语的自动抽
取。然后,将建立的模型应用于LDA算法论文的被引文献元数据中抽取算法术语,依据规则判断和引文关系,从被
引内容中抽取LDA算法的创新演化路径并构建。【结果/结论】以GAN论文为实例的算法术语实验中,精确率、召回
率与F1分数分别达到了0.81、0.63与0.71,并应用关系抽取方法成功构建了LDA算法的创新演化路径,该方法可以
有效推动算法进化网络构建和算法检索与追踪等方面的工作,丰富创新扩散理论的相关研究。【创新/局限】拓展了
命名实体识别技术的应用领域,为计算机算法管理提供了良好的思路。后续可优化创新演化路径的构建方法。 相似文献
17.
随着人工智能的发展,智能问答系统逐渐成为研究的热点,得到了越来越多研究者的关注。藏文问答系统不同于中英文等主流语种的问答系统,没有大量的结构化数据以支撑问答系统丰富全面的知识库引擎。本研究通过着力于面向小学藏语文课本数据领域的问答数据资源,通过规则筛选、人工校正、问句意图及相似度标注,构建了一个高质量的藏文问答数据集。经自动评价和实验验证,该数据集的问句和答复句具有较好的知识关联度,采用三分制的人工评价结果显示98%的数据样本符合小学生认知和藏文文语法规则,且问答对句子流畅、问题与答案相关性较高。通过Bert融合提取词和不融合提取词进行了意图分类和tf-idf+Bert相似度计算,分类结果准确率分别在75%和76%,相似度准确率在76%,这也验证了所构建面向小学藏语文课程知识问答语料库的有效性。 相似文献
18.
基于GATE的任务信息抽取研究 总被引:1,自引:1,他引:0
为了有效地将企业管理实践转变为财富,提出了基于GATE框架和ICTCLAS中文分词的任务信息抽取模型,对任务描述、日期、人员和部门四个命名实体进行识别,并在企业实际中进行了应用,取得了较好的应用效果,为进一步研究任务不确定程度和管理机制之间的动态匹配关系提供研究基础. 相似文献
19.
20.
[目的/意义]从用户角度,通过用户评价内容挖掘构建形成网络学术信息资源评价模型,为网络学术信息资源评价提供一个新的视角,并为其更进一步深入研究奠定基础。[方法/过程]文章在利用爬虫工作自动抓取三个知名学术网站用户评论的语料库基础上,运用数据挖掘研究方法对评论数据进行分词、聚类,根据词间与词对关系,构建形成评价体系模型。[结果/结论]基于用户评论挖掘构建形成涵盖资源内容属性、资源外部特征、网络功能属性、获取过程、用户体验五个维度的网络学术信息资源评价体系模型。该体系模型反映出科学用户在利用新兴网络学术信息资源过程中对资源自身属性和平台规范性的关切,是用户与利用正式学术信息资源的本质区别。 相似文献