首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
藏语文语转换系统主要由三个部分组成:文本顿处理模块、劫律生成模块和语音合成模块。文章围绕以上三方面分别研究了藏语文语转换中文本预处理的藏文分词技术、韵律标注规则和韵律标注内容,并实现了韵律标注时所需藏文拉丁转写算法和语音处理后端合成的一些方案设想。  相似文献   

2.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

3.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

4.
命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体。利用了隐马尔可夫模型(HMM,Hidden Markov Model)和改进的隐马尔可夫模型进行英文命名实体的识别。  相似文献   

5.
基于中文信息抽取的概念,提出一套基于语义模板的地震应急文本信息地图自动标绘的技术方案。针对地震应急文本信息和汉语的特点,对应急文本信息进行分词、词性标注和语义分析等处理,按照预定义语义模板提取震情、灾情信息并形成结构化信息、并与空间关联,标绘形成地震应急态势图。方案实现了传统手工标绘向自动标绘的转换,提高了地震应急态势图标绘效率。  相似文献   

6.
赵蓉英  魏明坤 《现代情报》2017,37(12):96-101
[目的]随着科学技术的不断发展,网络化发展的现象越来越受到人们的重视。如何在海量的网络信息中识别人物观点成为研究者关注的焦点,网络人物观点被视为网络文本表达的主要思想,是构成网络信息的"魂"。在海量的网络信息中快速识别网络人物观点对掌握网络信息主题具有重要作用。[方法]本文在前人研究的基础上理论与应用相结合,从文本分析的视角研究网络人物的观点。利用相应的算法对文本内容进行预处理,再通过文本句子中的词汇、词性标注和词汇之间的距离关系实现观点指示动词识别和观点持有者识别,从而实现网络人物的观点识别。[结果]通过网络人物观点算法识别的实证研究发现,通过对网络人物进行指代消解和观点持有者的扩展能有效地提高观点识别的准确率。  相似文献   

7.
本文介绍了一种机器翻译框架,能够完成汉-英文本的自动翻译任务。对于输入句子,分别进行分词、词性标注和句法分析处理。在翻译转换之前,集成了词义消歧的结果以提高自动译文输出质量。  相似文献   

8.
微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文资源及藏文应用软件开发的主流平台。藏文分词作为信息处理的基础性工作之一,在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用,所以很有必要对Unicode藏文文本进行分词研究。  相似文献   

9.
随着互联网不断发展,境外反动势力利用网络传播不良信息呈愈演愈烈之势,尤其在藏文信息方面。利用最大熵模型,可对网络藏文文本进行分类,识别不良藏文文本及正常藏文文本。用互信息进行特征提取,建立藏文不良文本库用以训练最大熵模型,利用Opennlp最大熵工具包实现功能,利用最大熵模型求出文档属于不良文本和合法文本的概率,通过分析准确率、召回率对识别结果进行分析。通过实验实现了最大熵算法进行藏文文本分类功能,用最大熵算法进行藏文不良文本识别效果比较明显。  相似文献   

10.
基于词典的藏文自动分词系统中,紧缩格的识别较大程度上影响着切分效果。本文针对紧缩格的语法特点,在才智杰老师提出的利用紧缩格的添接规则还原藏文原文的还原法基础上,提出了识别末尾添接的字符"■"是否为再后加字,以提高识别紧缩格"■"的准确率;提出了切分紧缩格"■"后将对黏附紧缩格的藏字进行复原的算法,以避免切分中造成切分错误现象,提高了切分准确率。  相似文献   

11.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

12.
《西藏科技》2015,(3):81
<正>西藏大学现代教育技术中心承担的2012年西藏自治区重点科研项目——《基于短语的藏汉统计机器翻译关键技术研究》,在藏语自动分词与词性标注、藏语语料库、基于短语的藏汉统计机器翻译技术等领域进行了深入研究,取得标志性研究成果——《阳光藏  相似文献   

13.
面对数据大爆炸,人们很难获取有用的信息。网络爬虫技术成为了搜索引擎中最为重要的部分,能够有效的在海量数据中找到有价值的信息。首先介绍网络爬虫的抓取对象和抓取策略,然后介绍最常见的网页分析算法——Pagerank算法,最后通过实例实现网络爬虫。实例结果表明,网络爬虫能够准确的从海量数据中抓取有用信息。  相似文献   

14.
丁晟春  方振  王楠 《现代情报》2009,40(3):103-110
[目的/意义] 为解决目前网络公开平台的多源异构的企业数据的散乱、无序、碎片化问题,提出Bi-LSTM-CRF深度学习模型进行商业领域中的命名实体识别工作。[方法/过程] 该方法包括对企业全称实体、企业简称实体与人名实体3类命名实体识别。[结果/结论] 实验结果显示对企业全称实体、企业简称实体与人名实体3类命名实体识别的识别率平均F值为90.85%,验证了所提方法的有效性,证明了本研究有效地改善了商业领域中的命名实体识别效率。  相似文献   

15.
董晓芳  曹晖  江涛 《科技风》2012,(17):60-61
本文针对藏文词法及句法的特点,借助开源统计机器翻译平台,搭建起基于短语的藏汉统计机器翻译系统,重点描述了系统中的藏文编码转换和藏文自动分词的实现方法.最后采用500句新闻领域藏文语料对翻译系统进行测试,取得了 Bleu值为0.3425的较好结果.  相似文献   

16.
【目的/意义】从海量论文元数据中抽取算法术语并构建它们之间的创新演化关系,有利于对算法的有效管 理和运用,以帮助科研工作者提升研究效率、采纳前沿成果。【方法/过程】首先,以GAN算法论文摘要为语料,通过 人工标注与规则抽取相结合的方式进行算法术语标注,并利用BERT-BiLSTM-CRF模型实现算法术语的自动抽 取。然后,将建立的模型应用于LDA算法论文的被引文献元数据中抽取算法术语,依据规则判断和引文关系,从被 引内容中抽取LDA算法的创新演化路径并构建。【结果/结论】以GAN论文为实例的算法术语实验中,精确率、召回 率与F1分数分别达到了0.81、0.63与0.71,并应用关系抽取方法成功构建了LDA算法的创新演化路径,该方法可以 有效推动算法进化网络构建和算法检索与追踪等方面的工作,丰富创新扩散理论的相关研究。【创新/局限】拓展了 命名实体识别技术的应用领域,为计算机算法管理提供了良好的思路。后续可优化创新演化路径的构建方法。  相似文献   

17.
随着人工智能的发展,智能问答系统逐渐成为研究的热点,得到了越来越多研究者的关注。藏文问答系统不同于中英文等主流语种的问答系统,没有大量的结构化数据以支撑问答系统丰富全面的知识库引擎。本研究通过着力于面向小学藏语文课本数据领域的问答数据资源,通过规则筛选、人工校正、问句意图及相似度标注,构建了一个高质量的藏文问答数据集。经自动评价和实验验证,该数据集的问句和答复句具有较好的知识关联度,采用三分制的人工评价结果显示98%的数据样本符合小学生认知和藏文文语法规则,且问答对句子流畅、问题与答案相关性较高。通过Bert融合提取词和不融合提取词进行了意图分类和tf-idf+Bert相似度计算,分类结果准确率分别在75%和76%,相似度准确率在76%,这也验证了所构建面向小学藏语文课程知识问答语料库的有效性。  相似文献   

18.
基于GATE的任务信息抽取研究   总被引:1,自引:1,他引:0  
为了有效地将企业管理实践转变为财富,提出了基于GATE框架和ICTCLAS中文分词的任务信息抽取模型,对任务描述、日期、人员和部门四个命名实体进行识别,并在企业实际中进行了应用,取得了较好的应用效果,为进一步研究任务不确定程度和管理机制之间的动态匹配关系提供研究基础.  相似文献   

19.
《科技风》2016,(16)
随着互联网技术的飞速发展和极大普及,以及相关领域研究的不断深入,可用信息资源得到了极大丰富。人们迫切需要从海量的非结构化文本中获取有用的信息。在这一背景下,信息抽取技术应运而生。命名实体识别自诞生之日起,就被看作信息抽取系统的一个重要子任务,受到广大国内外学者的广泛关注。本文探讨了命名实体识别的基本概念和意义,并对现有的命名实体识别技术、特征、评估方法进行了总结。  相似文献   

20.
刘冰  庞琳 《情报理论与实践》2021,44(3):172-177,163
[目的/意义]从用户角度,通过用户评价内容挖掘构建形成网络学术信息资源评价模型,为网络学术信息资源评价提供一个新的视角,并为其更进一步深入研究奠定基础。[方法/过程]文章在利用爬虫工作自动抓取三个知名学术网站用户评论的语料库基础上,运用数据挖掘研究方法对评论数据进行分词、聚类,根据词间与词对关系,构建形成评价体系模型。[结果/结论]基于用户评论挖掘构建形成涵盖资源内容属性、资源外部特征、网络功能属性、获取过程、用户体验五个维度的网络学术信息资源评价体系模型。该体系模型反映出科学用户在利用新兴网络学术信息资源过程中对资源自身属性和平台规范性的关切,是用户与利用正式学术信息资源的本质区别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号