首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
音节判定是藏文字典排序的基础。建立了基于Unicode编码的现代藏文音节结构判定算法。针对受语法影响的现代藏文音节进行预处理,使其满足一般现代藏文音节的结构;对含有占位辅音和含有不占位辅音两种情况分别进行判定。本算法能正确地判断所有藏文音节的结构。  相似文献   

2.
基于词典的藏文自动分词系统中,紧缩格的识别较大程度上影响着切分效果。本文针对紧缩格的语法特点,在才智杰老师提出的利用紧缩格的添接规则还原藏文原文的还原法基础上,提出了识别末尾添接的字符"■"是否为再后加字,以提高识别紧缩格"■"的准确率;提出了切分紧缩格"■"后将对黏附紧缩格的藏字进行复原的算法,以避免切分中造成切分错误现象,提高了切分准确率。  相似文献   

3.
音节字的排序是藏文字词排序的基础,但目前还没有统一的规范标准。本文对《新编藏文字典》中任意部首内部的音节排序做一种同一而合理的调整,提出一种形式简便,运算快捷的排序模型,供以参考。  相似文献   

4.
随着互联网不断发展,境外反动势力利用网络传播不良信息呈愈演愈烈之势,尤其在藏文信息方面。利用最大熵模型,可对网络藏文文本进行分类,识别不良藏文文本及正常藏文文本。用互信息进行特征提取,建立藏文不良文本库用以训练最大熵模型,利用Opennlp最大熵工具包实现功能,利用最大熵模型求出文档属于不良文本和合法文本的概率,通过分析准确率、召回率对识别结果进行分析。通过实验实现了最大熵算法进行藏文文本分类功能,用最大熵算法进行藏文不良文本识别效果比较明显。  相似文献   

5.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

6.
通过对当前流行的各种识别技术进行分析比较,在对藏文手写体特征展开深入研究的基础上,考虑到将来的研究趋势及可扩展性,提出了一套基于手写藏文识别的技术方法,即基于GA—BP神经网络的藏文识别方案,并着重对手写藏文识别中的特征提取和分类器设计进行了分析,提出了藏文识别领域今后的发展方向。  相似文献   

7.
随着藏文编码字符集国际标准的制定,以及微软的第一个全面支持藏文的Windows Vista操作系统的发布,计算机对藏文的处理能力达到了与英文和汉文相同的级别.藏文垃圾邮件正处在萌发中,将对国家安全和社会稳定带来了威胁.贝叶斯算法广泛用于中、英文垃圾邮件过滤中,但藏文有其独特的语言特性,不能把国内外的研究成果直接应用到藏文垃圾邮件的过滤中.本文介绍了朴素贝叶斯算法的基本原理和藏文垃圾邮件的特殊性,最后分析了基于贝叶斯的藏文垃圾邮件过滤器的性能的几个因素.  相似文献   

8.
随着自然语言处理技术的快速发展,藏文信息处理技术也取得了较大进展。其中,藏文舆情分析作为藏族地区社会舆情分析的重要技术,受到广泛关注。但是,现有的藏文文本情感分析研究由于起步较晚,还存在很大提升空间。本文提出基于深度集成学习的藏文文本情感分析算法。并通过建立藏文情感数据集进行实验,本文算法在三类情感(正向、负向、中性)中精确率平均提升1.65%,召回率提升1.63%,F1分数提升1.96%。实验结果表明,本文采用的深度集成学习有效地提高了文本情感分类的性能。  相似文献   

9.
在信息发达的当今社会,传统的人工翻译无法满足西藏社会发展对于藏文翻译的巨大需求,藏文机器翻译的实现是亟待解决的问题,文章采用基于规则的方法研究藏文机器翻译,提出了基于句型模板的汉藏句型转换算法,结合源文预处理和词典知识库实现汉藏机器互译。  相似文献   

10.
近几年来在我国政府和有关部委的大力支持下,藏文信息处理技术得到了空前的发展,基于国际国家标准的藏文应用软件相继研发成功.本文就围绕国内外第一款基于藏文编码字符集(基本集、扩充集A和B准)国际国家标准的中标普华藏文办公软件,重点论述了在藏文办公软件中解决藏文文本自动断行的问题和藏文自动排版技术的实现方法.  相似文献   

11.
Windows XP在个人计算机中还占有重要的地位,而基于国家/国际编码标准的藏文在Windows XP上使用时,经常遇到不知如何解决断字、显示和文件名称等方面的问题,下面笔者简单叙述几个问题的解决方法.  相似文献   

12.
马凌云 《现代情报》2014,34(10):74-78
本文通过对藏文古籍文献的分类和特点的分析,探讨了藏文文献的收集与开发的方法和途径,以期在网络环境下更大限度的发挥藏文文献的学术价值和社会意义.为促进我国的藏学研究事业和民族教育事业,提供一定的借鉴和参考.  相似文献   

13.
藏语文信息监测与发布关键技术难点主要包括网络爬虫算法设计、藏文自动分词及词性标注和藏文命名实体识别。文章围绕以上三个方面分别探索了网络爬虫技术、藏文自动分词及词性标注规则算法和藏文命名实体识别构思,致力于形成与舆情、安全相关的藏语文信息监测技术方案。  相似文献   

14.
在基于UNICODE编码方式的Java编程技术中,利用国际标准框架下的<信息技术藏文编码字符集国家标准扩充集A、B>,使基于GUI图形的用户界面上能够正确地显示藏文、在即时通信中能够正确地传输藏文数据.本文将从藏文编码字符集的知识入手,以Java编写的藏文即时通讯软件为例,分析以上两个问题并提出解决它们的方案.  相似文献   

15.
汉语和藏文同属于记录语言的书写符号,二者在检验原理与检验方法上基本相同,但是,藏文是由30个字母组成的拼音文字,有着自己固定的语法,它们在发音、构句、书写等方面与汉字截然不同。这就决定了我们在检验藏文笔迹时,不能照搬检验汉字笔迹的一套模式来认识藏文笔迹特征,而应根据藏文的特点来分析和认识藏文的书写规律,研究其特征。  相似文献   

16.
藏文文本数字水印在藏文电子公文安全方面具有非常重要的意义,但目前文本水印还存在着鲁棒性不强,水印容量不足等问题。本文针对上述问题展开研究,提出了一种基于词链结构的藏文文本零水印算法。首先,将藏文文本表示成词链形式,然后,记录下词链中与文本主题词相关度较大的词语的位置作为水印信息进行存档,需要进行版权验证时再用相同的方法提取水印,并用已存档的水印进行判决。实验结果表明,该算法可以有效地抵抗同义词替换、词语调换等攻击,同时,提高了水印容量。  相似文献   

17.
藏语文语转换系统主要由三个部分组成:文本顿处理模块、劫律生成模块和语音合成模块。文章围绕以上三方面分别研究了藏语文语转换中文本预处理的藏文分词技术、韵律标注规则和韵律标注内容,并实现了韵律标注时所需藏文拉丁转写算法和语音处理后端合成的一些方案设想。  相似文献   

18.
微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文资源及藏文应用软件开发的主流平台。藏文分词作为信息处理的基础性工作之一,在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用,所以很有必要对Unicode藏文文本进行分词研究。  相似文献   

19.
藏文分词是藏文信息处理的基础,歧义问题是藏文分词的一个难点,而交集型歧义问题占藏文分词歧义问题的90%以上,因此,对交集型歧义问题的研究是藏文分词研究的一个重点。本文通过统计分析,按藏文文本中交集型歧义的规则特点,给出了一种改进的藏文分词交集型歧义消解方法,从而进一步提高了藏文自动分词的准确率。  相似文献   

20.
汉文和藏文是中文信息处理的重要组成部分,文章利用比较法对两者的信息处理方法和技术手段进行了研究,从而为今后进一步开展藏文信息处理深层次研究工作提供借鉴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号