首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
年洪东 《文教资料》2007,(29):43-45
汉语的自动分词是进行汉语语言处理的基础,也是广大语言工作者建立自己专用语料库的基础工作。本文利用网上一些开源的软件工具和语料资源实现了针对新闻语料的专用分词系统,经测试分词准确率和召回率均达到了令人满意的效果。  相似文献   

2.
王兰 《现代语文》2015,(1):102-104
留学生汉语中介语语料库的建立与研究,有三个意义:第一,有利于对外汉语教学的多方面研究。第二,有利于全方位探索汉语学习者的语言特征。第三,有利于对外汉语的学科建设。汉语中介语语料库建设的基本思路如下:1.搜集各阶段留学生汉语学习者的语料,同时完整记录每份语料的背景信息,以及语料提供者的详细信息。2.对语料进行加工,包括偏误标注和基础标注。3.将加工后的语料分别存入错别字语料库和语句语料库这两个子库。每个子库包括生语料库、熟语料库、背景信息库三个部分。汉语中介语语料库建设的构成原则有三个:第一,语料的真实性原则;第二,语料的平衡性原则;第三,信息的完备性原则。  相似文献   

3.
聋人汉语书面语语料库建设研究   总被引:1,自引:1,他引:0  
目前对聋人汉语书面语的研究尚停留在经验层面。基于聋人汉语书面语语料库的研究,可以解决语料少,作者信息不清以及和其他汉语作为第二语言习得者对比困难等问题。随着对聋人汉语书面语研究的深入,聋人的汉语水平也将得到提高。语料库建设是一项长期、繁重的工作,本研究在考察了几个汉语学习者语料库的基础上,提出了自己的建库构想。确定了语料属性、语料标注标准等。在理论研究的同时,着手进行聋人汉语书面语语料库的初步建设,取得了一定成绩。  相似文献   

4.
翁莉佳 《海外英语》2012,(3):270-271
国内汉语单语语料库的发展最为迅猛,双语语料库(特别是平行语料库)和口语语料库的发展还有待提高;国外汉语语料库建设比较单薄,但还是吸引了一大批专家学者的目光。尽管现有的汉语语料库在使用权限、使用稳定性、语料选取等方面还存在各种问题,但各种单语语料库、双语语料库(特别是平行语料库)和口语语料库必定会呈现更红火的局面,而学习者中介语语料库的发展也将为汉语二语习得的实践和研究提供更大的帮助。  相似文献   

5.
语料库是指一个由大量的语言实际使用的信息组成,可供语言研究的资料库。目前为止,各国制作了许多语料库,除了文本语料外,还有语音语料,语料库的规模越来越大。对语料库的研究也是涉及到方方面面,本文主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。  相似文献   

6.
本文区别汉语自动分词中的“切分变异”、“组合型歧义”和“分词不一致”这三个概念,着重就“切分变异”这一分词现象的产生原因进行考证,并在真实语料调查的基础上统计切分变异字串在观察语料库中出现次数。探讨切分变异消解的原则。同时,本文还就“金本位”高质量分词语料库的建设提出设想和一种基于机器学习和错误驱动的算法。  相似文献   

7.
古今汉语平行语料库的语料构建   总被引:1,自引:0,他引:1  
古今汉语之间的明显差异使得以古代汉语为载体的传统典籍难以被现代人理解。古今汉语平行语料库的建设旨在为希望了解中国传统思想文化的普通读者及相关学科专家提供阅读、翻译、检索古代汉语典籍的平台。语料的构建是语料库建设的基础,本文从古今汉语语料的设计、采集、格式化存储、双语对齐与XML标注等方面详细介绍了如何系统地构建大型古今汉语平行语料库中的开放资源。  相似文献   

8.
1980年代以来,受研究主旨或兴趣所限,中古注释语料词汇研究的成果非常少见.但中古注释语料在汉语词汇研究尤其是复音词研究方面具有独特的文体价值,只要推陈出新,完全有可能成为今后词汇研究中可资利用的热点语料.  相似文献   

9.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeoff2006的评测语料上进行了封闭测试。  相似文献   

10.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法.  相似文献   

11.
中古汉语熟语料库建设不能仅仅满足于古文献的收录,还应该保留普遍存在于传世文献和出土文献当中的诸多异文,实现异文自动检索、自动发现。国家社科基金重大招标项目“汉语史语料库建设研究”将收录一批中古时期的吐鲁番出土文献。针对吐鲁番出土文献众多的异体字,还应通过链接等技术手段保留原字形,进行考释意见的标注关联及文字属性的标注。通过采用通用置标语言,实现语料共享,避免重复建设而产生资源浪费。  相似文献   

12.
由于书面语料记录语言的随机性,要更全面深入了解近代汉语的语言现象,有必要发掘更多中古文献中的语言事实。文章在讨论不同类型语料在语言研究中价值略有侧重的基础上,以齐梁陶弘景纂修的《真诰》为例,从一般语词和专门语词两方面论述了中古道经在近代汉语语词溯源方面的作用:中古道经在一般语词溯源上作用巨大;而在专门语词研究上,则应当成为主要的依托材料。  相似文献   

13.
陶智 《语文知识》2013,(1):44-45
文章选取《观世音应验记三种》中出现的"不肯"、"分"、"不觉"、"念"等四个词语在中古近代汉语中的某些特殊意义,订补了《汉语大词典》的释义和书证方面的疏漏,探讨了六朝小说《观世音应验记三种》在中古汉语词汇史方面的语料价值。  相似文献   

14.
在真实语料中提取词表面临着许多技术与理论上的难点与困难,但它又有着特殊的价值。“通用语料库”是国家语委组织研制的大型语料库,基本反映了现代汉语的语言面貌,完成对它的词表提取,其过程、做法及词表结果,都有着重要意义。机器分词时会遇到分词的正确性、加工精度的可容性、机器分词的强制性、机器分词的局限性等问题。源于真实语料的词表清楚反映出断代词汇由语言词和言语词两个层面构成,两个层面的词语之间有着互渗作用。源于真实语料的词表存在着书面语与口语的差异,不规范现象也较普遍存在,在词语的普遍性上与断代词汇有着相当的距离。  相似文献   

15.
研究以“HSK动态作文语料库平台”(1992—2015年)以及“全球汉语中介语语料库”(2016—2019年)为语料来源,主要以德语母语者的汉语学习偏误语料为例,对外国人习得汉语作偏误分析及教学策略研究.语料分析结果显示,外国人习得汉语偏误主要有语汇偏误和语法偏误两种类型,其中语汇层面主要存在词语误用、多词、缺词等偏误,语法层面主要存在成分多余、成分残缺、句型错误和语序错误等偏误,且以语汇层面的词语误用和语法层面的语序错误最为典型.基于语际偏误和语内偏误视角分析,外国人习得汉语教学应加强不同语言之间的对比研究,强化对外汉语教师自身综合素质和教学水平,提高对外汉语教学水平,提升教学效果.  相似文献   

16.
一、问题的提出,研究方法及语料来源留学生在学习汉语过程中,程度副词的使用偏误率较高,尤其是在使用程度副词很时经常会出现一些问题。本文利用北京语言大学HSK动态作文语料库(北京语言大学的HSK动态作文语料库是母语非汉语的外国人参加高等汉语水平考试作文考试的答卷语料库),采用封闭式定量分析的方法,先针对程度副词很的偏误语料进行检索,共搜索到偏误语料283条,然后对错词标注进行系统地归类,并结合认知语言学的原型范畴理论进行深入细致的分析,找出常见偏误的成因,并对此提出合理的教学策略。本文所用例句均引自HSK语料库,保持了语料库原貌。  相似文献   

17.
《中古汉语称数法研究》一书分绪论、数词的句法功能、基数与序数、倍数与分数、概数与问数、称数法专题六个部分,全面描写了中古汉语称数法的类型和相关称数专题,综述全面,语料详实,方法恰当,结论可信,新见纷呈,可作为汉语称数法历时研究的一个参考坐标。  相似文献   

18.
汉译佛经语料在汉语史研究中占有重要的地位,由于时代的局限性<汉语大词典>中有不少失收的例证,本文据此补正词语九则,探讨这些词语的较早用例,以助于中古汉语词汇的研究.  相似文献   

19.
本以魏晋六朝笔记小说的语料为依据,从词义、同义词方面探讨中古汉语新旧质素的共融和更替,揭示一些新质素萌发的迹象,展示汉语词汇发展演变之一斑。  相似文献   

20.
主持人的话     
正汉语佛典文献作为汉语史研究重要的语料,近年来受到越来越多的学者的重视,出现了一大批高质量的研究论著。举凡讨论中古汉语的论著,无论字词或语法研究,几乎都要借助汉语佛典文献语料,或商榷是非,或助成其说。汉语佛典文献语言研究已成为汉语史研  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号