首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技术对中文文本进行自动分词,并用一种改良的串频统计方法自动识别出语料中的未登录领域词汇,从而有效提高了中文分词的准确性。  相似文献   

2.
自适应分词算法中的未登录词识别技术研究   总被引:2,自引:0,他引:2  
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词.同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题.在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%.  相似文献   

3.
针对受限领域的特点及现有分词面临的困难,比较现有分词的方法,选择并改进了最大分词算法,设计了一个基于受限领域的中文分词系统,在一定程度上比较好地解决了未登录词和分词歧义的问题。  相似文献   

4.
国内中文自动分词技术研究综述   总被引:22,自引:0,他引:22  
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点.  相似文献   

5.
基于既定词表的自适应汉语分词技术研究   总被引:3,自引:0,他引:3  
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。  相似文献   

6.
分析中文自动分词的现状,介绍和描述几种不同的分词思想和方法,提出一种基于字位的分词方法。此分词方法以字为最小单位,根据字的概率分布得到组合成词的概率分布,因此在未登录词识别方面比其它方法有更优秀的表现。使用最大熵的机器学习方法来进行实现并通过两个实验得出实验结果的比较分析。  相似文献   

7.
[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary,OOV),同时避免摘要重复,提高文本摘要的质量,本文以解决OOV问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence,seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attention mechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE (recall-oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。  相似文献   

8.
综合采用切分标志、分词词典和N元语法3种方法对古籍文本进行分词,并采用子串比较过滤、相邻词过滤、高频词过滤、低频词过滤等方法对分词结果进行过滤,分别以12种农业古籍和379种<广东方志物产>为语料进行了古籍分词测试.从12种农业古籍中共识别出已有词1164个,约占总词汇量的31%;未登录词2530个,占总词汇的69%.从379种<广东方志物产>资料中共识别出已有词6314个,占总词汇的8%;未登录词75 438个,则占总词汇的92%.通过对379种<广东方志物产>分词结果的分析发现,当词频等级位于区间(2000,8000)时,词频等级与频次乘积基本为常数23 000 000.这一结果说明齐夫定律在古籍文本中同样适用.  相似文献   

9.
本文提出了生物医学实体评价,并采用信息计量学中的共词分析予以实现.首先,以基于机器学习的识别方法为主,结合基于字典和基于启发式规则的识别方法,完成科研文献中生物医学实体的识别;进而,在生物医学实体识别基础上构建生物医学实体共现网络;最后,通过生物医学实体共现网络分析实现生物医学实体的评价.  相似文献   

10.
中文生物医学文本无词典分词方法研究   总被引:1,自引:0,他引:1  
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进。实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%。最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异。研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值。  相似文献   

11.
基于XML的MARC研究   总被引:4,自引:1,他引:3  
本文分析了机读目录MARC在未来数字化图书馆应用的局限性,并提出了改进方案,以哈尔滨工业大学为例,对其采用的中文机读目录CNMARC格式进行了XML转换的尝试,从而使得MARC书目数据库和Internet上的非书目数据库的集成成为可能.本文的研究对于现有MARC数据在未来数字图书馆中的利用具有重要意义.  相似文献   

12.
今年"五一",七天长假,神州大地涌动着阵阵旅游热浪. 我凭借着一台电脑、一只调制解调器和一根电话线,"坐地日行八万里",来了一番不寻常的神州兰台网上游,北至东北的吉林,南至海南的琼兰阁,西至甘肃的酒泉,东至东海之滨的上海,造访了全国己开通的10多家档案信息网站,领略了各地兰台网站的不同风采.可谓收获不小,感触颇多.  相似文献   

13.
彭远方  陈冲 《新闻界》2008,(1):19-21
本文从传播学和社会学的视角,以定性与定量研究相结合的方法,分别从网名、聊天形式、聊天对象、聊天内容、聊天语言等方面对青少年使用QQ的情况进行了分析。  相似文献   

14.
选取新浪微博为研究对象,探究我国“微博问政”的现状。分别从微博基本信息、使用状况、问政互动状况三个方面对新浪微博的624个政务微博进行跟踪考察,旨在对“微博问政”进行基于数据的、全局性的描述分析,探讨“微博问政”的广度、深度和效度,指出我国当前“微博问政”存在的问题与发展方向。  相似文献   

15.
Web 信息检索(Information Retrieval)技术研究是应用文本检索研究的成果,它结合Web图论的思想,研究Web上的信息检索,是行之有效的Web知识发现的途径。传统HITS方法所获得的信息精确度相当低,而PageRank作为一通用的搜索方法,不能够应用于特定主题的信息获取。在充分分析了PageRank、HITS等现有算法和Web文档的相似度计算方法的基础上,提出了Web上查询特定主题相关信息发现的RG-HITS算法。它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上特定主题的相关知识。  相似文献   

16.
毛健吾提出《大刚报》所持立场的评价是大骂小帮忙,有借《大公报》的声誉来抬高《大刚报》的社会影响力之嫌。检视《大刚报》1946年初和1949年初两个历史节点的实际表现,《大刚报》虽对国共两党都有骂,主观目的还是通过舆论引导帮国民党的忙。大骂小帮忙本质上与小骂大帮忙没有区别。考量其办报思想,《大刚报》秉持以站在人民立场作为评断骂和帮忙的标准,而赶超《大公报》的实际步骤则客观上帮助共产党进步势力逐步进入《大刚报》。  相似文献   

17.
ABSTRACT

The article reports on a survey of Slavic librarian participation in information literacy programs. It was conducted using the electronic mailing list SLAVLIBS.  相似文献   

18.
区分文档过滤、信息过滤和文本过滤并介绍文档过滤技术的研究现状;提出基于Ontology的文档过滤的设想,认为其优势在于灵活、共享性好、有利于进行个性化服务等;讨论基于Ontology的文档过滤的实施过程,包括构建准备、本体构建、本体调用,重点阐述公共本体、用户本体和文档本体的构建方法以及实施过程中涉及的技术体系;最后指出今后的努力方向。  相似文献   

19.
在分析了FAQ和非实时与实时咨询系统的优缺点的基础上,探讨了基于Ontology的网上咨询专家系统的概念、关键技术及实现方案。  相似文献   

20.
信息偶遇研究元人种志分析   总被引:3,自引:0,他引:3  
周佩  黄春燕 《图书情报工作》2014,58(14):115-120
采用元人种志方法对12项信息偶遇原始研究进行综合集成,回答信息偶遇的发生要素、发生流程、效果、情境对信息偶遇的影响4个问题。提出信息偶遇的全景模型,认为信息偶遇是行动者与信息、情境良性互动从而产生积极行动后果和积极情绪体验的一种信息行为方式,受到个体认知风格、认知任务、信息组织、物理和社会情境的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号