首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
针对标准EM算法在汉语分词的应用中还存在收敛性能不好、分词准确性不高的问题,本文提出了一种基于极大似然估计规则优化EM算法的汉语分词认知模型,首先使用当前词的概率值计算每个可能切分的可能性,对切分可能性进行"归一化"处理,并对每种切分进行词计数,然后针对标准EM算法得到的估计值只能保证收敛到似然函数的一个稳定点,并不能使其保证收敛到全局最大值点或者局部最大值点的问题,采用极大似然估计规则对其进行优化,从而可以使用非线性最优化中的有效方法进行求解达到加速收敛的目的。仿真试验结果表明,本文提出的基于极大似然估计规则优化EM算法的汉语分词认知模型收敛性能更好,且在汉语分词的精确性较高。  相似文献   

2.
本文以河北省主要旅游景点的旅游文本为主、初步建立起一个小型封闭的语料库,并针对该语料库自动分词过程中人名的识别与切分出现的问题进行分析探讨。所收集语料来源于河北省主要旅游景点旅游文本,共计73471字,通过对语料的分词处理发现人名标注出现问题的频率较高。笔者将人名在语料自动切分中出现的问题归为三类,分别探讨问题出现的原因,并根据现有研究成果和旅游文本语料的特点为解决此问题做出简单设想,分析想法的可行性。  相似文献   

3.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

4.
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。  相似文献   

5.
针对目前OCR技术在后处理阶段多采用基于词的匹配技术而无法识别单字词的问题,提出了一种基于NLP的后处理技术。该技术通过采用词法切分法和语法匹配法,能够有效地利用上下文的语法语义信息。其中词法切分法采用的是中科院计算所提供的汉语分词技术,语法切分法以北大的《现代汉语语法信息词典》为基础。实验结果表明,采用该技术能大大提高句子中的单字词识别率,从而提高全文的整体识别率。  相似文献   

6.
陈立华 《现代情报》2004,24(6):142-143
本文详细阐述了文献检索系统中自动标引技术的抽词词典、抽词算法及歧义切分等问题。  相似文献   

7.
中文分词算法综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的关键技术之一,本文对多种中文分词算法、自动分词理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向。  相似文献   

8.
基于中文信息抽取的概念,提出一套基于语义模板的地震应急文本信息地图自动标绘的技术方案。针对地震应急文本信息和汉语的特点,对应急文本信息进行分词、词性标注和语义分析等处理,按照预定义语义模板提取震情、灾情信息并形成结构化信息、并与空间关联,标绘形成地震应急态势图。方案实现了传统手工标绘向自动标绘的转换,提高了地震应急态势图标绘效率。  相似文献   

9.
因特网经济学未登录词计算机辅助挖掘试验   总被引:2,自引:0,他引:2  
近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,侧重对未登录词挖掘步骤设计和处理方法的讨论。  相似文献   

10.
一种基于词典的中文分词法的设计与实现   总被引:1,自引:0,他引:1  
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。  相似文献   

11.
林金泉  张娜  王绪本 《科技通报》2012,28(6):128-129,132
当前主流的分割算法一般采用的是选取阈值分割法、最大类间方差(OTSU)法或者是区域生长法,而经试验证明,采用选取恰当的阈值分割法能有效地把文字与背景进行分离。理论分析和大量的实验结果均表明,采用合适的单阈值分割方法提取的简牍文字较清晰,文字细节部分保留的较完整,笔画间的粘连现象较少,达到了令人满意的结果,有利于后期简牍文字修复工作和考古研究的顺利进行。  相似文献   

12.
熊泉浩 《科技广场》2009,(11):222-225
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望.  相似文献   

13.
Segmentation of the tumor in computed tomographic (CT) images of neuroblastoma is a difficult problem due to its heterogeneity. In this paper, we present a survey of the nature, diagnosis, and management of the disease, and explore the potential application of image processing methods for the segmentation and analysis of the tumor. In particular, we study the use of opening-by-reconstruction and fuzzy connectivity to guide the segmentation process. We also investigate various strategies to improve the resulting tumor definition, including prior delineation of peripheral artifacts, peripheral fat, peripheral muscle, and the spinal canal, as well as postprocessing by morphological methods and deformable contours. Results of application of four procedures to 10 CT exams of four patients are analyzed. It is shown that opening-by-reconstruction is faster (by a factor of about 19) and provides a higher true-positive rate (83% versus 78%) than fuzzy connectivity. Leakage of the result of segmentation into neighboring structures remains to be a problem in cases where the tumor is significantly heterogeneous. Regardless, image processing methods could play an important role in improved management of neuroblastoma.  相似文献   

14.
随着各种电子设备的普及,视频在人们日常生活中扮演的角色越来越重要,被广泛应用于医学影像、智能交通管理、网络教育、视频监控等领域。视频分割是为了提取视频中用户感兴趣的实体,即视频对象。经过分割后的视频,存储、传输和交互式应用更为方便。基于视频分割技术的现状,介绍了视频分割的主要技术,并对未来视频分割技术发展进行了展望。  相似文献   

15.
一种基于活动围道的纹理图像分割方法   总被引:1,自引:0,他引:1  
本文将Gabor滤波器和各向异性扩散方程相结合,提出了一种基于活动围道的无监督纹理图像分割算法。采用基于总变分流的扩散函数,各向异性扩散方程可以有效地在保留纹理图像大尺度边界信息的同时对图像纹理区域进行平滑,获得比原始图像更易分割的简化图像。但是平滑过程中纹理信息的丧失,限制了该方法的通用性和有效性。为了在利用各向异性扩散方法的同时有效地提取和利用纹理信息,我们利用Gabor滤波器提取一组表征纹理方向性和尺度性的特征图像,同时将原始图像作为表征纹理灰度信息的一个特征通道考虑。再利用矢量形式的各向异性扩散方程对特征图像进行边界保持的各向异性平滑。我们将基于区域灰度统计参数估计的活动围道分割方法扩展到矢量空间,来对平滑后的纹理特征量进行分割。实验证明利用该纹理分割算法可以获得较好的效果。  相似文献   

16.
基于词链的自动分词方法   总被引:4,自引:1,他引:3  
An algorithm for automatic segmentation of Chinese word,which is an improved version of the minimum matching algorithm,is put forward.The key idea of the algorithm is to optimize the word bank and the matching process to enhance the speed and accuracy of word segmentation.By integrating the case bank for processing ambiguous word chain with relevant segmentation rules,the correctness of word segmentation is enhanced,which partly makes up the deficiency in processing natural language.  相似文献   

17.
灰度图像的分割通常都基于灰度的梯度变化。平均边沿梯度法常被使用以取得好的边沿效果,如,Sobel、Prewitt及Kirsch边沿算子。这些算子使用梯度和梯度的平均值来达到去噪和边沿检测,但忽略了增强图像边沿。通过把图像像素点看成受陷于能量为陷阱中的量子,我们得到相邻像素点对中心点的贡献与该点地灰度成线性关系。由此,本文提出了一个边沿分割方法。该方法不仅能够具有好的去噪效果,同时还具有锐化图像边沿的效果。  相似文献   

18.
阅读历来都是语言教学中最重要的组成部分,培养大学生具有较强的阅读能力一直是大学英语教学的首要目标,但阅读同时也是许多英语学习者的“一道坎儿”。在大学英语阅读教学中加入阅读技巧的讲解和训练能让语言学习者达到事半功倍的效果。基于“顺句驱动”原则的断句技巧便于学习者清晰地了解句子的结构,迅速抓住语篇的具体信息,加强对语篇的理解,从而提高阅读速度和理解能力。  相似文献   

19.
刘国忠  刘辉  赵鹏 《科教文汇》2013,(22):150-150,156
人类年龄分段自古有之,然而古今中外关于人年龄的分段受当时时代的限制和地域文化的不同而有很大的差别。我国成立以来,在中国人年龄的分段定义中,也有新的改动。本文利用文献资料法、调研法以及归纳总结的方法,纵向对比了中国历史和现代关于年龄分段的基本情况,也参考了国外和世界卫生组织对于人类年龄分段的定义,从体育学的角度,阐述了科学的符合时代的人类年龄分段对于体育学的积极意义,明确指出中国人由于经济的繁荣使我们的饮食水平有了很大的提高,从而使得国人的青春期有所提前这一现象。同时,指出了由于人们养生知识的普及和医疗卫生事业的进步,中国已经进入老龄社会这一实际情况,结合中国传统养生文化,建立了时代特色比较鲜明的人类年龄分段模式构想,以期能从生理锻炼和心理影响方面提高国人的身体素质,为我们终身体育的发展和延长人民寿命做出一份努力。  相似文献   

20.
提出一种基于sOM神经网的方向纹理分割方法.该方法首先利用方向特征模板提取遥感影像四个方向的特征,构成特征向量;再利用SOM神经网进行影像分割.文中将提供使用K-均值进行分割的遥感影像与使用本文方法进行分割的遥感影像进行对比,结果表明使用本文方法的效果好于使用K-均值算法的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号