共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
汉语自动分词技术的最新发展及其在信息检索中的应用 总被引:2,自引:0,他引:2
分析了汉语自动分词与自然语言处理、自动分词与信息检索之间的关系,在此基础上,介绍了近年来自动分词系统实现的技术,分析了自动分词技术在信息检索中应用的有关问题。 相似文献
3.
汉语文献自动分词与标引研究综述 总被引:3,自引:0,他引:3
本文根据近年来国内发表的有关自动分词与标引的部分文章,对汉语文献自动分词方法和自动标引技术进行了分析和归纳,并提出了自动标引质量评价和标引模型评价指标的问题。 相似文献
4.
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望. 相似文献
5.
6.
一种基于词典的中文分词法的设计与实现 总被引:1,自引:0,他引:1
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。 相似文献
7.
2009共享版ICTCLAS的分析与使用 总被引:3,自引:0,他引:3
汉语的分词是汉语信息化、现代化的一个重要步骤,也是汉语分析的必经之路。本文通过对2009共享版ICTCLAS(中国科学院计算技术研究所汉语词法分析系统)功能的介绍和演示,从而了解其特点和使用方法,以期在汉语信息化和现代化的过程中发挥更大的作用。 相似文献
8.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。 相似文献
9.
因特网经济学未登录词计算机辅助挖掘试验 总被引:2,自引:0,他引:2
近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,侧重对未登录词挖掘步骤设计和处理方法的讨论。 相似文献
10.
11.
《科技通报》2016,(4)
针对标准EM算法在汉语分词的应用中还存在收敛性能不好、分词准确性不高的问题,本文提出了一种基于极大似然估计规则优化EM算法的汉语分词认知模型,首先使用当前词的概率值计算每个可能切分的可能性,对切分可能性进行"归一化"处理,并对每种切分进行词计数,然后针对标准EM算法得到的估计值只能保证收敛到似然函数的一个稳定点,并不能使其保证收敛到全局最大值点或者局部最大值点的问题,采用极大似然估计规则对其进行优化,从而可以使用非线性最优化中的有效方法进行求解达到加速收敛的目的。仿真试验结果表明,本文提出的基于极大似然估计规则优化EM算法的汉语分词认知模型收敛性能更好,且在汉语分词的精确性较高。 相似文献
12.
13.
基于机械分词与统计学的新词识别研究 总被引:5,自引:0,他引:5
分词是所有中文信息处理工作的基础,也是汉语信息处理的难点之一,如何识别文中出现的新词更成为当前研究的重点之一。本文综合利用几种传统的机械分词方法,加上统计学的方法,提出了一种从文献中抽取新词的新方法。 相似文献
14.
藏文分词是藏文信息处理的基础,歧义问题是藏文分词的一个难点,而交集型歧义问题占藏文分词歧义问题的90%以上,因此,对交集型歧义问题的研究是藏文分词研究的一个重点。本文通过统计分析,按藏文文本中交集型歧义的规则特点,给出了一种改进的藏文分词交集型歧义消解方法,从而进一步提高了藏文自动分词的准确率。 相似文献
15.
16.
句型转换的机器翻译理论模型与一些处理方法 总被引:3,自引:0,他引:3
自动分词和译文生成处理是混合式汉英机器翻译的两个重要阶段。本文主要工作有:第一,讨论了机器翻译的理论模型;第二,给出了一个自动分词算法,提出了一个初步消歧方法;第三,建立汉英机器翻译的时态转换及相关匹配规则。 相似文献
17.
汉语在语法和语义上与英语指代消解存在区别。概述和分析了汉语指代消解技术中的规则与统计方法,阐述了分词工具的基本思想与流程,介绍了中文语料库的规则,为后期规则和统计方法的确定作了很好的铺垫。 相似文献
18.
19.
20.
一种基于TFIDF方法的中文关键词抽取算法 总被引:4,自引:1,他引:3
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著. 相似文献