共查询到17条相似文献,搜索用时 178 毫秒
1.
2.
垂直搜索引擎系统的设计与实现 总被引:1,自引:0,他引:1
面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分词、文本分类等。并将分词和分类算法加入到Nutch中,实现了系统原型。实验证明,该系统主题相关度达到94%以上。 相似文献
3.
中文分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要。本文回顾和整理了中文分词评估所依靠的理论依据,同时建立了一套完整的基于搜索引擎中文分词评估方法。这套评估方法涵盖了评估样本的提取、评估人员选取、评估标准的制定、以及评估流程的设置等各个方面。实例分析的结果表明此方法是行之有效的。在此基础上,作者进一步对实验评估的结果进行了深入讨论,并提出了提高评估效果的几条建议,包括如何考虑评估人员背景、取舍评估项目等。 相似文献
4.
汉语自动分词技术的最新发展及其在信息检索中的应用 总被引:2,自引:0,他引:2
分析了汉语自动分词与自然语言处理、自动分词与信息检索之间的关系,在此基础上,介绍了近年来自动分词系统实现的技术,分析了自动分词技术在信息检索中应用的有关问题。 相似文献
5.
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望. 相似文献
6.
一种基于词典的中文分词法的设计与实现 总被引:1,自引:0,他引:1
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。 相似文献
7.
基于中文信息处理的特殊性和复杂性,本文就中文搜索引擎中的若干中文信息处理技术进行了深入地探讨,对诸如中文分词、中文码制转换和中文全半角处理等方面提出了一种较为完整的解决方案。 相似文献
8.
网络信息检索技术现状、瓶颈及趋势分析 总被引:25,自引:0,他引:25
目前网络信息检索技术主要有资源定位检索技术、超链接搜索技术、网络搜索引擎技术及通用信息检索技术,制约网络信息检索技术发展的瓶颈是图像音频视频检索、汉语自动切分、搜索引擎缺陷等。智能检索技术、知识检索技术、多媒体检索技术、新一代搜索引擎技术、自然语言检索技术和基于内容的检索技术是网络信息检索技术发展的核心与关键。 相似文献
9.
信息检索中的中文分词问题研究 总被引:1,自引:0,他引:1
分析了信息检索中的中文分词歧义问题, 引入N元文法和平滑算法对切分歧义问题和数据稀疏问题进行处理解决, 从而来提高信息检索速度和质量. 相似文献
10.
中文专利权利要求书分词算法研究 总被引:1,自引:1,他引:0
中文专利权利要求书是一种半结构化的文本,应对各种检索需要,迫切需要将中文专利权利要求进行分词处理.本文在总结中文专利权利要求书的特点的基础上,提出了一种基于领域词典和规则相结合的面向中文专利权利要求书的中文分词模型,并对词典、规则的构建进行了说明.该方法在封闭式测试条件下取得了较好的分词结果,能够将文本分割为有意义的实体,并且对未登录词的识别效果较好. 相似文献
11.
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。 相似文献
12.
13.
本文依据文献计量学的原理与方法,对2004-2008年5年发表的有关中文分词研究领域的论文进行了分析研究。通过对中文分词研究作者分析和文献分布分析,对我国在中文分词领域的研究现状进行了探讨。 相似文献
14.
一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究 总被引:1,自引:1,他引:0
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能. 相似文献
15.
一种快速中文分词词典机制 总被引:3,自引:0,他引:3
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率. 相似文献
16.
全文检索研究 总被引:11,自引:0,他引:11
A new algorithm for automatic segmentation of Chinese word with the stop word list and post-controlled thesaurus, that has absorbed the ideas from the single-Chinese character method and the thesaurus method, is given. Based on this algorithm, a new full text retrieval mode is built. 相似文献
17.
跨语言检索是一种重要的信息检索手段之一。为了提高跨语言检索效率,采用语义扩展的方法,通过分析其设计思想和工作流程,构建出一种基于语义扩展的跨语言自动检索模型,重点对其语义扩展、知识库和结果聚类等设计进行了阐述,提出了语义理解切分法的分词方法,采用了Single-Pass算法进行聚类,实验结果表明,该模型能有效提高跨语言检索的查全率和查准率。 相似文献