首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ,从汉语自动分词的成本、影响和汉语言发展的前途出发 ,必须对传统汉语文本进行改革。提出了一种新的自动分词思维 :“无词典切分” ,即改变汉语书写习惯 ,在汉语文本生成时在汉语词之间增加分隔信息 ,使汉语适于计算机自动处理。  相似文献   

2.
一种快速中文分词词典机制   总被引:3,自引:0,他引:3  
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率.  相似文献   

3.
一种基于互信息的串扫描中文文本分词方法   总被引:2,自引:0,他引:2  
中文分词技术是中文信息处理的基础环节,在互信息原理的基础上提出了一个基于统计的中文文本分词方法.该方法对经过预处理之后每一个串中的任意可能长度串均判断其成词的可能性,实验结果说明该算法简单且具有良好的精度及查全率.  相似文献   

4.
熊泉浩 《科技广场》2009,(11):222-225
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望.  相似文献   

5.
中文专利权利要求书分词算法研究   总被引:1,自引:1,他引:0  
中文专利权利要求书是一种半结构化的文本,应对各种检索需要,迫切需要将中文专利权利要求进行分词处理.本文在总结中文专利权利要求书的特点的基础上,提出了一种基于领域词典和规则相结合的面向中文专利权利要求书的中文分词模型,并对词典、规则的构建进行了说明.该方法在封闭式测试条件下取得了较好的分词结果,能够将文本分割为有意义的实体,并且对未登录词的识别效果较好.  相似文献   

6.
基于中文信息抽取的概念,提出一套基于语义模板的地震应急文本信息地图自动标绘的技术方案。针对地震应急文本信息和汉语的特点,对应急文本信息进行分词、词性标注和语义分析等处理,按照预定义语义模板提取震情、灾情信息并形成结构化信息、并与空间关联,标绘形成地震应急态势图。方案实现了传统手工标绘向自动标绘的转换,提高了地震应急态势图标绘效率。  相似文献   

7.
对知识挖掘服务系统的建设背景、系统的功能与建设内容进行了详细的分析与设计。该系统通过将企业积累的信息通过文本提取技术获得内容信息,使用中文分词算法进行深入分析,形成完整的知识脉络结构,建立企业知识体系,为企业提供知识分享、个性化定制与推送、关联推荐等智能化的知识服务。  相似文献   

8.
全文检索搜索引擎中文信息处理技术研究   总被引:2,自引:0,他引:2  
唐培丽  胡明  解飞  刘钢 《情报科学》2006,24(6):895-899,909
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。  相似文献   

9.
设计和实现了一个超链接符合度测试系统.首先通过Crawler技术爬取超链接文本和链接指向内容,然后采用中文分词技术对其分别进行分词,得到相应的词语列表.对链接指向的文本内容,分别依据标题、段首句、段尾句和正文进行分词,最后根据设计的符合度计算模型,计算链接文本和链接指向文本的符合度.经过和人工判断的符合度对比,系统计算的符合度较好,和人工判断的符合度有很好的相关性.  相似文献   

10.
吉向东 《现代情报》2010,30(6):125-127
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。  相似文献   

11.
针对目前基于主题图的中文自动分类的空缺,文章在总结Ontopia对英文和挪威文自动分类的技术基础上,结合中文特殊性,构建了一个基于主题图的中文分类原型系统。该系统通过借助POI、PDF、SAX作为文档文本解析器提取文本,采用盘古分词对文本进行分析,以Java为系统实现主要语言,达到了基于主题图的中文自动分类的目的。  相似文献   

12.
李娟  魏佳  张珊珊  周树功  詹胜 《科教文汇》2023,(19):105-109
该文从人才市场需求出发,针对就业网站数据,运用文本挖掘方法分析相关人才的社会需求,旨在为高校信管专业教育教学改革提出建设性意见。使用爬虫技术获取招聘信息,对爬取的数据集进行语料预处理、中文分词等,并使用Word2Vec模型对文本信息进行向量化操作,对词频进行统计,对招聘信息的不同字段进行分析,根据需求量较大的程序设计类和数据类的职位,从重构信管专业课程体系、构建信管专业核心能力指标、重视实践经验积累三方面提出对策和建议。  相似文献   

13.
因特网经济学未登录词计算机辅助挖掘试验   总被引:2,自引:0,他引:2  
近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,侧重对未登录词挖掘步骤设计和处理方法的讨论。  相似文献   

14.
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能.  相似文献   

15.
基于中文分词的专利挖掘分析方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
专利作为世界上最大的技术信息源,受到企业的日益重视。本文提出了一种基于中文分词的专利挖掘分析过程,首先进行专利信息的检索、提取和清洗,然后利用中文分词对专利名称进行关键词组的提取,细化专利名称、摘要等专利信息,最后在此基础上挖掘出专利的技术发展路线,不同技术之间的关联关系以及相似专利簇等。该过程方法在空调行业专利数据中得到了应用,有助于企业进行专利地图绘制、技术研发和专利战略实施。  相似文献   

16.
提出了一种基于条件随机场(Conditional Random Fields,简称CRF)的中文分词方法.CRF模型利用词的上下文信息,对歧义词和未登陆词进行分词统计处理取得了理想的效果.以SIGHAN2006 Chinese Language Processing Bakeoff提供的数据作为实验数据.实验数据表明,基于CRF的中文分词方法取得了很好的效果,在Uppen,Msra两种语料的封闭测试中准确率分别达到了95.8%和95.9%.  相似文献   

17.
一种基于TFIDF方法的中文关键词抽取算法   总被引:4,自引:1,他引:3  
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著.  相似文献   

18.
针对目前OCR技术在后处理阶段多采用基于词的匹配技术而无法识别单字词的问题,提出了一种基于NLP的后处理技术。该技术通过采用词法切分法和语法匹配法,能够有效地利用上下文的语法语义信息。其中词法切分法采用的是中科院计算所提供的汉语分词技术,语法切分法以北大的《现代汉语语法信息词典》为基础。实验结果表明,采用该技术能大大提高句子中的单字词识别率,从而提高全文的整体识别率。  相似文献   

19.
郑阳  莫建文 《大众科技》2012,14(4):20-23
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。  相似文献   

20.
自然语言检索中的中文分词技术研究进展及应用   总被引:1,自引:0,他引:1  
何莘  王琬芜 《情报科学》2008,26(5):787-791
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号