首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
郑阳  莫建文 《大众科技》2012,14(4):20-23
针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。  相似文献   

2.
自然语言检索中的中文分词技术研究进展及应用   总被引:1,自引:0,他引:1  
何莘  王琬芜 《情报科学》2008,26(5):787-791
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。  相似文献   

3.
一种快速中文分词词典机制   总被引:3,自引:0,他引:3  
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率.  相似文献   

4.
熊泉浩 《科技广场》2009,(11):222-225
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望.  相似文献   

5.
徐坤  曹锦丹 《情报杂志》2012,(1):172-174,171
提出了一种针对领域文献的易于实现且具有较高准确率的未登录词自动识别方法。通过该方法生成未登录词表,可提高中文自动分词效果,弥补领域主题词表更新慢的不足,方便对领域文献的后续处理,进而提高科研工作者利用文献的效率。  相似文献   

6.
一种基于TFIDF方法的中文关键词抽取算法   总被引:4,自引:1,他引:3  
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著.  相似文献   

7.
中文专利权利要求书分词算法研究   总被引:1,自引:1,他引:0  
中文专利权利要求书是一种半结构化的文本,应对各种检索需要,迫切需要将中文专利权利要求进行分词处理.本文在总结中文专利权利要求书的特点的基础上,提出了一种基于领域词典和规则相结合的面向中文专利权利要求书的中文分词模型,并对词典、规则的构建进行了说明.该方法在封闭式测试条件下取得了较好的分词结果,能够将文本分割为有意义的实体,并且对未登录词的识别效果较好.  相似文献   

8.
中文分词算法综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的关键技术之一,本文对多种中文分词算法、自动分词理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向。  相似文献   

9.
专利文献代码化对于专利无纸化审查、专利分析、专利检索和专利管理都非常重要.本文提出一种以专利文献OCR校对词典和技术领域特征为基础,利用中文分词、隐马尔科夫模型为方法的专利文献OCR校对框架和专利文献OCR中文文本的拼写校对方法,降低了人力成本投入,提高了专利文献代码化效率和代码化质量.本文最后给出了实验系统和实现结果.  相似文献   

10.
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。  相似文献   

11.
基于为中国女子健美操竞技水平的全面提高和备战2012年世界健美操锦标赛提供理论支持的目的。采用文献调研、录像观察与数理统计等研究方法,对近三届世界健美操锦标赛女单比赛的冠军套路与中国选手套路进行对比统计分析。  相似文献   

12.
陈杰 《科教文汇》2013,(22):98-99
词语长度是汉语词汇的一个重要特征,近年来汉语新词语以三音节词语为主。本文主要描写新词语三音化的趋势并分析其成因。  相似文献   

13.
王尚义 《科教文汇》2020,(6):127-128
词语教学是小学语文课堂的基础性教学,小学生学习字、词、句需要一个过程,教师只有做好词语的教学,才能提升学生的学习能力。因此,教师应该利用多样化的教学手法,激发学生学习的兴趣。本文以小学语文为载体,结合笔者自身实践,分析与探究小学语文词语教学的方法。  相似文献   

14.
赵震  雷恒池 《现代情报》2009,29(9):182-184
EndNote是一个功能强大的参考文献管理软件,但不支持中英文文献混排。通过建立一个新的中文文献类型和中文期刊文献输出格式,介绍各个字段如何设置,在Microsoft Word中进行引文插入,从而区别处理中英文多个作者的表示。该方法能够在EndNote中实现中英文文献混排,满足中文期刊投稿要求。  相似文献   

15.
关于中国劳动力市场分割的政治经济学解读   总被引:1,自引:0,他引:1  
劳动力市场分割,作为转型期中国劳动力市场结构的典型特征,得到了学术界较多的关注.然而,在新古典SLM理论的支配下,关于中国劳动力市场分割的既有研究中,普遍存在的一种做法是将“分割”视为外生的市场发育“不完全”的现象,难以对市场内生的分割作出深入分析.为此,本文将从政治经济学的角度,着重讨论全球资本主义的生产格局,以及转型期国家保护力量和市场支配力量的不同作用,如何共同塑造中国分割的劳动力市场结构,从而突破表面的经验研究,在生产关系的层面对劳动力市场分割的形成作一个新解读.  相似文献   

16.
周光伟 《科教文汇》2013,(17):96-97
语序是语言成分按语法关系进行的线性的、横向的序列组合,是言内意义在句法层面的突出表现,是人类思维方式的具体展现。英汉语序的对比研究有助于提高中国学生的口语表达、写作和翻译质量。  相似文献   

17.
本文在介绍客户细分理论和数据挖掘技术的基础上,提出了一种基于聚类算法和RBF神经网络的电信客户细分模型,并通过大量现实数据的训练,得到了比较理想的细分结果,验证了模型的合理性、有效性和实用性。  相似文献   

18.
[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003-2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。  相似文献   

19.
王玉林  熊军 《科技广场》2005,(10):88-90
本文结合Word宏命令、域以及邮件合并功能,介绍了两种在Word文档窗口内实现图文数据批量处理的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号