首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

2.
中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料分词方法。它通过采用层叠隐马尔科夫模型将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系统框架。实验结果表明,该方法能够有效识别网络舆情用语,提高了分词准确率,为进一步发现高校网络舆情奠定了基础。  相似文献   

3.
介绍一种基于词结合提取的未登录词识别方法.该方法对碎片分词后的文本建立二元模型,结合互信息和规则过滤提取由若干个词组合而成的未登录词(组).测试结果准确率为84.71%,召回率为72.13%.  相似文献   

4.
基于碎片分词的未登录词识别方法   总被引:1,自引:0,他引:1  
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。  相似文献   

5.
中文信息处理分词过程中对歧义切分字段和未登录词的识别问题一直困扰着我们,至今仍然没有很好的解决方案。笔者认为问题产生的根本原因在于源头上没有识别的标识,就此本文提出了CCSS(Case of Chinese Segmentation Solution)方案,寻求建立一套文本编辑软件及与之兼容的智能系统,将自动分词与人工分词相结合,在文本编辑阶段彻底解决汉语分词问题。  相似文献   

6.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeoff2006的评测语料上进行了封闭测试。  相似文献   

7.
词性自动校对在自然语言处理领域有着广阔的应用前景。针对传统基于规则的中文分词方法的不足,利用数据挖掘思想,通过对决策表的优化提出并实现了一种基于粗糙集的兼类词自动文本校对方法。该方法能够正确标注语料中挖掘、自动获取兼类词词性标注校对规则,提高兼类词词性校对标注的准确率。  相似文献   

8.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法.  相似文献   

9.
在现在正蓬勃发展的信息检索和数据挖掘研究领域中,未登录词的识别具有十分重要的意义。基于互信息的地名识别方法,提出中文地名的上下文互信息概念,引入互信息对其进行定量的描述,达到了较好的中文地名识别效果。  相似文献   

10.
深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。  相似文献   

11.
作为詹姆斯?库珀所著《皮裹腿故事集》中最为知名的一部作品,《最后的莫西干人》描绘了18世纪中叶英法殖民者为了侵占美洲领土而展开的残酷掠夺.在小说中,主人公“鹰眼”和他的莫西干朋友钦加哥之间的友谊是作者描述的重点,而在1992年的电影版本中,导演描述的重点则转到了“鹰眼”与科拉的爱情上.《最后的莫西干人》从小说到电影的改编反映了文化背景的变迁.  相似文献   

12.
试论CMO、LMO、PAO和VB之间的关系   总被引:1,自引:0,他引:1  
离域分子轨道(CMO)、定域分子轨道(LMO)、杂化轨道(PAO)和价键法(VB)是结构化学的重要内容,本文通过CH4分子,对此之间关系进行较深入的讨论.  相似文献   

13.
论共和末叶至帝国初期罗马对行省的治理   总被引:3,自引:0,他引:3  
行省是罗马对被征服地区及其居民实行统治的主要管理形式。它对于罗马国家的稳定和罗马经济的发展都起了非常显著的作用。然而 ,罗马对行省的治理并不是一成不变的 ,更不是没有缺陷的。它是时代发展的产物 ,同时又随着时代的变化而有所变化。共和末叶至帝国初期正是罗马行省管理由不成熟走向成熟的关键时期 ,对其加以研究不仅能够进一步加深我们对罗马行省制度的理解 ,而且对于我们更加深入地了解罗马历史的发展也有相当重要的意义  相似文献   

14.
目前,中国票据市场的发展仍处在初级阶段,社会信用制度及法律制度的不健全、票据市场的不统一、票据功能的不完善制约着票据业务的开拓。因此,只有从中国的国情出发,在继续大力发展具有真实商品交易的交易性票据业务的基础上探索融资性票据的发行,才能进一步完善中国的票据市场,有效地促进国民经济的发展。  相似文献   

15.
多年来,“减负”问题一直倍受我国广大学校、家庭和社会各界人士的关注,如何正确认识“减负”以及由此涉及到的个体素质教育成为焦点所在。从对“减负”问题的起始点、逆转点、落脚点等一系列分析中,我们不难看出,“减负”需要切实变革相关制度,充分发挥教师主导作用,借鉴赞科夫的教学原则。对全体中小学生实施个体素质结构教育。  相似文献   

16.
大学中文系古代文学选修课程“《论语》导读”的核心目标是进一步培养学生全面、深入理解《论语》的阅读能力和对于传统文化的研究能力,追求教学内容的系统性与深度是它有别于高中语文选修课程“《论语》选读”的主要方面.为达此目标,教师在教学过程中应立足文本,注重教学内容的整体性、二元性与相关性.  相似文献   

17.
在一个社会里,只要存在阶级,就会存在阶级矛盾,它表现为利益双方的相互对立和依存.利益对立导致双方矛盾不可调和,便发生社会冲突,从而造成巨大的社会动荡;而利益依存凸显了矛盾双方合作的必要,双方可在一定的社会条件下以自己合法的方式获取自己的利益,双方相伴相生,相互依存,这就是阶级整合. 因此,阶级整合的关键就是要找到对立的边线--矛盾双方共同一致的利益,并随双方力量的消长而不断调整政策以适应边线的移动,这个边线就是构建和谐社会的基点.  相似文献   

18.
作为审美客体的散文文本,是创作主体的艺术创造变为社会性审美活动的中介,是创作主体与审美主体之间进行交流的依据.在接受主体眼里,它既是一种物化了的客观存在,又是一个亟待开发的审美存在,这与创作者追求的虚拟文本是不同的.本文从接受审美的视角,对文本的品质与层面,对不同类型、不同内质的文本的审美探求等问题进行了研究.  相似文献   

19.
马祖禅对自性、自身感悟的独特性的强调,以及随时著衣吃饭,任心自由的破除修行方式,对"吴中诗派"产生了影响,促使其文学创作表现出重心性、重主体的倾向,内容也趋向日常化、游戏化,体现了向元和诗风转变的趋势。  相似文献   

20.
我国《物权法》对遗失物权属的规定排除了拾得人取得遗失物之所有权可能。建立拾得人附条件取得遗失物所有权规则是权利与义务一致的要求,是公平与效率相协调的要求,在实践中应该依照过错与价值原则确定拾得人遗失物所有权。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号