首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
一种基于后缀树的Web搜索结果聚类方法   总被引:3,自引:2,他引:1  
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量.测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性.  相似文献   

2.
刘伟 《图书情报工作》2015,59(12):128-134
[目的/意义] 鉴于目前同义词抽取方法无法避免抽取结果含有较多的噪音,需要较高的人工代价去除噪音,提出一种对同义词抽取结果排序的方法,使得正确结果排序提前,以达到提高抽取结果准确性及降低人工去噪代价的目的。[方法/过程] 将抽取结果转化为抽取关系有向图,基于该有向图计算抽取结果中每个词汇与被抽取词汇的词义相似性,并按照词义相似性高低进行排序。排序方法的最大特点是只利用了当前的同义词抽取方法,不需要人工参与和额外的语义知识。[结果/结论] 通过在真实数据集上进行验证,得出排序效果与抽取结果的规模呈正向关系的论点,即一个给定词汇的同义词抽取结果数量越多,排序的效果就会越好。  相似文献   

3.
 为解决搜索引擎结果繁杂而导致的浏览性不高的问题,提出一个基于用户行为学习的元搜索框架和结果聚类方法,并加以详细描述。利用该框架与方法,可以实时搜集用户行为进行推理学习,将学习到的有效知识存入知识库用以指导结果聚类,并随着用户的搜索过程不断调整完善。原型系统证明该方法是可行有效的。  相似文献   

4.
聚类搜索引擎发展现状研究   总被引:3,自引:0,他引:3  
分析研究搜索引擎发展轨迹及国内外聚类搜索引擎的发展现状,通过对国内外现有聚类搜索引擎功能的分析,提出“以用户为中心”的聚类2.0搜索是未来聚类搜索引擎,乃至搜索引擎的发展趋势。  相似文献   

5.
个性化跨语言学术搜索技术研究   总被引:1,自引:0,他引:1  
学术搜索引擎是一种行业化的搜索引擎,但因其缺乏个性化的服务,使得用户的学术文献检索效率低下,海量的数字学术资源得不到充分利用.本文使用Google翻译,研究基于机器翻译的中、英、俄、法和西班牙等五个语种跨语言学术检索.在跨语言学术搜索的基础上研究个性化检索技术,提出一种基于聚类的个性化信息检索方法:通过观察用户对搜索结果聚类的点击行为,生成并更新用户实时兴趣模型,采用余弦夹角公式计算用户实时兴趣模型与搜索返回结果的相似度,根据相似度大小,为用户提供个性化重排序的搜索返回结果.实验结果证明了提出方法的有效性.  相似文献   

6.
以携程网上消费者对酒店的文本评论为研究对象,通过对文本评论中的词语进行聚类,得到其中隐含的消费者最关注的酒店评价维度。为保证词语聚类的效果,引入语料库作为对比文档,通过分词、特征项表示、特征词编码标注、词义相似度计算以及基于DBSCAN的文本聚类过程,得到最后的评价维度,并以实例详细说明每个过程中所采用的方法及步骤。  相似文献   

7.
文献计量学中的共被引分析是一种基于参考文献的共现关系而建立共被引网络的分析方法,可用来展现引文的结构和聚类关系.将文献计量学中的共被引思想拓展到对互联网用户音乐收藏行为的分析中,进行音乐分类,是一种新的尝试.通过从某在线音乐网站随机选择500名网络用户作为研究样本,从他们的音乐收藏夹中提取歌手的共被引次数矩阵,计算Jaccard系数矩阵,进一步进行共被引分析,利用社会网络分析工具绘制歌手共被引网络.可以将这种方法进一步拓展到其他互联网文化消费领域,改进互联网文化消费的可视化搜索,挖掘互联网用户的消费兴趣,增强用户体验.  相似文献   

8.
聚类搜索引擎探究   总被引:1,自引:0,他引:1  
一批代表性的聚类搜索引擎的出现,使得聚类搜索引擎的优劣逐步为公众所知.采用聚类算法、重视结果的显示方式、关注用户提问信息、提供个性化服务均是聚类搜索引擎最显著的优点,应该引起足够的重视.针对过分依托原生搜索引擎、没有形成专用聚类算法、搜索速度相对较慢、聚类层次有限等现状,作者最后还对聚类搜索引擎的发展提出了一些建议,比如实现人工聚类与自动聚类结合、增加学术趋势分析功能、加强相关度研究等.  相似文献   

9.
赵学锋  汤庆  张睿  李岳 《图书情报工作》2012,56(12):124-129
以携程网上消费者对酒店的文本评论为研究对象,通过对文本评论中的词语进行聚类,得到其中隐含的消费者最关注的酒店评价维度。为保证词语聚类的效果,引入语料库作为对比文档,通过分词、特征项表示、特征词编码标注、词义相似度计算以及基于DBSCAN的文本聚类过程,得到最后的评价维度,并以实例详细说明每个过程中所采用的方法及步骤。  相似文献   

10.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

11.
同义关系是构建知识组织系统的重要方面。从词汇语义学角度对术语同义关系类型加以界定,采用词形还原工具Norm获得英文术语原形,获得同义词候选集,进而基于词形模糊归并模型确定同义关系。实验结果表明,基于词形的模糊归并有助于提高术语同义关系的构建效率。  相似文献   

12.
基于百科资源的多策略中文同义词自动抽取研究   总被引:3,自引:1,他引:2  
采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路.综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点.实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中.未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵.图1.表6.参考文献13.  相似文献   

13.
基于改进编辑距离的相似重复记录清理算法   总被引:1,自引:0,他引:1  
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。  相似文献   

14.
林国栋  蒋元霖 《编辑学报》2003,15(6):424-426
从词的内涵、外延、适用对象、适用语体等4个方面,对农科学术论文中一些常见的容易引起混淆的英文近义词进行分析,辨清它们之间的差别和用法。  相似文献   

15.
Due to the heavy use of gene synonyms in biomedical text, people have tried many query expansion techniques using synonyms in order to improve performance in biomedical information retrieval. However, mixed results have been reported. The main challenge is that it is not trivial to assign appropriate weights to the added gene synonyms in the expanded query; under-weighting of synonyms would not bring much benefit, while overweighting some unreliable synonyms can hurt performance significantly. So far, there has been no systematic evaluation of various synonym query expansion strategies for biomedical text. In this work, we propose two different strategies to extend a standard language modeling approach for gene synonym query expansion and conduct a systematic evaluation of these methods on all the available TREC biomedical text collections for ad hoc document retrieval. Our experiment results show that synonym expansion can significantly improve the retrieval accuracy. However, different query types require different synonym expansion methods, and appropriate weighting of gene names and synonym terms is critical for improving performance.
Chengxiang ZhaiEmail:
  相似文献   

16.
基于模式匹配的汉语同义词自动识别   总被引:7,自引:0,他引:7  
陆勇  侯汉清 《情报学报》2006,25(6):720-724
同义词的自动发现和识别在信息检索领域有着重要的研究意义和应用价值。为了提高同义词自动识别的效率,本文提出了从词典释义中使用模式匹配方法提取同义词。该方法首先对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法获取同义词。实验结果表明,利用模式匹配方法来自动发现同义词具有可行性和实用性。  相似文献   

17.
地方志门目名称存在大量同义词的现象。以明、清、民国时期的广东地区官修方志为例,对其门目名称中的同义词进行识别、分类与分析。广东官修方志门目名称存在下列同义词现象:音同义同、音异义同、音异义类、文字换位;其使用具有普遍性、随意性、通俗性、晦涩性、地域性、以名词为主、等义少类义多等特点。  相似文献   

18.
In the patent domain significant efforts are invested to assist researchers in formulating better queries, preferably via automated query expansion. Currently, automatic query expansion in patent search is mostly limited to computing co-occurring terms for the searchable features of the invention. Additional query terms are extracted automatically from patent documents based on entropy measures. Learning synonyms in the patent domain for automatic query expansion has been a difficult task. No dedicated sources providing synonyms for the patent domain, such as patent domain specific lexica or thesauri, are available. In this paper we focus on the highly professional search setting of patent examiners. In particular, we use query logs to learn synonyms for the patent domain. For automatic query expansion, we create term networks based on the query logs specifically for several USPTO patent classes. Experiments show good performance in automatic query expansion using these automatically generated term networks. Specifically, with a larger number of query logs for a specific patent US class available the performance of the learned term networks increases.  相似文献   

19.
针对Folksonomy存在模糊、同义字现象,在简要介绍Folksonomy相关研究基础上,深入探讨Folksonomy语义挖掘的两种模式——层次分类分析和三部图分析,认为两者的研究对象、表示Folksonomy的方法及研究目的是相同的,区别在于前者是将三元类层次结构所体现的父子关系作为挖掘模糊标签语义的依据,后者是通过构建一个用户-文档矩阵挖掘模糊标签的语义,最后指出研究与某个标签相关联的文档和用户网络可以揭示标签的不同含义。  相似文献   

20.
文本主观题自动阅卷的关键是提高考生答案文本和试题标准答案文本之间相似度计算结果的准确率。参考文本试题人工阅卷方法,提出一种结合人工制定文本相似标准、词语集合及词语次序和同义词的短文本相似度计算方法,设计并实现相应文本主观题阅卷系统。建立试题人工评分标准库,并在387道银行培训领域真实考题数据集上进行自动阅卷与人工阅卷结果对比实验。结果显示,文本试题自动阅卷结果与人工阅卷结果相比,完全相同的达到58%,准确率达到80%左右。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号