共查询到19条相似文献,搜索用时 124 毫秒
1.
一种智能型的信息检索方法:隐含语义索引法 总被引:3,自引:0,他引:3
介绍了一种新的自动索引和检索方法——隐含语义索引法。隐含语义索引法是一种全自动的智能索引方法,通过挖掘文本与词汇之间的隐含关系来达到提高检索效率的目的。 相似文献
2.
3.
4.
5.
阐述分布式表征的意义,认为分布式表征可以按语义提取出相似的词并抓住语境。介绍分布式表征的语义关系、随机索引和评价方法等机制。讨论分布式表征的使用,即随机检索如何有效检索相关文本文件。 相似文献
6.
数据库的索引路径优化选择是实现对Deep Web数据库的深度访问和安全访问的关键。传统方法中对Deep Web数据库的路径选择采用关键字搜索方法,根据关键字罗列出所有可能复合信息的数据,当出现歧义特征时,数据索引准确度不高。提出一种基于语义高斯边缘化的数据库索引路径选择方法。构建Deep Web数据库的特征模型,计算节点与关键词的匹配度,得到高斯边缘化路径控制目标函数,把语义相似度分解为用户查询意图的相关性指向函数,实现高斯边缘化路径控制。将数据库的预测控制指令输入序列进行变量耦合加权,与邻阶跨层链路进行均衡处理,设置语义高斯边缘化索引复激活函数,提高对数据库的索引性能,实现路径优选。仿真结果表明,该算法能提高数据库的查准率,减少查询时间,实现对Deep Web数据库高效安全访问。 相似文献
7.
8.
基于潜在语义索引的文本结构分析方法的研究 总被引:4,自引:0,他引:4
文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本检索、文本过滤以及文本摘要的精度。通过描述文本的物理结构和逻辑结构以及文本分析的背景,将潜在语义索引引入文本结构分析中,提出了基于潜在语义索引的层次分析方法,该方法保证了层次划分的有序性和聚合性,可操作性强,便于解释,并给出了在文本检索、文本过滤和文本摘要中的应用。 相似文献
9.
基于潜在语义索引和遗传算法的文本特征提取方法 总被引:9,自引:0,他引:9
本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singular Value Deccvaposition)可以有效地降低向量空间的维数,但通过维数约简后的文本特征仍要保持在数百维左右,因此本文采用遗传算法在此基础上继续降维。实验结果表明,这两种方法结合可以极大的降低文本向量空间的雏数,并能提高分类准确率。 相似文献
10.
11.
基于本体的文本信息检索研究 总被引:5,自引:0,他引:5
本文对如何构建基于本体的文本信息检索系统进行了探讨.并认为,利用反映概念之间关系的领域本体指导主题标引,利用反映实体之间关系的领域本体指导实体关系标引,并以本体的形式表示文档替代物和查询表达式,可以进一步提高文本信息检索系统的性能。 相似文献
12.
In this paper we present a theoretical model for understanding the performance of Latent Semantic Indexing (LSI) search and retrieval application. Many models for understanding LSI have been proposed. Ours is the first to study the values produced by LSI in the term by dimension vectors. The framework presented here is based on term co-occurrence data. We show a strong correlation between second-order term co-occurrence and the values produced by the Singular Value Decomposition (SVD) algorithm that forms the foundation for LSI. We also present a mathematical proof that the SVD algorithm encapsulates term co-occurrence information. 相似文献
13.
Rocchio relevance feedback and latent semantic indexing (LSI) are well-known extensions of the vector space model for information retrieval (IR). This paper analyzes the statistical relationship between these extensions. The analysis focuses on each method’s basis in least-squares optimization. Noting that LSI and Rocchio relevance feedback both alter the vector space model in a way that is in some sense least-squares optimal, we ask: what is the relationship between LSI’s and Rocchio’s notions of optimality? What does this relationship imply for IR? Using an analytical approach, we argue that Rocchio relevance feedback is optimal if we understand retrieval as a simplified classification problem. On the other hand, LSI’s motivation comes to the fore if we understand it as a biased regression technique, where projection onto a low-dimensional orthogonal subspace of the documents reduces model variance. 相似文献
14.
15.
《Information processing & management》2005,41(4):777-787
Latent Semantic Indexing (LSI) uses the singular value decomposition to reduce noisy dimensions and improve the performance of text retrieval systems. Preliminary results have shown modest improvements in retrieval accuracy and recall, but these have mainly explored small collections. In this paper we investigate text retrieval on a larger document collection (TREC) and focus on distribution of word norm (magnitude). Our results indicate the inadequacy of word representations in LSI space on large collections. We emphasize the query expansion interpretation of LSI and propose an LSI term normalization that achieves better performance on larger collections. 相似文献
16.
单汉字索引是中文全文检索索引技术中一个主要方法,此方法在索引的空问和检索的效率方面都存在不足。本文引入单元词索引,并分析试验数据,表明引入单元词索引后,索引的空间效率和检索的时间效率均有提高。 相似文献
17.
18.
基于潜在语义分析的影响自然语言检索查准率指标因素的评述 总被引:1,自引:0,他引:1
潜在语义分析是自然语言使用于情报检索系统的理论基础,以此理论建构的空间向量模型是评判检索系统性能优良与否的知识工具。阐述了潜在语义标引(LSI)的基本内容、LSI下影响自然语言检索查准率的因素及向量空间模型检索软件的运行机制。此评述对网络化的情报检索技术的发展起到了一定的参考作用。 相似文献
19.
数字图书馆是传统图书馆在信息时代的发展与完善,目前已成为用户获取信息的重要渠道,但由于采用基于关键词的信息检索,缺乏对用户查询语言的深层次理解和分析,难以满足实际的需要.笔者在分析数字图书馆中存在的一系列问题的基础上,融合本体技术构建了基于本体的数字图书馆语义检索模型,并详细阐述了模型中各个模块的主要功能及其实现策略.实验结果表明,该模型取得了很好的预期效果,显著提高了信息检索的效率、准确度和知识获取的深度与广度. 相似文献