基于领域特征和用户查询取样的Deep Web数据源描述方法 |
| |
引用本文: | 袁国华,寇晶晶,李芳.基于领域特征和用户查询取样的Deep Web数据源描述方法[J].图书情报工作,2017,61(15):138-145. |
| |
作者姓名: | 袁国华 寇晶晶 李芳 |
| |
作者单位: | 中国科学院文献情报中心 北京 100190 中国科学院大学 北京 100049 |
| |
基金项目: | 本文系国家社会科学基金项目"基于开放获取学术期刊的资源深度整合与揭示研究"(项目编号:16BTQ025)研究成果之一。 |
| |
摘 要: | 目的/意义]数据源描述(又称数据源摘要)是Deep Web集成检索领域存在的关键问题之一,数据源描述的质量直接影响着集成检索系统的检索效率和效果。本文提出一种基于领域特征和用户查询取样的数据源描述方法,以期为非合作环境下资源集成应用与研究提供参考和借鉴。方法/过程]该方法为异构非合作型数据源的离线取样方法,通过分析数据源和用于查询的领域主题属性,依次构建领域特征词集、初始特征词集和高频特征词集,并最终获得以高频特征词查询取样的数据源描述信息。结合流行的CORI算法,深入分析基于推理网络的用户查询与数据源描述的相关度计算方法,并基于此方法设计基于Lemur工具集的集成检索系统,验证了上述方法的有效性。结果/结论]所提方法在查全率和查准率方面均得到很好的表现。与其他方法相比,该方法在样本数据自动更新和运维管理方面具有明显成本优势和实用价值。
|
关 键 词: | 深层网络 数据源描述 查询取样 推理网络 |
收稿时间: | 2017-05-11 |
|
| 点击此处可从《图书情报工作》浏览原始摘要信息 |
| 点击此处可从《图书情报工作》下载免费的PDF全文 |
|