首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
桂思思  张晓娟 《情报科学》2021,39(12):39-45
【目的/意义】查询意图歧义性对检索模型提出了挑战。针对查询意图歧义性程度,探讨了基于歧义程度的 多样化检索模型的检索效果。【方法/过程】将查询意图歧义性程度的表示方式分为序数变量或连续变量两种方式, 在此基础上,提出了基于三种排序策略的面向序数变量查询意图歧义性的多样化检索模型、基于查询重构的面向 连续变量查询意图歧义性的多样化检索模型,从而使得检索结果列表同时具有较高的覆盖率与新颖性。【结果/结 论】在公开数据集上,四个检索效果测评指标 α-nDCG@5、α-nDCG@10、α-nDCG@20 及 NRBP@20 表明,本文 提出的多样化检索模型优于基准实验,且获取准确的查询子主题能有效提升检索效果。【创新/局限】区分了查询意 图歧义性程度的两种表示方式,据此提出并验证了面向查询意图歧义性程度的多样化检索模型;然而限于实验运 行复杂程度,生成初始检索结果列表数据略少。  相似文献   

2.
【目的/意义】数据分类是数据挖掘研究的重要内容之一。数据分类时,由于单一分类算法分类性能的差异 性,使其不能很好地解决大部分的分类问题,探讨一种基于多类型分类器装袋技术的数据分类方法具有重要理论 意义和应用价值。【方法/过程】基于分类性能评价的准确率,使用五种不同类型的分类算法作为分类器,随机抽取 训练集后分别训练得到若干个弱分类器,然后采用自动优化加权方式,组合构建一个强的分类器。通过实验对五 种分类算法和装袋算法的分类准确率均值和标准差分别进行对比,得出各分类算法在四种数据集上分类性能的优 劣和稳定性。【结果/结论】在四个UCI数据集上的实验结果表明,与五种不同类型的分类算法相比,装袋算法不仅 在大部分数据集上都表现出很好的稳定性,而且具有更好的泛化能力。  相似文献   

3.
陆泉  刘婷  刘庆军  陈静 《情报科学》2019,37(10):126-132
【目的/意义】用户在进行文档内信息搜寻时,根据自身需求和阅读深入程度的不同,呈现出两种不同的阅 读行为——深阅读与浅阅读。自动识别用户的深浅阅读有利于改善当前对深、浅阅读区分存在主观性强、耗时耗 力的问题,对于研究文档内信息搜寻用户的个性化认知机制,优化用户信息搜寻体验也提供了很好的帮助。【方法/ 过程】本文根据前人对深、浅阅读的研究,利用K-means聚类算法构建文档内信息搜寻用户深、浅阅读行为的自动 识别模型,并用实验验证模型分类的准确度。【结果/结论】实验结果显示,深、浅阅读在注视点持续时长、眼跳距离、 眼跳方向和相邻注视点中心纵坐标距离这四个特征上有很大的差异,同时经过专家验证,K-means聚类模型识别 深、浅阅读总准确率片段数为84.95%,片段时长为94.32%,达到了自动、准确识别文档内信息搜寻用户的深、浅阅读 行为的效果。 关键词:深阅读;  相似文献   

4.
陈杰  马静  李晓峰  郭小宇 《情报科学》2022,40(3):117-125
【目的/意义】本文融合文本和图像的多模态信息进行情感识别,引入图片模态信息进行情感语义增强,旨在 解决单一文本模态信息无法准确判定情感极性的问题。【方法/过程】本文以网民在新浪微博发表的微博数据为实 验对象,提出了一种基于DR-Transformer模型的多模态情感识别算法,使用预训练的DenseNet和RoBERTa模型, 分别提取图片模态和文本模态的情感特征;通过引入Modal Embedding机制,达到标识不同模态特征来源的目的; 采用浅层Transformer Encoder对不同模态的情感特征进行融合,利用Self-Attention机制动态调整各模态信息特征 的权重。【结果/结论】在微博数据集上的实验表明:模型情感识别准确率为 79.84%;相较于基于单一文本、图片模 态的情感分类算法,本模型准确率分别提升了 4.74%、19.05%;相较于对不同模态特征向量进行直接拼接的特征融 合方法,本模型准确率提升了 1.12%。充分说明了本模型在情感识别的问题上具有科学性、合理性、有效性。【创 新/局限】利用 Modal Embedding 和 Self-Attention 机制能够有效的融合多模态信息。微博网络舆情数据集还需进 一步扩充。  相似文献   

5.
曲琳琳 《情报科学》2021,39(8):132-138
【目的/意义】跨语言信息检索研究的目的即在消除因语言的差异而导致信息查询的困难,提高从大量纷繁 复杂的查找特定信息的效率。同时提供一种更加方便的途径使得用户能够使用自己熟悉的语言检索另外一种语 言文档。【方法/过程】本文通过对国内外跨语言信息检索的研究现状分析,介绍了目前几种查询翻译的方法,包括: 直接查询翻译、文献翻译、中间语言翻译以及查询—文献翻译方法,对其效果进行比较,然后阐述了跨语言检索关 键技术,对使用基于双语词典、语料库、机器翻译技术等产生的歧义性提出了解决方法及评价。【结果/结论】使用自 然语言处理技术、共现技术、相关反馈技术、扩展技术、双向翻译技术以及基于本体信息检索技术确保知识词典的 覆盖度和歧义性处理,通过对跨语言检索实验分析证明采用知识词典、语料库和搜索引擎组合能够提高查询效 率。【创新/局限】本文为了解决跨语言信息检索使用词典、语料库中词语缺乏的现象,提出通过搜索引擎从网页获 取信息资源来充实语料库中语句对不足的问题。文章主要针对中英文信息检索问题进行了探讨,解决方法还需要 进一步研究,如中文切词困难以及字典覆盖率低等严重影响检索的效率。  相似文献   

6.
【目的/意义】筛选出质量高的评论,优化电商平台的推荐智能排序机制,节省消费者搜寻时间。【方法/过 程】以评论信息有用性为研究对象,使用七种目前比较常用的机器学习算法,构建网络评论信息有用性预测模型。 【结果/结论】评论信息有用性预测模型为非线性模型,随机森林和决策树算法的预测准确率比较理想,其中评论回 复是预测模型中最重要的影响因素。  相似文献   

7.
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类 时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方 法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高 阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明, CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题 发现。  相似文献   

8.
基金项目评审管理中智能交互式文档检索   总被引:4,自引:0,他引:4  
讨论了非结构化文档信息的检索模型,分析了传统交互式信息检索方法,提出了面向基金项目文档查询的智能交互式信息检索过程和处理流程。基于用户评价项目文档的反馈信息,采用ID3算法、CLCC算法和SVM分类函数分别学习用户查询的潜在意图和目标,并应用所学习的规则知识或分类函数支持项目文档查询。以某基金评审管理中项目文档的查询为例进行了实验计算与分析。  相似文献   

9.
基于关键词的文档层次查询   总被引:1,自引:0,他引:1  
文档查询是科学工作中的重要环节.从实现机理采看,文档查询是一种核心就是构建查询语句即设计查询界面及向数据库查询语句转化.提出了一种面向文档查询的查询树概念,将每个叶结点对应于一条SQL语句,而分支结点则表示子结点之间的并交差集合运算关系和其他运算关系,便于表达复杂文档查询要求.设计了查询树向SQL语句转化算法,将整个查询树合并为一条SQL语句,充分发挥DBMS 查询优化功能.  相似文献   

10.
冀鸿 《情报科学》2019,37(6):141-145
【目的/意义】通过分析高校教学人员信息查询行为的特点,探索教学信息查询的影响因素,帮助改进高校 教师教学信息素养教育,创新教学培训方法。【方法/过程】通过问卷调查和深度访谈的方式获取高校教师在教学过 程中信息查询行为的相关数据,分析其行为特点,并应用扎根理论方法对数据进行编码分析,得出影响高校教师教 学信息查询行为的因素。【结果/结论】研究发现教学任务、工作环境、个体特征和信源特征对高校教师教学信息查 询行为具有显著影响,并根据调研分析和扎根研究结果提出了完善高校教师教学信息查询行为的对策。  相似文献   

11.
高欢  那日萨  杨凡 《情报科学》2019,37(11):48-52
【目的/意义】准确挖掘消费者在线评论情感倾向,对于改善商家服务具有重要意义,而情感倾向预测的准 确性仍需提高。【方法/过程】文中设计基于集成学习的在线评论情感分类算法,即以N-gram算法分析在线评论词 语特征,结合情感词典构造文本特征,利用逻辑回归、Light GBM等机器学习方法为基础的集成学习进行训练,实现 在线评论情感分类。【结果/结论】实现了评论的情感倾向预测,在电脑评论数据集,较之于经典的SVM算法和无监 督类算法,该模型的分类衡量指标F1值分别提高了10%到30%不等。同时,在酒店、图书等不同领域的数据集上显 示,该方法的分类准确性仍具有上述效果,证明了该方法具有领域移植性。  相似文献   

12.
雷晓  常春  刘伟 《情报科学》2021,39(1):135-141
【目的/意义】为保证叙词表术语收录的完整性,需要及时将领域出现但未收录的新术语补充收录到叙词表 中,结合候选词的时间及文档词频特征,从时间序列角度探索新术语的分布情况以指导新术语遴选是值得研究的 问题。【方法/过程】文章主要对词汇文档词频对应的时间序列进行研究,将时间序列进行词频归一化及时间等长预 处理,引入k-means聚类算法,对候选词汇进行基于时间序列趋势变化的聚类,探索术语以及非术语趋势变化的规 律,进而总结新术语应该满足的趋势变化特征。【结果/结论】通过聚类研究,总结得出新术语普遍处于增长趋势。 实证将处于增长状态的候选词汇遴选出来,经过专家判断,该方法可以有效从候选词汇中遴选出其中能补充到叙 词表中的新术语,该方法有比较高的准确率。【创新/局限】创新之处表现为叙词表新术语的遴选中同时考虑了时间 变化和文档词频因素,局限于数据处理规模,实证中只统计了论文关键词的词频数据。  相似文献   

13.
变异遗传散布控制执行算子的数据库分类查询   总被引:1,自引:0,他引:1  
为提高数据查询的寻优能力和查询准确度,对数据库查询进行优化改进。提出一种新型的变异遗传散布控制执行算子数据库分类查询算法。设计遗传散布执行算子,实现对遗传算法数据库查询中的迭代控制,通过定义数据库查询散布值,通过对数据文本的最佳特征提取,通过散布分类查询系数的控制遗传迭代循环,对遗传算法的变异处理,实现最优数据信息相关匹配,可以很好地指导数据查询结果,实现数据库查询的准确性和有效性。仿真实验表明,新算法可以提高半连接下分布式数据库查询的效率,特征呈现高聚敛性匹配,数据查询特征相关匹配度达到97.3%,比传统算法提高了25.6%,寻优时间较传统算法大幅缩短。算法有效提高了数据库查询准确率和效率,具有较强的应用价值。  相似文献   

14.
高亚琪  王昊  刘渊晨 《情报科学》2021,39(10):107-117
【目的/意义】针对当前利用计算机管理图像资源存在图像语义特征表达不足等问题,探索和分析了特征及 特征融合对分类结果的影响,提出了一种提高图像语义分类准确率的方法。【方法/过程】本文定义了四种图像风 格,将图像描述特征划分为三个层次,探究特征融合的特点,寻求能有效表达图像语义的特征。分别采用SVM、 CNN、LSTM 及迁移学习方法实现图像风格分类,并将算法组合以提高分类效果。【结果/结论】基于迁移学习的 ResNet18模型提取的深层特征能够较好地表达图像的高级语义,将其与SVM结合能提高分类准确率。特征之间 并不总是互补,在特征选择时应避免特征冗余,造成分类效率下降。【创新/局限】本文定义的风格数目较少,且图像 展示出的风格并不绝对,往往可以被赋予多种标签,今后应进一步丰富图像数据集并尝试进行多标签分类。  相似文献   

15.
邓卫华  张宇  易明 《情报科学》2018,36(4):130-137
【目的/意义】为了应对在线口碑信息过载问题,提高口碑信息传播效率,对在线口碑信息进行分类描述,帮 助企业进行口碑信息管理以及用户优化信息采纳决策。【方法/过程】首先通过文献整理和专家咨询,梳理在线口碑 信息分类研究成果,然后运用演绎归纳法,选取基于认知视角的分类指标,构建四象限分类体系,最后以携程网如 家酒店为例进行应用研究,探讨基于酒店评论的在线口碑信息内容的结构和类型特征。【结果/结论】应用研究结论 有三:现行酒店口碑中“启发式&客户呈现类”信息内容比重偏多;图片类信息元素是在线口碑信息内容的重要组 成,但目前功能有所局限;客观性信息在本例中有效性偏高,体现了以如家酒店为代表的经济型酒店口碑信息结构 特征。  相似文献   

16.
目的:探讨C4.5决策树算法结合主成分分析法(PCA)在新疆高发病食管癌X钡剂造影图像分类中的应用。方法:选取新疆高发病食管癌图像200张,其中蕈伞型和溃疡型图像各100张。对图像进行归一化、去噪和空间转换等预处理;对图像进行二尺度小波变换提取图像的低频信息,然后对其进行灰度共生矩阵法提取图像的特征;采用主成分分析(PCA)法对所提取的特征进行筛选;通过构造决策树C4.5算法分类器来验证特征的分类能力。结果:使用决策树C4.5算法分类器,对主成分分析获取的特征及综合特征进行分类。PCA选择的特征分类准确率为95%;使用综合特征分类准确率为80%。结论:综合特征的分类准确率与PCA选择的特征相比较低,表明在进行分类时,冗余特征可能会降低分类准确率;而本研究采用PCA选择后的特征分类准确率较高,表明该算法能有效减少冗余特征,弥补了过高维数的特征向量易引起维数灾难的问题,从而使得分类准确率得到了提高。一定程度上为后续的其它组织器官的特征提取提供了依据。  相似文献   

17.
余本功  王胡燕 《情报科学》2021,39(7):99-107
【目的/意义】对互联网产生的大量文本数据进行有效分类,提高文本处理效率,为企业用户决策提供建 议。【方法/过程】针对传统的词向量特征嵌入无法获取一词多义,特征稀疏、特征提取困难等问题,本文提出了一种 基于句子特征的多通道层次特征文本分类模型(SFM-DCNN)。首先,该模型通过Bert句向量建模,将特征嵌入从 传统的词特征嵌入升级为句特征嵌入,有效获取一词多义、词语位置及词间联系等语义特征。其次,通过构建多通 道深度卷积模型,将句特征从多层级来获取隐藏特征,获取更接近原语义的特征。【结果/结论】采用三种不同的数 据对模型进行验证分析,采用对比相关的分类方法,SFM-DCNN模型准确率较其他模型分类性能有所提高,这说 明该模型具有一定的借鉴意义。【创新/局限】基于文本分类中存在的一词多义、特征稀疏问题,创新性地利用Bert来 抽取全局语义信息,并结合多通道深层卷积来获取局部层次特征,但限于时间和设备条件,模型没有进行进一步的 预训练,实验数据集不够充分。  相似文献   

18.
孙笑明  李瑶  王成军  刘斌  赵升 《情报科学》2019,37(4):116-121
【目的/意义】为了实现高质量的数据清洗目标以提高专利大数据的利用效率,发明人姓名消歧成为了目前 一个亟待解决的关键性问题。【方法/过程】本文提出了基于专家研讨思想的发明人姓名消歧算法,即首先根据综合 相似度阈值将消歧过程中产生的发明人姓名歧义分为确定性歧义和非确定性歧义;然后对确定性歧义直接修正, 同时,引入专家研讨思想,通过群体智慧将非确定性歧义转化为确定性歧义进行消歧。【结果/结论】以国内医药行 业专利数据为实例的分析表明,与以往单纯的机器消歧算法相比,该消歧算法从准确率和消歧时间两个维度均具 有显著改进。  相似文献   

19.
为了实现高质量的数据清洗,提升专利数据构建网络的准确性,发明人的姓名消歧已经成为目前国内外众多研究者重视的关键性问题。本文根据中文姓名的特殊性,选取专利数据中分层抽样采集到的400个姓名对,使用半监督学习算法,以特征向量(如分类号相似度)为信息提取源,构造基于决策树C4.5算法的分类模型,识别姓名歧义问题,并对分类模型的准确率与可靠性进行了评估。以国内通讯行业专利数据为实例的研究表明:采用该分类模型进行清洗能够有效提升数据清洗的效率和精确度。  相似文献   

20.
张艳琼  蒋勋  徐绪堪 《情报科学》2018,36(10):30-35
【目的/意义】基于层次粗糙集的突发事件检索模型为不同层次的应急管理人员提供具有不同粒度的检索 需求,提高应急案例检索的科学性和准确性,在应急响应决策中发挥重要作用。【方法/过程】根据突发事件的类型 提取出突发事件属性特征并进行合理地表示;分析突发事件特征属性,构建突发事件属性概念层次树,建立各个属 性值的空间结构关系;采用层次粗糙集技术构建突发事件多粒度检索模型。【结果/结论】所构建突发事件检索模 型注重用户查询的抽象度与模糊性,可以实现不同粒度的检索需求,为制定应急预案和突发事件快速响应提供信 息支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号