首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 406 毫秒
1.
针对目前食品安全问答系统准确率不高且无法满足智能化问答要求等问题,基于词向量相似度设计食品安全问答系统。采用深度学习方法构建食品安全领域知识库及词向量模型,结合近义词库提出问句相似度计算方法,将问句与知识库内所有问句进行匹配,返回相似度最高问句对应的答案。实验结果表明,该系统问答准确率达到80%,能满足食品行业用户的日常问答需求。  相似文献   

2.
百度知道中用户提出问题较短,采用常规基于空间向量的 TF-IDF 句子相似度计算、基于语义依存关系的句子相似度计算等方法往往很难较好完成其相似度计算。鉴于此,基于长度较短问句的特点,引入问题元和词模思想,对用户问题进行分解,并与传统相似度计算方法相融合,提出新的相似度计算方法。对于长度低于20 个词的问句,与传统 TF-IDF 方法相比,F1 值提高了 12%。  相似文献   

3.
问答系统是自然语言处理领域一个非常热门的研究方向,问题分类是问答系统非常重要的环节。传统问题分类需要人工制定特征提取策略并不断优化特征规则,该方法准确率不高且费时费力。传统卷积神经网络模型先通过卷积核提取能表示问句特征的向量,再经过max-pooling后得到一个特征值,并未考虑句子的结构信息,在训练时容易发生过拟合。针对上述问题,采用分段池化操作,引入句子结构信息,在不同分段上提取句子的主要特征并加入Dropout算法,提高模型的泛化能力,防止模型过拟合。实验结果表明,该方法能提高模型准确率,在TREC 6分类问题数据集上准确率高达89.2%,在银行57分类数据集上准确率也达到了64.5%。  相似文献   

4.
互联网的飞速发展为大众带来便利的同时也产生了大量冗余信息,利用自然语言处理技术对新话题文章进行提取,控制新话题中虚假新闻传播,可为舆情控制提供有效支持。提出一种基于词聚类信息熵的新闻提取方法,并对“一带一路”相关新闻语料进行实验。实验通过网络爬虫的方式获取相关报道,利用Pkuseg工具分词进行一系列预处理后训练生成Word2vec词向量,然后利用词频统计筛选出历史高频词进行K-means聚类,将聚类后的词簇作为随机变量计算当前文章的信息熵。若文章的信息熵高于设定阈值,则为新话题文章,需要重点关注。结果表明,该方法在阈值设置为0.65时,新闻提取结果的准确率可达到84%。  相似文献   

5.
以Halliday的系统功能语法为理论基础,通过定量方法对所收集新闻访谈语料中主持人和嘉宾所用问句的数量、不同类型、比例及所含有的不同语用内涵从语音、词汇、句法和会话层面进行分析探讨,揭示了主持人和嘉宾之间存在不均衡的权势关系。主持人的提问次数要远远多于嘉宾,并且多次通过重叠和打断嘉宾来控制话轮,此外主持人还在一般疑问句中使用降调,这都说明主持人对嘉宾拥有权势,处于强权势地位。嘉宾通过回答主持人提出的问题来配合主持人完成对话,处于弱势。主持人和嘉宾之间的不平等关系是通过问答的形式实现的。  相似文献   

6.
随着人工智能的快速发展,服务特殊领域的校园自动问答系统成为一个研究方向.自动问答系统涉及信息检索技术的应用,它是根据用户的提问,从问答库中快速匹配出相似问句反馈给用户的一种检索系统.该研究运用Lucene搜索架构,将中文问答采集平台采集到的问答数据库建立检索,对问题创建查询分析器,执行信息检索,从而快速获取候选问题集.论文详细阐明基于Lucene搜索架构对问答数据检索的实现方案及步骤.使用14万条数据测试了其搜索性能,查询平均耗时小于1 s,比MySQL数据库模糊检索效率高,匹配结果能按相关度排序并突出显示,能够提供高效灵活的海量问答检索服务.  相似文献   

7.
计算机科学中的问答系统(Question-Answer System,QAS)的研究以自然语言中的"疑问句"为研究对象,其中关于疑问句的类型分析是研究领域中三个主要研究内容之一;从另一方面看,自然语言中的疑问句一直都是语言学家关注的重点,现代汉语问句的类型分析在语言学研究中成果丰富。因此,在现代汉语问句类型分析角度两个领域产生了交叉研究的可能性,并在可行性方面有很大学术探讨空间。  相似文献   

8.
基于《知网》语义知识资源,提出一种基于问句相似度计算的问答社区问题去重方法。通过计算已有问题集合中问题间的语义相似度,将其中重复度较高的问题进行筛选并去除,从而提高用户获取所需信息的效率,改善用户体验。在“爱问知识人”的真实问题集上的实验结果表明:该方法获得了较好的去重效果。  相似文献   

9.
网上销售以多媒体方式展示产品,销售人员使用即时通讯工具进行客户服务。问答系统可以将销售人员从简单智能活动中解放出来,进一步提高生产效率和降低成本。系统由问题分析处理、信息检索、答案分析处理3大部分组成,问句与答案之间的相似度计算是整个系统的核心部分。系统对于超出范围的问句,使用人工坐席进行辅助。知识表示和智能Agent的应用,可以进一步减少对人工干预的依赖。  相似文献   

10.
在会话分析的理论框架内,以杨澜访谈录为文本分析的素材,通过分析访谈中问答毗邻对出现的数量、时长以及问句的性质,揭示了主持人与四位女嘉宾在访谈过程中的权势关系,包括他们的机构权势与非机构权势.分析的结果显示如果采访嘉宾的社会地位身份以及年龄有所差异,问答毗邻对的形式也会有所不同.问答毗邻对的数量、时长与性质的差异揭示了访谈中会话个体的权势关系.  相似文献   

11.
Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用,如何将web文档转换成数据挖掘所要求的格式,即web文档预处理是一项很重要的研究课题.本文的方法是:从Internet网上下载了大量的网页文件,将网页文件转换成文本文件,然后通过算法对这些文本文件中的数据进行词频统计,删除非用词,去掉高频词,对单词进行词根处理,建立用词词表,从而抽取用词,按字母排序生成词频索引,和字典文件进行对照,获取单词的ID,最后生成Reuters-21578的Database数据格式.这样就将web文档数据转换成标准的数据集,以便为数据挖掘中分类、聚类作好准备.  相似文献   

12.
为了改善真实网络数据集上自动问答系统的性能,定义出新的问题类别集合和通用的答案重新排序模型.问题分类器借助先验词典和语法分析,将语义和语法信息引入信息检索和机器学习方法,呈现为多种多样的训练属性,包括疑问词、中心动词、疑问词与中心动词依赖关系、中心助动词位置、中心名词、中心名词顶级上位词等.进而通过问题类别信息,对问答查询结果重新排序.实验表明:分类器能够精确实现真实网络数据集的问题分类,重新排序后的自动问答结果也能得到明显改善.这说明借助语义和语法信息,真实网络数据集上的自动问答系统等应用可以得到改善,显示出更好的性能.  相似文献   

13.
本利用信息源的熵比较研究英语、日语、汉语和哈萨克语的平均信息量。并根据英语章中字母出现的概率公式,对哈萨克语章中字母出现的概率进行了计算和统计分析。  相似文献   

14.
在中文信息处理中,句子相似度计算是一项基础而核心的研究课题,长期以来一直是人们研究的一个热点和难点.句子相似度计算在实际中有着广泛的应用,它的研究状况直接决定着其他一些相关领域的研究进展,如信息检索的相似句子匹配、自动问答的问题匹配与答案抽取等,句子相似度计算都是非常重要的环节.本文提出了一种基于依存关系匹配的句子相似度计算方法,利用词语内在概念和词语相互依存关系计算句子之间的相似度.结果表明,该算法能显著提高返回结果的准确率.  相似文献   

15.
关系抽取是构建如知识图谱等上层自然语言处理应用的基础。针对目前大多数关系抽取模型中忽略部分文本局部特征的问题,设计一种结合实体位置特征与多层注意力机制的双向LSTM网络结构。首先根据位置特征扩充字向量特征,并将文本信息向量化,然后将文本向量化信息输入双向LSTM模型,通过多层注意力机制,提高LSTM模型输入与输出之间的相关性,最后通过分类器输出关系获取结果。使用人工标注的百科类语料进行语义关系获取实验,结果表明,改进方法优于传统基于模式匹配的关系获取方法。  相似文献   

16.
南康客家话中的反问标记词"话起"是由"言说"动词引申虚化而来的,它常处于特定的重复回声问的语境之中,表"否定、意外、怀疑"等语义,比汉语普通话的反问标记词"难道"的使用范围要宽一些。  相似文献   

17.
中日现代语言通用汉字词各义项在两种语言中的使用情况一直是学界关注的难题。基于高频中日同形词的研究结果表明,利用BERT词向量技术对日语目标词义项统计的平均准确率达到了90%,最高达到97%;对汉语目标词义项统计的平均准确率达到了88.3%,最高也达到97%,利用词向量技术对中日汉字词汇语义开展计量研究具备可行性。同时研究还发现,传统词典义项设立的科学性、例句规范性和句长等因素都会对基于词向量的语义分析产生影响。  相似文献   

18.
将样本熵引入旋转机械故障诊断领域,结合形态滤波和样本熵,提出了一种新的转子故障特征提取方法.首先选用最简单的直线结构元素,对实测转子振动信号进行形态滤波降噪处理;然后计算降噪后信号的样本熵,包括转子正常、不平衡、不对中、油膜涡动和碰摩等五种工况的振动信号;最后将样本熵作为特征,对各种故障状态进行评价.转子系统故障诊断的实例验证了该方法的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号