首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
中文词义消歧上下文最优边界问题研究   总被引:1,自引:0,他引:1  
为了选择最优的边界,采用交叉验证方法,将取得错误率最低的上下文边界确定为上下文最优边界,并应用此方法对SemEval-2007中文数据集进行处理,得出此数据集的上下文最优边界为[-2,+2].为了验证其结果的有效性,进一步采用SemEval-2007测试集进行消歧测试,结果表明采用交叉验证法确定的最优边界对词义消歧准确率有一定提升.同时对不同词性歧义词的最优边界也进行讨论.  相似文献   

2.
学术文献引文上下文自动识别研究   总被引:2,自引:2,他引:0  
[目的/意义] 引文内容分析能够帮助揭示文献引用关系的深层语义内涵,而引文上下文识别作为引文内容分析的基础显得尤为重要。[方法/过程] 梳理已有引文上下文研究的现状,总结当前引文上下文识别的不足,在此基础上归纳引文上下文识别的5类特征,并采用文本分类和序列标注两种方法开展引文上下文自动识别实验。[结果/结论] 实验结果表明,本文提出的特征能够很好地提升引文上下文识别效果,且基于文本分类的SVM分类效果要优于基于序列标注的CRF。  相似文献   

3.
陈涛  孙茂松 《情报学报》2007,26(1):77-83
语义词典在语言学和自然语言处理研究中占有相当关键的位置.语义词典的构造,通常有两类做法.一类是基于语言学家的主观判断,另一类则是基于机器的自动聚类.后者是本文所要研究的主题.本文基于大规模的语料库,利用自组织映射神经网络(SOM)对词典进行无监督的自动构造.首先从语料库中抽取待聚类词的上下文窗口中的词,并利用信息增益(Information Gain)对特征词进行选择,然后借鉴信息检索模型中的TFIDF计算特征向量中每一个特征的特征权重,最后将构造好的待聚类词的特征向量作为SOM的输入,经过网络的迭代计算将不同类别的词映射在SOM输出网格的不同结点.  相似文献   

4.
赵辉  刘怀亮 《图书情报工作》2013,57(11):120-124
为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短文本分类效果。  相似文献   

5.
一个构造良好的查询是信息检索质量的基本保证,语义查询扩展技术解决了传统信息检索系统不能很好理解用户查询意图的问题,在提高检索查全率的同时保证了检索准确率。本文以查询关键字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,以WordNet本体库和WordNet Domains扩展库作为消歧数据源,使用基于局部上下文和基于图论的两类无导词义消歧方法进行查询关键字到本体概念的映射,最后基于概念词汇关联完成基于语义的查询扩展。综合WordNet本体库和WordNet Domains扩展库中的各项知识源对查询词义进行判定,保证了词义消歧的精度;采用无导词义消歧实现查询词义的快速判定,保证了信息检索的实时性;根据查询关键词的多寡分别提出两类消歧方法,满足了各种查询需求。  相似文献   

6.
用词上下文向量来表达文本集内一个词语与其他词语之间的上下文关系,并在词上下文向量的基础上生成分类器中所有类别的类别特征向量,以及待分类文本的特征向量,最后由分类器给出待分类文本的所属类别。实验显示,在类别特征向量和文本向量中融入词语上下文关系有助于改善文本分类效果。  相似文献   

7.
基于标注语料库的有指导学习方法是词义消歧取得性能最好的方法,优于无指导学习方法和基于词典的方法.它的准确率极大地依赖于标注语料库的规模,而目前人工标注语料库数量极少,缺乏标注语料就成为制约词义消歧发展的瓶颈,如何生成大规模标注语料成为词义消歧研究热点.自举是解决上述问题的重要方法,它以小规模标注语料作为种子,运用机器学习算法生成大规模标注语料.本文对自举在词义消歧中的应用和关键问题进行介绍.首先对自举进行算法描述,然后分别从中英文词义消歧领域介绍自举的应用情况,最后对自举应用涉及的初始种子、自举参数、未标注语料集的选择和互联网应用等几个关键问题进行总结.  相似文献   

8.
BT863-Ⅱ英汉机器翻译中译文选择方法   总被引:1,自引:0,他引:1  
本文给出了BT863Ⅱ英汉机器翻译中,规则和统计方法并举的译文选择策略。基于规则的译文选择方法主要通过考察英语单词在一定上下文中的句法和语义特征,形成支持译文选择的规则;基于统计的译文选择方法是在目标语二元统计的基础上,针对待翻译的英语句子形成消歧矩阵,对消歧矩阵采用了一种贪心搜索策略进行译文选择。  相似文献   

9.
对双语术语抽取技术中的一项重要分支:基于可比语料库的双语术语抽取技术进行了综述分析.当前研究者采用的方法依据是"上下文相似"理论,即两个在源语言共现的词,对应到目标语言中的两个词也将共现.当前技术主要包含候选词的上下文特征的模型构造和上下文特征模型的优化.对已有的研究给出了一个初步的评价标准,分别对两项研究按照方法复杂度层次进行分析总结,指出存在的问题.最后对基于可比语料库的双语术语抽取技术的未来进行了展望.  相似文献   

10.
付媛  朱礼军  韩红旗 《情报工程》2016,2(1):053-058
为应对日益严重的姓名歧义现象给提高搜索引擎查全率和查准率带来的挑战,同时给姓名消歧方法研究提供参考建议,对研究现状和主要成果进行总结.首先,介绍研究姓名消歧的目的和意义.其次,对国内外现有姓名消歧方法研究进展进行梳理,主要方法包括基于特征的、基于机器学习的、基于社会网络的、基于网络知识资源的姓名消歧等多种方法来解决姓名歧义问题.最后,文章分析各种方法的特征和不足,总结姓名消歧待解决的问题以及未来的研究方向.  相似文献   

11.
[目的/意义] 为有效探测科技文献中潜在的研究热点,研究文献中关键词突发的特征条件,构建突发词识别模型对促进科研人员精确把握研究方向具有重要意义。[方法/过程] 获取各年度内关键词及词频,构建关键词-年度矩阵,将分析时间段划分为标准窗口、观察窗口和表现窗口,在观察窗口内利用多测度突发词探测模型识别具有突发特征的关键词;在表现窗口内利用LDA挖掘主题词汇作为热点词集合。设计突发词覆盖率指标,辅助滑动时间窗口法,计算不同时间窗口内突发词集合和热点词集合的覆盖率,验证模型识别准确性。[结果/结论] 3次滑动时间窗口,计算得到3次突发词覆盖率都在70%以上;与Citespace突发词的对照试验中,本模型3次覆盖率均大于前者,表明设计的突发词探测模型性能良好。  相似文献   

12.
与传统知识构建相比,集成情境知识构建(KAIC)具有许多新功能,已成为知识构建的理想目标。然而,KAIC从实施到实现,不仅需要通过KAIC核心过程的情境化方法和关键性技术来进行其体系框架设计,而且其实现还需要建立一个由情境识别获取系统、知识集成情境系统、集成情境的知识资源系统和知识服务系统组成的体系结构。为此,着重对具体实现的关键技术和集成情境知识模型构建进行比较系统研究,为建立一个有机集成情境的知识构建体系提供指导。  相似文献   

13.
Word embeddings and convolutional neural networks (CNN) have attracted extensive attention in various classification tasks for Twitter, e.g. sentiment classification. However, the effect of the configuration used to generate the word embeddings on the classification performance has not been studied in the existing literature. In this paper, using a Twitter election classification task that aims to detect election-related tweets, we investigate the impact of the background dataset used to train the embedding models, as well as the parameters of the word embedding training process, namely the context window size, the dimensionality and the number of negative samples, on the attained classification performance. By comparing the classification results of word embedding models that have been trained using different background corpora (e.g. Wikipedia articles and Twitter microposts), we show that the background data should align with the Twitter classification dataset both in data type and time period to achieve significantly better performance compared to baselines such as SVM with TF-IDF. Moreover, by evaluating the results of word embedding models trained using various context window sizes and dimensionalities, we find that large context window and dimension sizes are preferable to improve the performance. However, the number of negative samples parameter does not significantly affect the performance of the CNN classifiers. Our experimental results also show that choosing the correct word embedding model for use with CNN leads to statistically significant improvements over various baselines such as random, SVM with TF-IDF and SVM with word embeddings. Finally, for out-of-vocabulary (OOV) words that are not available in the learned word embedding models, we show that a simple OOV strategy to randomly initialise the OOV words without any prior knowledge is sufficient to attain a good classification performance among the current OOV strategies (e.g. a random initialisation using statistics of the pre-trained word embedding models).  相似文献   

14.
以中小企业中IC工作部门的设置、人员组成结构及高层对此项工作的态度等诸多现实问题为切入点,在阐述知识管理中情境的概念、特点和分类基础上,分析情境与知识管理的关系,对区域性企业KM与IC工作开展的现状和存在的问题进行调研。为在企业知识管理中系统有效地开展KM和应用情境,利用集成情境知识管理(KMIC)方法及目标,实现企业KMIC的关键技术,并构建企业KMIC系统,使KM和竞争情报工作更加切合本地企业的实际状况提供一定的佐证。最后证明企业的发展是由对IC工作的重视程度以及KMIC的效果来决定的。  相似文献   

15.
The application of word sense disambiguation (WSD) techniques to information retrieval (IR) has yet to provide convincing retrieval results. Major obstacles to effective WSD in IR include coverage and granularity problems of word sense inventories, sparsity of document context, and limited information provided by short queries. In this paper, to alleviate these issues, we propose the construction of latent context models for terms using latent Dirichlet allocation. We propose building one latent context per word, using a well principled representation of local context based on word features. In particular, context words are weighted using a decaying function according to their distance to the target word, which is learnt from data in an unsupervised manner. The resulting latent features are used to discriminate word contexts, so as to constrict query’s semantic scope. Consistent and substantial improvements, including on difficult queries, are observed on TREC test collections, and the techniques combines well with blind relevance feedback. Compared to traditional topic modeling, WSD and positional indexing techniques, the proposed retrieval model is more effective and scales well on large-scale collections.  相似文献   

16.
对于电视的实质所依据的新型文化域必须给予充分估计。电视媒体如何在新型有效的传播中对个体的言谈、生存方式有新的影响,如何成为“批判性思维、主动、民主以及质量的园地”而不是相反;这是对新语境中电视性质的一个测定。在全球化的全景下,中国电视本土语境的改观和对外来影响的本土化改造并足而进。中国电视很长时间内无理论与预见,在时代语境的大动静中,时而表现出“迷茫”。对此,与其说是节目制作质量的问题,不如说是观念与意识转型的困惑更为恰当。问题在于,这样的传统心理本身可能已与现代社会语境相悖。那么,到底由谁来监督与评估大众媒介的活动。我想,质疑会是不可遏止的。  相似文献   

17.
基于情境的知识共享与重用方法研究   总被引:2,自引:0,他引:2  
情境是知识共享和重用的重要基础,为此提出了基于情境的知识共享与重用方法。讨论了情境的概念与特点,提出了分层的多维情境建模方法。在分层的多维情境模型基础上,提出了基于主情境模型树的情境相似性评估方法。给出了基于情境的知识共享与重用系统的体系框架。通过基于情境的知识共享与重用方法,实现了根据用户情境的自适应知识匹配,提高了知识共享和重用效率。  相似文献   

18.
基于修正点互信息的特征级情感词极性自动研判   总被引:1,自引:0,他引:1  
[目的/意义]基于语料的情感词发现依语句上下文推断情感词极性,能显著提升情感分析的准确率,在面向领域的特征级情感分析任务中有重要应用价值。[方法/过程]对特征级情感极性研判问题展开探讨,提出基于点互信息的"特征-情感"对情感极性自动判别算法,算法借助大规模领域语料,根据观点表达"特征-情感"对与情感语义明确的种子词的共现关系,同时引入依存句法分析语句间的情感转折,通过修正经典的点互信息算法,对上下文约束下的用户观点表达进行褒贬预测。[结果/结论]实验证明,修正算法的性能显著优于词典匹配算法和经典的点互信息情感识别算法,不仅能够推断词典中未纳入的观点表达的情感指向,而且能较准确地推断"语境"中的情感词极性。在餐饮评论和数码产品评论两个评测语料集上,修正算法的F1宏平均指标分别达到0.827和0.878。该算法以领域相关的大规模语料为支撑,基于概率统计和句法分析,因数据获取便利,算法效率高,移植性好,具有普适性,尤其适用于面向领域的情感分析任务。  相似文献   

19.
This study investigated the amount and type of information sought during impression formation. Under conditions of either ambiguous or specific context, each subject interacted with a confederate whose background was either congruent or incongruent with the specific context. Analyses revealed de finite contextual eßects. More information, especially demographic or role information, was requested in the ambiguous context than in the specific context. Specific evaluations reflected the differences between the confederates’ background while overall evaluations did not discriminate as well. These results are interpreted as supporting a dvelopmental theory of acquaintanceship in which information seeking is integral to uncertainty reduction in interpersonal interaction.  相似文献   

20.
[目的/意义]对社会情景感知计算研究对象、特征及关键技术进行总结和分析。[方法/过程]基于文献调研,以社会情景的概念为出发点,从社会情景感知系统的视角,对社会情景获取、社会情景建模、社会情景推理、安全与隐私四个模块的关键理论和技术进行探讨。[结果/结论]总结社会情景的五个描述维度;论述社会情景感知计算与传统情景感知计算的区别与联系;对比分析社会情景感知计算关键技术的特点和适用性,为社会情景感知计算研究关键技术的选择与应用提供理论依据和参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号