首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
李岩  徐硕  吴广印  干生洪 《情报工程》2017,3(3):116-124
互联网的高速发展使得新闻网页成为了网民了解国内外大事的首要选择,然而中国互联网存在着大量重复新闻网页的现象,对于提高用户体验以及新闻情报的分析造成了一定的困难。本文以SpotSigs 算法为基础提出了一种中文新闻网页相似性检测方法,在先行词选取阶段使用基础先行词与优化先行词相结合的选择策略,从而降低了网页中的导航栏、广告等噪音对中文新闻网页相似性检测的影响。以实际的中文新闻网页为实验数据集,通过准确率、召回率两项指标验证了基于SpotSigs算法的中文新闻网页相似性检测方法的有效性和可行性,特别在相似度阈值较低的情况下具有较好的性能。  相似文献   

2.
基于标题的中文新闻网页自动分类   总被引:1,自引:0,他引:1  
借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。  相似文献   

3.
针对目前网络上的标题党新闻,提出一种标题党新闻自动识别的算法。通过分析新闻网页构成的特点,抽取出新闻标题和新闻正文;以句子关系矩阵为基础,提出一种以语句为单位的主题句抽取算法;根据句子相似度计算结果来进行判断。实验表明,本方法的识别精度可达到80%,是一种有效的方法。  相似文献   

4.
互联网上免费的中文学术资源数量庞大,但实用的专门检索工具仍然或缺.文章以网络中文学术文献的识别与检索为目标,调查分析网络学术文献网页的特征,并以非学术文献网页作为参照,验证所发现特征的可靠性.研究结果显示,学术文献网页在关键词词频、链接数量和相关链接比例等特征方面与非学术文献网页具有明显差别,差异程度都大于75%,属于程度明显,能较好地用于区分学术文献网页与非学术文献网页,为今后系统开发学术文献网页的自动化识别工具提供了依据和理论支持.  相似文献   

5.
Web网页识别算法研究   总被引:7,自引:1,他引:6  
WWW上的文本信息挖掘工作是网络信息处理领域的新课题。本文研究了两种机器学习算法———Rocchio算法和Widrow Hoff算法在Web网页识别领域中的应用 ,并对几种网页识别算法进行了比较分析  相似文献   

6.
一个基于特征向量的近似网页去重算法   总被引:1,自引:0,他引:1  
在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near—Duplicate Web Pages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。  相似文献   

7.
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法.该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文.通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现.  相似文献   

8.
【目的】文章比较多个基于深度神经网络的中文新闻文本分类模型,旨在找到准确度较高的方法用以实际工作,为中文新闻文本分类提供更加高效的方法。【方法】对文本分类技术和中文新闻分类进行了梳理和归纳,对中文新闻文本的特征和预处理进行了阐述,详细介绍FastText算法、Bert分类算法、TextCNN算法和TextRNN算法。【结果】四种深度神经网络算法均可以应用于中文新闻文本分类,可以有效处理信息紊乱问题以及快速准确进行分类。【结论】通过对四种深度神经网络算法进行试验和效果对比,发现FastText模型在实际工作中的文本分类效果最为优异。  相似文献   

9.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典 匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

10.
针对传统的信息抽取方法在提取卷期目录链接时精度不高的问题,本文提出一种基于网页分块和链接特征的卷期目录链接提取方法.首先,以网页标签树的布局标签为最小粒度,提出一种原子网页分块算法,将网页分割为若干个相互独立、互不包含的内容块;其次,根据内容块的子树结构,提出一种原子内容块聚类算法,通过合并相似内容块对网页进行语义块划分;最后,提出一种卷期目录链接块的识别算法,通过融合链接文本相似度和基于Bayes的语义分析方法识别出卷期目录链接区域,从而实现链接的提取.实验结果表明,本文提出的方法能够有效提取卷期目录链接.  相似文献   

11.
基于用户查询关键词的网页去重方法研究   总被引:2,自引:0,他引:2  
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。  相似文献   

12.
为了减少或根除新闻网站中大量非主题信息的干扰,提出一种新闻网页抽取方法,采用基于熵的计算和DOM树的知识,从新闻网页中抽取主题文档和相关链接。  相似文献   

13.
The Internet continues to grow as an information and entertainment medium. Internet growth has implications for the news industry. Twenty-four hour news networks such as CNN and MSNBC regularly encourage viewers of their television programs to visit their Web sites. While visiting news Web sites, visitors are invited to participate in opinion polls. Unfortunately, these online opinion polls are not scientific and have little real news value. In spite of these limitations, news Web sites' Internet polls are often treated as serious topics in broadcast news discussions. This article examines media organizations' Internet online polls and critiques them as instances of symbolic representation and pseudo-events that have arisen largely out of the integration of print, broadcast, and Internet media.  相似文献   

14.
Researchers believe that the Web functions to supplement traditional news media. Little is known, however, about how traditional news media consumption influences Web use patterns. This study investigates how prior TV news exposure influences individuals' subsequent Web use by testing 3 theories that may explain individuals' information selection patterns—accessibility, instrumental utility, and personal issue importance. The results of this study reveal the strong effects of personal issue importance when selecting information on the Web, regardless of news coverage in traditional media. The findings also indicate higher levels of information selection when there is no prior exposure to news coverage.  相似文献   

15.
杨洸  佘佳玲 《新闻大学》2020,(2):102-118,123
算法已成为当今数字媒体技术的决定性因素,新闻推荐平台借助算法技术连接人与信息,为人们提供个性化的新闻服务。本研究基于算法和用户互动的视角,采用问卷调查方法,以新闻算法推荐平台的使用者为研究对象,探讨算法推荐的信息可见性、用户主动性和信息茧房效应。结果显示,新闻算法推荐整体上以用户为中心,在新闻可见性上,用户对趣味新奇性价值的认知感最强,新闻个性化程度凸显;用户对新闻推荐的使用上,以被动浏览行为最为普遍,自主性总体不高;用户对推荐算法技术有一定了解,表现出一定的算法素养;算法推荐对用户并未造成单纯的信息茧房效应,它同样可扩大受众接触资讯的范围,将用户带入更广阔的世界。最后,本文讨论了用户和算法之间的关系,发现两者不是彼此孤立的存在,而是始终处于相互响应、相互发展的状态。  相似文献   

16.
基于RSS的Web新闻主题聚合系统的设计与实现   总被引:5,自引:0,他引:5  
基于RSS的Web新闻主题聚合是信息处理领域内的一个新兴且有实用价值的方向。分析Web新闻主题聚合的基本问题,提出难点以及相关的解决方案,并在此基础上设计Web新闻主题聚合系统。  相似文献   

17.
针对典型的分布式UDDI网络模型中语义Web服务匹配策略存在的问题,通过对经典的弹性匹配算法进行扩展,提出使用GCSM语义距离算法、类别系数和级别系数来量化Web服务的匹配程度即相似度,使得匹配结果更接近请求者的请求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号