首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 328 毫秒
1.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。  相似文献   

2.
浅议英汉思维差异对翻译的影响   总被引:1,自引:0,他引:1  
本文从思维和语言的关系入手,通过英汉思维形态及其在语言上的表现对比,揭示英汉思维差异对中国人从事翻译工作的影响,进而探索翻译中排除固定思维方式消极干扰的方法和途径。  相似文献   

3.
基于Nutch的Web网站定向采集系统   总被引:3,自引:0,他引:3  
在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。  相似文献   

4.
搜寻引擎必须以crawler程式(又称spider程式)来自动抓取网页并建立索引,如果crawler程式仅仅循着网页所提供的超连结来搜寻网页并抓取内容,称为一般性的crawler程式;如果不论网页是否提供超连结,crawler程式会自行计算并找到网页的所有内容并加以抓取,此种crawler则称为深度crawler。而crawler抓取网页内容的步骤可以细分为「取得资料」及「储存并建立索引」二大步骤。在「取得资料」阶段中,深度crawler虽然是自行透过演算法来取得网页的所有内容,但本文认为仍不至于构成非法存取(unauthorized access)。此外,不论是一般的crawler或是深度crawler,如果取得网页内容时会耗费网站资源而干扰网站的正常运作,就可能构成如美国eBay案中讨论的财产侵害(trespass to chattel)。在「储存并建立索引」阶段中,原则上应该不会侵害网页拥有者之重制权。然而,有些搜寻引擎(例如Google)将其取得的内容以「库存页面」(cache)的方式允许使用者存取,此时即有争议发生。但本文以为,由于搜寻引擎的主要目的是在使网路使用者更容易接触网页,所以此种「重制」与「散布」行为原则上应有著作权法「合理使用」原则的适用,故不会构成侵害著作权,但仍应考虑搜寻引擎与原网站之间是否处于竞争关系,以及所抓取之资料量占原网站之比例等因素综合判断。要解决搜寻引擎与网站间可能发生的法律争议,除可以强化现行的robot exclusion标准外,网站也可以考虑增强自动过滤crawler的功能,以杜绝争议。  相似文献   

5.
世界图书出版公司北京公司通过版权贸易获得下列图书的出版、发行权: 《Business/商务英语》(英汉对照)[美]S·艾布拉姆斯 H·G·韦尔斯著 沈瑞年译注 美国ITP图书公司出版本书附有录音带一盒。 《Business:Banking/银行商务英语》(英汉对照)[美]英语服务中心著沈瑞年译注 美国ITP图书公司出版本书附有录音带一盒 《Business:International Trade/国际贸易商务英语》(英汉对照)[美]英语服务中心著 沈瑞年译注美国ITP图书公司出版 本书附有录音带一盒 《Computer Science/计算机科学英语》(英汉对照)  相似文献   

6.
模糊性是人类语言的客观属性.在人类言语交际中,有些数词超越了确指的范畴,呈现出语义上的模糊性.英汉两种语言中的数词都存在模糊性.本文从跨文化传播的角度探讨英汉两种语言中数词的模糊性,分析其现象、特点以及影响因素.  相似文献   

7.
针对专利资源,研究一种有效地从专利数据库中获取高质量双语对译语料的方法.该方法利用网页的URL命名特点获取专利数据的详细网页,以实现网页的批量下载,并通过网页解析,采用正则匹配表达式提取出网页上的所需信息,合并数据后形成双语对照的语料数据库.  相似文献   

8.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

9.
针对网站频道和网页的特点,提出了选择网站频道关键词的方法.介绍了网页抓取、正文提取和词语切分的预处理过程.关键词权值的计算除了词频、位置,也包括了HTML标签.实验结果表明,系统选取的关键词有助于了解网站频道的内容.  相似文献   

10.
首先介绍网络词典的发展现状,然后结合有道词典论述版权购买类、网页抓取类和维基架构类三类词库的优点和局限,最后从设计的主体间性入手探讨如何发挥编者、技术人员和用户三类设计主体的优势以实现网络词库配置的整合和优化。  相似文献   

11.
利用引用信息的关键词提取   总被引:1,自引:0,他引:1  
提出一种利用引用信息提取关键词的新方法,将候选词项与引用文献之间的关系抽象为二部图,使用Co-HITS方法迭代计算词项重要性得分至收敛,选出得分最高的词项作为关键词。用ACM数据库中主分类为“信息系统”的论文摘要作为数据集进行评测,结果显示本文所提出的方法优于同类基于图模型计算词项重要度的方法,适用于科学文献和其他具有链接关系的文本集合。在考虑引用信息的情况下,所提取的关键词不但概括原文还能体现原文受到外界关注的内容要点。  相似文献   

12.
在综合分析国内外政务网站评价方法的基础上,利用SocSciBot软件对科技部门户网站科技网群栏目内的地方科技子站的页面进行链接下载,构建社会网络分析数据集,围绕科技网群进行中心性分析、核心-边缘分析和聚类派系分析,从结构关系的角度揭示科技网群内部之间的联系,为下一步科技网群的建设提出参考建议。  相似文献   

13.
[目的/意义]传统节日文化表达的复杂性,往往难以从中挖掘出更多的深层含义,本研究利用知识组织方法,构建标签系统对传统节日文化知识进行整理与表达,挖掘节日文化背后的隐性知识。[方法/过程]首先设计和定义传统节日文化标签系统的结构与属性,其次爬取并整理了一定网络数据,最后从多个维度挖掘其背后的隐性关联。[结果/结论]提出基于传统节日文化标签系统的隐性知识挖掘方法,实验结果与客观规律相符,证明其具有一定的有效性和可靠性。  相似文献   

14.
[目的/意义] 在线医疗社区用户画像能够精练化提取患者需求、可视化描述患者特征,有助于平台管理者制定更精准的信息服务策略。[方法/过程] 在梳理在线医疗社区用户画像研究成果的基础上,提出一种在线医疗社区用户画像构建框架,并爬取百度贴吧中糖尿病社区用户数据,综合采用档案清单、复合图形、语言描述和词云方法,实现了具有4个维度和12项标签的在线医疗社区用户画像构建。[结果/结论] 该理论框架及实现方法有助于信息精准推荐、改善患者体验、提升决策质量,为在线医疗社区用户画像构建与应用提供了理论与实践指导。  相似文献   

15.
微博客用户特性及动机分析——以和讯财经微博为例   总被引:1,自引:0,他引:1  
以国内财经网站和讯微博为例,使用计量学方法,对用户特性进行统计分析,并使用可视化软件Pajek进行可视化分析。研究表明,微博客用户的特性,关注者数、被关注者数和博文数均具有统计特性,地域差异明显;另外,两种类型的用户群体之和占用户总体的近90%,具有很强的代表性,为深入研究微博客用户行为提供参考。  相似文献   

16.
[目的/意义] 在基于社会网络的用户画像研究中,针对传统用户建模难以处理复杂网络关系,群体构建多基于内容,以及群体相似度低或紧密性差的问题,提出基于网络结构和文本内容的群体画像构建方法。[方法/过程] 首先,采用卷积神经网络方法,融合网络结构和文本内容两方面特征将网络用户表示成空间向量,其次,在k-means算法基础上结合模块度计算方法,对空间向量进行聚类,然后,在爬取的中英文数据集上分别进行对比研究,最后,从中文数据集中选取1 000名重要性用户进行实例分析。[结果/结论] 实验结果表明,该方法的密度值比基于内容的方法平均增加0.105,熵值比基于结构(含基于结构和内容)的方法平均减少0.955,实例分析进一步说明文中方法的可行性。  相似文献   

17.
[目的/意义] 对"十三五"时期信息资源建设实践进展和研究的代表性成果进行梳理和分析,以了解和掌握"十三五"时期我国信息资源建设领域实践发展现状和理论研究进展,为我国"十四五"时期信息资源建设的研究提供参考和借鉴。[方法/过程] 通过网络调查,对"十三五"时期关于信息资源建设的文件、法律以及不同等级的实践项目成果报导进行检索和梳理,总结国内信息资源建设实践现状。以CNKI、万方和维普3个学术数据库收录的"信息资源建设"主题的论文为基础,利用定性与定量相结合研究方法,对该领域理论研究热点进行统计,筛选出相关主题的核心文献进行研读,并对相关主题文献创新性观点和研究存在问题进行归纳和总结。[结果/结论] 认为"十四五"时期,我国信息资源建设实践和理论研究中以用户/读者为中心、追求服务效能的趋势将得到加强;注重在社会数字化转型中的信息资源建设新课题研究;信息资源共建共享平台研究将更加深入;信息资源建设中新技术应用风险评估及其规避问题将得到进一步探讨等。  相似文献   

18.
The explosion of multimedia content in social media networks raises a great demand of developing tools to facilitate producing, sharing and viewing media content. Flickr groups, self-organized communities with declared common interests, are able to help users to conveniently participate in social media network. In this paper, we address the problem of automatically recommending groups to users. We propose to simultaneously exploit media contents and link structures between users and groups. To this end, we present a probabilistic latent topic model to model them in an integrated framework, expecting to jointly discover the latent interests for users and groups and simultaneously learn the recommendation function. We demonstrate the proposed approach on the dataset crawled from Flickr.com.  相似文献   

19.
[目的/意义]为了深入了解科研众筹平台中的项目情况,本文对科研众筹项目的基本特征、研究主题和不同类型科研众筹项目的属性对比进行研究。[研究设计/方法]首先对科研众筹的起源、价值和运作模式进行了梳理;随后爬取了科研众筹平台Experiment的项目信息,并对该平台中科研项目的发起者、背书者、项目记录、所属学科、资助情况等进行特征描述;基于LDA模型对科研众筹项目主题进一步细化,并对不同资金筹集和不同主题分类情况下的科研众筹项目的属性差异进行比较分析。[结论/发现]科研众筹主题主要集中在生物学和生态学两个领域,不同资金筹集达成情况的科研众筹项目在项目背书者数量、信息记录次数和讨论次数上具有显著差异;不同主题的科研众筹项目在其讨论次数上具有显著差异。同时,是否提供视频和是否参与资助挑战在不同资金筹集达成情况和不同主题的科研众筹项目上均具有显著差异。[创新/价值]深入分析了科研众筹平台中项目主题及属性对比情况,对科研众筹平台优化信息审核机制、社交机制和信息展示机制具有一定的参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号