互联网冗余页面超百亿 360搜索上线“后羿算法”保护原创
作者:admin 发表时间:2017-11-11 浏览:113 海淘动态
互联网的快速发展离不开原创和稀缺的优质原创资源。但采集网站采取疯狂而低劣的手段,短时间内拼凑出大量低质量网页,不仅严重影响了用户的浏览体验,也极大挫伤原创作者和原创网站的积极性。近日,360搜索发布站长公告,宣布上线后羿算法,对低劣的采集站点加以控制,对原创和稀缺性网页进行保护和提权,与站长共同建设良好的互联网生态环境。互联网冗余信息已达百亿严重挫伤原创积极性原创+转载+信息分类聚合已经成为互联网新闻网站的最常见内容产出模式,比如新浪、搜狐、网易这些传统门户,和今日头条等移动APP。原创内容保证了网站的独特性,而转载内容保证网站信息的足够全面,大量的分类聚合工作,让互联网信息条理清楚类目分明。网站之间常规的转载,要求转载网站在醒目位置列出文章出处和原创页面入口,用户可以直接跳转到原创页面。但采集站,往往隐瞒或者篡改文章出处,且不分条理的盲目抓取互联网信息。为了获得流量收益,采集站会在页面中夹杂大量的广告和弹窗信息,不仅浪费了搜索引擎的收录资源,侵害了原创作者的版权,用户搜索体验也大打折扣。据估计,用户喜欢的高质量原创内容,互联网每天会诞生数十万个页面,与之成鲜明对比的是,采集网站带来互联网上的冗余信息则高达上百亿个页面,与冗余信息相比,原创内容可谓九牛一毛。采集站的内容分布领域非常广泛,常见的领域有普通问答类,商品购物类,娱乐新闻类,企业商情类,成人色情类,赌博诈骗类,私服外挂类,违法违禁类等,涵盖了互联网内容的各大领域。与此同时,移动互联网的采集和垃圾网页,虽然其数量级要比PC端要低,但在行为模式方面与PC端区别不大。后羿算法倡导原创,控制恶意采集12月26日,360搜索发布站长公告,宣布上线抑制采集保护原创的高级算法悟空算法,该算法将对低劣的采集站点加以控制,对原创和稀缺性网页进行保护和提权。360搜索表示,愿与无数专心做好站的站长共同建设良好的互联网生态环境后羿算法上线后,对于内容丰富的优质网页(如原创、稀缺资源、精心编辑的内容页等),会增加其在用户面前展现的机会;对于滥用采集手段的行为(如整站大规模采集,页面内容拼凑、含有大量广告干扰用户阅读、恶劣弹窗跳转、大量堆砌无关热词、站内搜索结果页等),会显著降低其展现机会和网页收录量;对于新闻网站正常的转载行为,采取了合理引导和规范控制,而不是一棒子打死。据悉,后羿算法采取了业界领先的大规模并行机器学习算法,通过亿万维度特征的刻画,结合对搜索领域问题的不断探索和实践,对海量文本数据进行主题和内容倾向性分析,对用户喜好程度进行全面建模和应用,能够对原创信息进行快速而精准的鉴别,能够对采集行为和垃圾网页进行定向的约束和管控。360搜索一直以来都掌握着采集类站点的完整索引量和历史行为模式,并对之进行长期的密切的关注和监控,一旦发现有恶劣作弊倾向就会进行严肃处理,用后羿命名该算法,就是为了秉承了英雄后羿的去除冗余,除暴安良精神。原创收录异议可求助站长平台公告中,360搜索表示将矢志不移地与无数专心做好站的站长共同建设良好的互联网生态环境。360搜索建议那些存有恶意采集行为的站长,能够从长远发展考虑,积极完善网站建设,提供更多时效性高、内容丰富的原创内容,引擎将随着网站完善,不断提升收录量。360搜索同时也欢迎原创网页的作者,通过360站长平台主动提报收录缺失的信息。对于原创网站和作者,如发现自己的内容被恶意采集,对采集判定结果及收录状况存在异议时,360搜索建议通过站长平台的反馈中心及360搜索论坛版主进行反馈:
部分图片内容来自于网友投稿
0/300
微博发布