字节跳动的搜索爬虫为何如此野蛮凶猛?

赵东山
 字节跳动的搜索爬虫为何如此野蛮凶猛?

当看到字节跳动要做全网搜索的新闻时,王东一点都不感到惊讶。因为早在头条搜索正式上线半个多月前,王东所在公司的网站就饱受一个名为“bytespider”爬虫的侵扰。

王东在一家第三方信息评估平台做SEO(搜索引擎优化),今年7月份,他突然发现公司的网站经常性打不开,网页加载极其缓慢,有时甚至直接瘫痪。经过一系列排查后,王东在服务器日志上发现了bytespider爬虫的痕迹。

王东发现该爬虫抓取的频率每天达几百万次,高则上千万次,服务器带宽负载飙至100%,而且该爬虫在抓取时完全不遵守网站的robots协议。顺着该爬虫的IP地址查询,王东和团队证实,该爬虫就是字节跳动的搜索爬虫。

苦主并非只有王东,他在CSDN、V2EX等技术论坛了解到,遭受该爬虫暴力抓取的还有很多人,很多用户直接表示“太频繁”“不杀不行”“直接封杀”。

魏立超在一家互联网社区平台工作,同样遭受bytespider的暴力抓取,他也曾尝试过在网络上求助。10月24日,类似的事情经过微博大V的曝光,一时引起互联网技术圈子的热议。

但令魏立超感到心寒的是,网上却流传着一种“弱者活该”的说法——“能被头条搜索引擎抓取应该觉得荣幸才是,说明你们内容有价值”,“今日头条是在免费给你们做性能测试,如果你们网站随便被搜索引擎抓死,那技术可以下岗了”。

因为不堪其扰,给公司带来重大损失,无奈之下,像王东、魏立超这样的网站主们都只好封禁了该爬虫IP所有频段。

对此,字节跳动回应《中国企业家》称,“网络报道不实,目前头条搜索设有反馈机制,网站因为爬虫受到影响,可以直接通过邮件反馈处理。”

从字节跳动开始做搜索之后,网络上就一直有网站主们抱怨其爬虫抓取过于暴力的声音,到今年10月末,小网站主的抱怨达到高峰,至今余波未平。

野蛮爬虫

爬虫是网络爬虫的一种简称,它是一种按照一定规则自动地抓取万维网信息的程序或脚本,定时并按照一定的频率把互联网上的内容爬下来,汇总存储到自己的服务器上,以方便用户搜索。

通常来讲,在互联网技术圈,数据抓取是一件很正常的事情。通过爬虫抓取网站内容是搜索引擎进行数据积累的必要前提。此外,一些数据分析、数据采集的功能也依赖爬虫技术实现。

但爬虫抓取也有一些江湖规则或君子协定,比如robots协议。robots协议由网站主自行设置,网站会规定爬虫引擎哪些内容数据可以抓取,哪些禁止抓取,尤其是涉及到用户数据等隐私信息的。

但是王东发现bytespider的特征是不遵守robots协议,且抓取频次太高。从技术社区了解到,爬虫就是对服务器的内容进行访问的过程,任何访问都会占用服务器的响应资源,一旦瞬间访问压力超过程度,就会对网站的稳定性造成影响。为了维护整个互联网生态,爬虫的所有者会通过一定的策略来控制爬虫访问的速度和总量。

所以,有技术人员认为,“应该是字节跳动本身在控制爬虫抓取的频次上出了问题。”

4 - 640?wx_fmt=jpeg.jpg

其实,对于像王东这样做SEO的人来说,其主要工作目标就是希望自己家网站能在主流搜索引擎的搜索结果中排在前面的位置。“对于像百度、搜狗、360等搜索引擎的规范抓取和收录我是非常欢迎的,但是bytespider却直接让网站瘫痪了,这也导致网站流量在那段时间也掉了不少。”

令王东们头疼的是,字节跳动的搜索引擎既没给他们带来多少新流量,反倒还给公司带来很多损失,并且影响了正常的用户访问。

王东们想知道,为什么字节跳动没能控制好爬虫的抓取频次?

行业资深人士分析认为大致有两种可能。一种可能是字节跳动为了短期快速扩充自身搜索规模而主观进行的恶意抓取;另一种可能是目前字节跳动的搜索爬虫策略不够完善,客观结果上导致的抓取过量。

“考虑到在今日头条刚开始发展的时候,他们抓取内容的时候完全无视版权和内容方的抗议,也不排除是主观行为,但我觉得字节跳动现在已经是很大的企业,应该不至于主观这么干。”上述行业资深人士如此推断。

也有另一位互联网行业资深人士认为,“这事儿没那么复杂,就是具体干活儿的团队太糙,项目着急上线,根本来不及做动态调整的逻辑算法,主观作恶的可能性较小。”

但不管主观出发点如何,字节跳动为了快速发展搜索而派出爬虫四处暴力抓取,并不遵守既定规则,已经给中小网站主们造成了客观的损失和困扰。

对于网络上流传的“弱者活该”的说法。技术人员显然不认同,他认为,“把问题推给小网站自身抗风险能力不强太偏颇了,这种规模的爬虫抓取频次不在小网站正常的考量范围内,大的站点对于搜索引擎爬虫的过激抓取肯定会有很好的应对策略,毕竟有那么多做技术的,但很多小的站点很可能没有专门的技术人员,只是租用了服务器,采用了一些开源的建站方案,不具备应对能力也很正常。”

而有小网站主抱怨字节跳动的爬虫“一上午对网站发出46万次请求”,上述技术人员认为:“以个人的经验来说,这个请求频次肯定是过高了,至于是不是恶意的不能确定。网站都瘫痪了,肯定是不幸了。”

内容战争

今年8月10日,字节跳动正式上线了网页版通用搜索,爬虫抓取是搜索引擎效果实现中的重要一环。

对于每进入一个新领域,字节跳动都有一套惯用的打法,要么直接花钱收购该领域的公司,要么把该领域的专业人才挖过来。

比如在2017年11月收购中国企业打造的海外音乐短视频平台musical.ly,增强自己的短视频业务;在2019年5月,收购教育培训平台清北网校,增强自己的在线教育业务,等等。

事实上,(投黑马Tou.vc专注于文创领域的众筹平台)字节跳动早就布局搜索领域。早在2014年,在百度负责搜索框架的百度网页搜索部技术副总监杨震原就被张一鸣挖入今日头条,在头条曾主导广告和推荐两大核心系统升级。

此外,原百度搜索部主任架构师朱文佳、原百度美国深度学习实验室少帅科学家李磊等百度重要人才均被张一鸣挖入今日头条。今年3月,字节跳动挖来了前360搜索产品负责人,开启搜索商业化。

此外,为了拓展搜索内容,字节跳动也在通过收购来完善自己的内容库,比如全资收购互动百科。截止到8月27日,互动百科已经在董事、经理、监事;投资人;法定代表人三个方面进行了全面变更,原来的创始团队全部退出,目前已经被字节跳动全资控股。

虽然在人才和技术上早有准备,但是对于搜索业务而言,搜索引擎这个生态的建立不是一朝一夕可以完成的,百度、搜狗已经经历了多年的发展积累。

而搜索的内容库是搜索技术施展拳脚的前提,否则搜索引擎就是无源之水。为了获取尽可能多的内容,可能是字节跳动采取暴力抓取的原因之一。

甚至,为了抓取到更多内容,往往就“越界”,字节跳动还因此惹上了官司。今年4月,百度就曾因搜索一纸诉状将字节跳动告至北京市海淀区人民法院。

百度方面称,今日头条大量窃取百度“TOP1”搜索产品结果,百度要求字节跳动立即停止侵权,赔偿相关经济损失及合理支出共计人民币9000万元,并连续30天在其APP及网站首页道歉。除民事起诉外,百度也同时向法院提交了行为禁止保全申请书。

百度为媒体提供的公开案例中显示,在字节跳动旗下今日头条APP中搜索“1立方厘米水等于多少升”问题时,其首条展示的搜索结果中被嵌入了“抄自百度”的字眼,而该字眼则是百度为防止TOP1搜索结果被抄袭预先打下的防伪标记。

6 - 640?wx_fmt=jpeg.jpg

有趣的是,同一天字节跳动方面也发表声明表示,百度未经抖音授权,在其开发运营的“简单搜索”APP的热榜板块设置了抖音专栏,从抖音窃取视频,百度又通过技术手段将抖音的水印抹去。抖音要求百度立即停止侵权,赔偿9000万元,并在百度首页连续道歉30天。

因为字节跳动与百度在商业模式和业务逻辑的相近,双方均是通过流量换取广告商业营收,在过去的数年中,百度被视为最有可能被字节跳动颠覆的公司。

双方的战争一触即发。为了迎战,百度方面,马东敏亲自负责的百度战略投资部在今年开始频繁出击,先后投资了有赞、凯叔讲故事、七猫小说、知乎、果壳等众多内容服务类项目,背后的战略意图便在于丰富内容信息流。

以知乎为例,知乎全站问答将以智能小程序的形式接入百度APP中。

以搜索起家的百度宣布将着力打造“搜索+信息流”两大流量引擎和“百家号+智能小程序”两大生态,构筑起壁垒。

一位互联网TMT领域投资人告诉《中国企业家》,“百度的清醒和出击让字节跳动在内容获取上变得越来越困难。

此外,字节跳动的四处出击,也引起了其他互联网巨头的重视,腾讯就要求抖音禁播王者荣耀等腾讯系游戏的视频。行业里的一些内容社区等等都把字节跳动视作竞争对手,并不会轻易为其开放内容。”

面对对手们加筑的越来越高的内容壁垒,字节跳动对内容的焦虑似乎更强烈,直接反映在了搜索爬虫凌厉的抓取上。

其实,从某种程度上,如今像王东等网站主们的遭遇,也正如2015年左右今日头条APP兴起之时,各大内容版权方们的遭遇。

当时,今日头条为了获取内容,拓展信息分发市场,甚至没有先获取内容版权方转载和分发的许可,就大量抓取内容版权方的内容,因此,多次因版权问题被告至法庭,引发了无数的版权纠纷。

当字节跳动切入全网搜索时,在内容抓取上,历史似乎重演。

不能停止的增长

在如今的互联网江湖,不仅百度,其他任何巨头都不敢小觑字节跳动和张一鸣。

从2012年成立至今的7年间,张一鸣率领今日头条在移动端图文信息市场立足后,又成功推出抖音短视频应用,截至2019年7月,抖音的DAU(日活跃用户)已经达到3.2亿。

依托今日头条、抖音两个流量池,字节跳动不断把触角延伸至社交、游戏、电商、教育等各个领域,旗下所有产品在全球范围内的DAU已达到7亿,月活超过15亿。字节跳动正在各个领域冲击着原有的互联网巨头的城池。

7年间,字节跳动的员工数也已经突破5万。在过往的媒体报道中,字节跳动被形容为一个APP工厂,通过技术、获客、商业化变现这三大核心部门构成的流水线,不断将成功的产品经验在各个领域复制,再进行AB测试,快速迭代。

在字节跳动快速扩张的过程中,因为手段颇为凌厉,让外界一度议论纷纷。

在给外界压力的同时,激进的打法也在内部产生了影响,“字节跳动内部快速迭代,高速增长目标的企业文化也难免会给员工带来高压力,而高压力则可能导致操之过急或者动作变形,即便张一鸣并不想这么做。”一位接近字节跳动的人士告诉《中国企业家》。

该人士继续解释,“2019年字节跳动的营收目标是至少1000亿,压力非常大。今日头条主APP的增长基本停滞了,今日头条正在艰难度过1.2亿DAU的增长瓶颈期,抖音及其海外版Tik Tok成为重要的增长引擎。但海外市场并不像中国一样,多语言,多文化背景,监管政策多样复杂,充满不确定性。”

11月4日消息,路透社援引不具名知情人士报道称,美国政府已经就字节跳动对该国社交媒体应用musical.ly的收购启动了国家安全调查。

美国外国投资委员会(CFIUS)已经开始审查此次收购,该委员会负责审查外国收购的交易是否构成潜在的国家安全风险。与此同时,Facebook正对其加大警惕,并将之列为竞争对手。

此外,据《晚点LatePost》报道,在字节跳动内部举行的6~7月CEO面对面会上,张一鸣说,“如果没有搜索场景的拓展和优质内容,今日头条的增长空间可能只剩下4000万DAU。”

为了维持字节跳动的增长势头,搜索引擎作为一种被验证过的、成熟健康的商业模式,成为今日头条拓展商业增长的重要业务之一。

国内的搜索市场上主要有百度、360搜索、搜狗搜索三大玩家,其中根据StatCounter Global Stats的统计数据,截止到2019年7月份,百度占据了中国搜索引擎全平台市场的76.42%份额。

字节跳动打造的全网搜索,会在多大程度上影响搜索市场的份额变化,还是个未知数。

搜索和智能推荐都是获取信息的方式,对用户来说,搜索的成本高,但内容精度也高;推荐的成本低,内容精度也相对不高。为了满足用户准确获取信息以及广告主精准投放的需求,获取更多用户和商业变现机会,两种模式正在加速融合。

“搜索+信息流两者结合是目前看来比较好的方式,目前百度和字节跳动都从不同的起点出发赶往这个终点。但从搜索到信息流,和从信息流到搜索,这两者的难度不太一样,后者更难一些,搜索太复杂了。”一位行业资深人士告诉《中国企业家》。

虽然搜索引擎成败的影响因素众多,但很显然,现在字节跳动搜索爬虫的频繁爬取和不遵守行业规则,已经给很多网站主们都造成了不太好的印象。

目前,(投黑马Tou.vc专注于文创领域的众筹平台)字节跳动的搜索爬虫bytespider还躺在魏立超的黑名单中,短期内并不会解封。他希望字节跳动能够遵循市场规律和准则做事,一起保护好网站内容的生态。

但面对字节跳动可能带来的潜在流量诱惑,也并非人人都立场坚定。王东就告诉《中国企业家》,“封字节跳动的IP是万不得已,什么时候解封,只能看搜索引擎市场份额变化。”

(文章来源于:中国企业家杂志摘编)