经典案例:百度和360搜索【Robots协议】之争

广告也精彩

一、经典“Robots协议”案例提倡盗火线:

搅局者360面临的巨额诉讼讼事即将开庭。百度起诉奇虎360违反“Robots协议”(又称机械人协议或爬虫协议)抓取、复制其网站内容的不正当竞争行为,并索赔1亿元人民币。这个讼事在今年2月便已立案,或许由于Robots协议太棘手,等了泰半年才开庭。

百度和360搜索Robots协议之争

百度和360搜索Robots协议之争

而此前,百度和360之间就有种种反面谐的消息传来。其中一条就是,360违反“Robots协议”抓取、复制其网站内容。什么是Robots协议

2012年8月,360搜索悄然上线后不久即违反Robots协议,强行抓取百度旗下网站百度知道、百度百科、百度贴吧、百度旅游等内容。360搜索在百度Robots文本中还未将360爬虫写入的情况下,违反Robots协议内容,强制对“百度知道”、“百度百科”等百度网站内容进行了抓取。

百度公司:奇虎360的行为违背了国际通行的行业规则、掉臂百度的权利声明和技术措施,非法抓取、复制百度网站内容,直接以快照形式向网民提供,严重侵害了百度的正当权益,组成了不正当竞争。随后,百度公司将奇虎360诉至北京市第一中级人民法院,该案于今年2月23日正式立案。

百度公关部郭彪向媒体体现,Robots协议是网站信息和网民隐私掩护的国际通行规范之一,理应获得全球互联网公司的配合遵守。而360公司回应称,Robots协议的本质是网站和搜索引擎爬虫的相同方式,用来指导搜索引擎更好地抓取网站内容,robots协议的首创人MartijnKoster从一开始即预测到了,有的商家可能用其作为不正当的市场竞争工具。因此,他在1994年创制伊始便申饬人们,“如果该协议被当成市场竞争工具,爬虫不需要接纳”。

360公司:谷歌(微博)、雅虎、微软等的robots协议都是旨在防止搜索爬虫抓取到涉及用户登录信息,同时对所有爬虫一视同仁。百度Robots协议允许谷歌、必应、搜狗、搜搜、马上、盘古等其他搜索引擎抓取百度知道、贴吧等内容,唯独禁止搜索市场份额排名第二的360搜索抓取,这是滥用Robots协议维持其搜索市场垄断职位的行为。

二、Robots抓取案泉源是百度数据优势

笔者在今年1月6日便率先发现360内测360百科,大量词条从界面气势派头、到词条属性、到扩展阅读险些保持一致。其时我推测360搜索在2013年的生长偏向或将是:在产物线上,360搜索完全走百度的模式——重新闻、网页、问答、舆图、音乐到视频等(软件和应用搜索是360特有的)。不外奇虎360后续陆续推出了“雷电手机搜索”“软件搜索”“良医搜索”以及“购物搜索”,实现与百度产物的差异化。
一方面综合搜索百度有先发优势,有着十多年的数据和技术积累,360想在这方面赶超几无可能;另一方面360爬取百度数据的做法,遭到后者多重打压:既有悬在头上的诉讼,也有重定向等技术手段。在360搜索结果点击百度知道、百科等页面,将被重定向,二次点击使得用户无法享受完整的搜索体验。

细心视察Google、360等搜索引擎会发现,首页结果泛起百度知道、百科和贴吧内容的几率很是大,搜搜问问、爱问知识人和奇虎问答则是增补。如果搜索引擎没有百度的数据,用户找到想要的结果的几率会降低许多。

百度在2004年开始每年推出一个重量级产物:贴吧、知道和百科。现在百度的数据优势显示了当初UGC战略的英明之处。这些用户缔造的数据已经成为百度的焦点资产,同时百度官方运营人员也功不行没,而360直接将百度辛苦积攒的数据拿去使用,百度自然难以接受。数据是否富厚将很洪流平决定搜索体验。

三、Robots协议,网站维护自身利益的工具?

Robots协议是网站站长与搜索引擎之间配合讨论后形成、通过Robots.txt落地。网站站长用它决定对搜索引擎的开放水平,引导爬虫如何更有效地爬取自己。现被广泛接纳。Google、百度等搜索引擎均严格遵守。通常网站可以在服务器根目录下的“Robots.txt”中指明哪些内容可以被搜索引擎抓取,哪些不行以;也可以指明对那个搜索引擎开放,或者对哪个不开放。限制某个搜索引擎,Robots初衷是限制“BadRob”,即坏爬虫。所谓坏,是指存在宁静或隐私问题,抑或太高频率爬取导致服务器压力。

事实上,Robots最初是用来约束搜索引擎的。搜索引擎梦想是获取所有数据,Robots限制了这一点。Robots也可以设置站点舆图、屏蔽死链接以及减轻服务器压力不让爬虫爬取大文件。但整体而言搜索引擎是不接待Robots的,据某站长介绍,如何要想从搜索引擎获得更多流量,最好别用Robots文件。

不外百度是一家搜索公司,也是一家内容网站——当被Google、360等搜索引擎爬取时,李彦宏的角色就是网站站长。Robots协议对其也有掩护作用。对360启用Robots限制很洪流平是为了维护自身数据优势,防范竞争。Robots协议现在已逐步成为网站主维护利益的工具。

2008年淘宝屏蔽了Google、百度等搜索引擎也是利用Robots协议,理由是欺诈风险,今年淘宝屏蔽微信也是类似的理由。京东商城也通过Robots协议屏蔽了阿里旗下的购物搜索引擎一淘:因为一淘未经允许抓取京东商品评价,而这些评价花费了京东上亿的积分激励资源。屏蔽一淘获得苏宁易购的效仿。

360对百度不满意之处在于:百度的Robots接纳了允许部门网站的方式,360被排除在外。其他搜索引擎例如搜狗就可以搜索百度内容。据接近百度内部人士介绍,搜索引擎要加入百度robots协议的白名单,一般需要与之签署一份书面协议。尽管360前几天与百度打了一场足球赛,但暂时应该还难以与之签署书面协议。

显而易见,百度屏蔽360、淘宝屏蔽百度、京东和苏宁易购屏蔽一淘,均是利用Robots协议来应对竞争对手,而不是因为对方的爬虫是“坏爬虫”。

四、用户缔造内容的版权归属成为焦点

Robots的效力与“口头约定”差不多。但进入搜索引擎行业的均会遵循这个游戏规则,这得靠自律。但是违反协议自己是否被执法制裁,现在难以判断。如果争论焦点围绕著作权,届时还要看360的行为是否切合避风港原则。

360认为百度不应该将Robots协议这么用,他们抓取的数据是用户缔造的,百度不应该屏蔽。而且百度不应该只对自己屏蔽。就算360觉得委屈,更合适的方式是推动Robots协议修订,而且说服业界接受,这很难。但现在360接纳不遵守协议直接爬取的要领,有点“以暴制暴”的感受:“规则不公正,抑或有人滥用来搪塞我,我就不遵守这个规则。”

用户缔造内容是否可以不经过网站允许被抓取呢?百度用户缔造的内容并没有明确的所有权归属。海内只有知乎等少数UGC社区有CC协议(知识共享),百度内容究竟是属于用户照旧百度,UGC社区需要越发明确的版权协议。但360并不能因此就要求百度必须开放数据。况且这些数据的发生百度确实有所支付,例如运营、技术、软硬件资源等。

那么外洋有无先例呢?在12年前,美国加州北部的联邦地要领院,eBay起诉Bidder'sEdg案中,Bidder‘Edg违反Robots协议抓取eBay数据,BE败诉。但是在2011年4月微软向欧盟起诉Google,因为Google限制竞争对手的搜索引擎正常会见YouTube,微软却获胜了。

难以预测本次百度起诉360案结局怎么样,因为可以借鉴的先例也给出了差异的答案。不外本案结局势必会给接下来海内的互联网内容归属、非执法领域协议纠纷值提供重大的借鉴意义。

本案也将很洪流平影响360搜索今后的生长偏向。2008年奇虎便推出了问答,但与百度知道另有差距。接下来360很可能会收购知乎这类内容社区,还会增强自有UGC社区建设,很简朴,如果人才智力是互联网公司最有价值的流动资产,那么数据将是未来最重要的牢固资产。360现在的数据集中在底层宁静数据,应用型数据还太少。这是它冒着被索赔1亿元的风险去爬取别家数据的基础原因。

五、从Spider法式到Robots协议

纵然不是工程狮,关注互联网的人也很少不知道Robots协议。百度和360从2012年起展开的一场屏蔽与反屏蔽战把原本法式猿才知道的Robots协议酿成媒体热词。北京一中院8月7日对3B搜索不正当竞争纠纷案(3B案)刚刚作出的一审判决让Robots协议在新闻里又火了一把。Robots协议的执法职位或执法效力问题是3B案一系列执法问题中最大的争点,分析这个问题就必须先了解Robots协议的内容和意义。
Robots协议和搜索引擎的爬虫法式(Spider)其实是一对同胞兄弟。

1994年之前,AltaVista、Infoseek等代表的搜索引擎在互联网可以通过Spider直入网站治理后台,把所有网页信息系数收录。除了涉及隐私外,爬虫法式的重复收录在20年前对网站带宽也是不小的负载。荷兰工程师MartinKoster深感互联网森林之乱,提出通过设立名为Robots规范的网站会见限制政策(AccessPolicy)方式在整个互联网统一解决Spider无所不在所带来的威胁。Robots协议在技术实现上并不庞大,网站治理员只要按规则在网站根目录下建设Robots.txt的文本文件就可以禁止搜索爬虫收录指定网页内容。从早期的AltaVista、Infoseek到厥后居上的Google、Yahoo和美国以外的Baidu等各大搜索引擎都群体接受了Robots协议,制止和内容网站为Spider陷入一场危机。

六、Robots规则可以受执法掩护

阻挡3B案一审判决的理由集中对Robots协议执法效力的否认上。Robots协议并不是执法,也没有被IETF、ITU和W3C等国际尺度组织接纳。但国际尺度也不是执法,逻辑上成为国际尺度不即是自动享有执法掩护。执法和规则并不是同一个看法,执法属于规则,而规则远远大于执法。百度是以不正当竞争为案由起诉360,反不正当竞争法自己就是通过列举加兜底的方式,在少数明确划定的违法行为外以原则性划定了凭据不正当竞争行为的判断尺度。司法者的权限并不局限于寻找包罗Robots协议内容的具体法条,而是可以凭据实际案情裁量违反Robots协议是否就违反了反不正当竞争法第二条对经营者应当遵循自愿、平等、公正、老实信用和公认商业道德的强制性划定。认定违法并不需要将Robots协议上升为执法作为前提,违反规则就可能导致违反执法的结果。况且3B案发生配景之一,是被告奇虎360自己就通过签署《互联网搜索引擎服务自律条约》允许“遵守机械人协议(Robots协议)”和“限制搜索引擎抓取应有行业公认合理的正当理由,倒霉用机械人协议进行不正当竞争行为”。360在明确认可Robots协议约束力后又规避了协议,既是违法又组成违约。

执法之外的规则受执法认可和掩护是普遍现象。

条约不是执法而是当事人自由告竣的一致意思体现,但依法建设的条约虽然受执法掩护。《条约法》第八条即划定:“依法建设的条约,对当事人具有执法约束力。…依法建设的条约,受执法掩护。”被互联网广泛接纳的Robots协议属于行业老例,仅《条约法》就在第二十二条、第二十六条、第六十条、第六十一条、第九十二条等九个条款认可交易习惯的效力,如第九十二条就划定:“条约的权利义务终止后,当事人应当遵循老实信用原则,凭据交易习惯履行通知、协助、保密等义务”。《物权法》第八十五条也划定:“执法、规则对处置惩罚相邻关系有划定的,依照其划定;执法、规则没有划定的,可以凭据当地习惯”。凭据法理及以上法条的划定,老例完全有可能获得法定效力及执行力。3B案判决认可Robots协议的效力是法官依职权对Robots协议正当性进行认知的历程,并不存在法官造法或逾越职权缔造新权利。
百度在360推出网络搜索后迅速启用Robots协议,在百度旗下的知道、贴吧、文库、百科等产物屏蔽了360爬虫。百度屏蔽360的产物基本属于用户缔造内容(UGC)类型的上传平台。百度对平台内容并不直接享有著作权,360因此质疑百度无权拒绝收录。但UGC平台身份也无碍百度凭据《著作权法》第十四条对相关内容享有作为汇编者的权利。在百度主张反不正当竞争掩护情况下,举证责任更简化到证明原告正当投入因被告竞争行为受到实际损害及被告竞争行为违反老实信用或商业道德,而360强行利用百度网站内容已组成搭便车的不正当竞争行为。

七、互联网拒绝森林规则

360在3B案中以百度滥用Robots协议作为抗辩,但换个角度看真正容易被滥用的チ敕窒硎峭绲幕煨愿瘢畔⒌亩嘣簿龆诵矶嗲榭鱿峦缌鞔匦胧艿娇刂啤2皇躌obots协议限制的Spider法式一定使互联网陷入严重杂乱,网站后台隐私无法掩护,网页更新的旧信息必须完全删除而不能仅仅屏蔽,音乐、视频等内容的收费盈利模式遭到扑灭攻击。互联网经过恒久博弈逐步挣脱无序状态,难道只因搜索爬虫失控又将回到比拼技术暴力的暗黑森林?这种情景绝非法治下的互联网可以接受的。
Robots协议自建设以来在全球受到严格遵守,利用Robots协议屏蔽搜索的案例举不胜举。Facebook和Twitter恒久屏蔽谷歌,后者除了发牢骚不敢接纳任何规避手段;默多克的新闻团体一度全面屏蔽谷歌,谷歌一直忍到……忍到默多克自己忍不住投降;搜索屏蔽360的除了百度各网站另有腾讯的QQ空间,更有意思的是QQ空间屏蔽360爬虫却在2012年后对百度和Google开放,360甚至都没有为此指责腾讯歧视;腾讯尽管向百度开放QQ空间却将腾讯微博的内容屏蔽至今,新浪微博也一度加入屏蔽百度的行列;电商领域可能是相互屏蔽的高地,淘宝从2008年起一直屏蔽百度搜索,京东、苏宁、当当网等也屏蔽了阿里旗下一淘搜索的爬虫。

各王法院认可Robots协议效力的判决同样不胜枚举。美国联邦法院早在2000年就在eBay诉BE(Bedder’sEdge)案中就通过禁令支持了eBay屏蔽BE爬虫的主张。内华达法院2006年审理的Fieldv.Google案也明确认可Robots协议是有效掩护网站权利的通行尺度。北京一中院同样于2006年在审理著名的浙江泛亚诉百度著作权侵权案判决书中认定原告有权利用设置Robots.txt文件拒绝百度收录。上述通过Robots协议屏蔽搜索爬虫的互联网实例和认可Robots协议执法效力的中外法院判决,都证明Robots协议的效力并不是在3B案中才成为争点,也证明Robots协议在工业实践和司法实践中都一直获得认可和尊重。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: