最新要闻
- 天天速看:央行2月20日开展2700亿元7天期逆回购操作
- 天天速看:比亚迪、特斯拉谁强让美国投资人吵翻:前者利润、技术、全球市场都差不少?
- 世界热资讯!暴雪《暗黑破坏神4》开篇动画公开:相比3代跨越式进步
- 13倍浓缩:日本隅田川胶囊咖啡1元/杯历史新低
- 世界快资讯:你被各式的电话推销骚扰过吗?说了不需要还能接到电话
- 当前速讯:百公里5个油 广汽本田ZR-V致在e:HEV今日上市:若卖19万买吗
- 手机哪些功能最费电?想不到耗电大户竟是相机 没电千万别用
- 每日观察!惨!特斯拉Model S疑似失速撞上消防车:司机死亡 车被压扁
- 每日报道:无语!女子应聘助理被要求和经理同吃住 月薪最高1.2万:本人回应目的不纯放弃
- 当前报道:邓超新电影跟漫威大片同天上映!观众赞《中国乒乓》有力量感 漫威剧情缺乏逻辑
- 红旗全新中大型SUV E202亮相:5分钟充电300公里
- 胎压过高对汽车有什么影响
- 世界关注:魅族20系列宣布搭载13根电竞级高能天线!TOP级信号质量
- 世界消息!男子200元买梭子蟹皮套占80元?商家回应:进货时就是这
- 全球今亮点!“神话”破了!日本男子拉面店舔筷子后放回 还有人往旋转寿司上抹口水
- 全球新资讯:打赏后主播帮忙表白 抖音直播间代打电话火了:官方出手治理
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
【K哥爬虫普法】百度、360八年恩怨情仇,robots 协议之战终落幕
我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。
前情提要
《互联网搜索引擎服务自律公约》(简称《自律公约》)系在工业和信息化部的指导下,由中国互联网协会牵头组织十二家互联网企业于2012年11月1日在北京举行签订,参与企业包括:百度、即刻搜索、盘古搜索、奇虎 360、盛大文学、搜狗、腾讯、网易、新浪、宜搜、易查无限、中搜等。该公约第七条第一款规定:遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots 协议)。第八条规定:互联网所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。
(资料图片仅供参考)
案情介绍
一审受理:2013年1月28日、二审终判:2020年7月3日,为期时长八年!
上诉人:
北京百度网讯科技有限公司(简称百度网讯公司)
百度在线网络技术(北京)有限公司(简称百度在线公司)
被上诉人:
北京奇虎科技有限公司(简称奇虎公司,360)
百度网讯公司和百度在线公司称,其相关网站均通过 robots 协议设置了访问限制,其 robots 协议采取的是“白名单”制度,即只有该文件中明确列举的搜索引擎的网络机器人才能抓取百度旗下相关网站的内容,未列举的其他搜索引擎均不能抓取。2012年8月16日,360 搜索引擎上线运营,但百度网讯公司和百度在线公司的相关网站的 robots 协议均未将 360 搜索引擎列入其“白名单”中。百度方面认为,360 搜索在未获得百度公司允许的情况下,违反业内公认的 robots 协议,抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容,已经构成了不正当竞争,并向奇虎索赔1亿元。
百度方面称,奇虎公司利用 360 搜索引擎等,强行抓取网民的浏览数据和信息到搜索服务器,完全无视 robots 协议,这一做法目前已经导致大量企业内网信息被泄露。2012年年底,百度工程师通过一个名为“鬼节捉鬼”的测试,证明了 360 浏览器存在私自上传“孤岛页面”等隐私内容到 360 搜索的行为。
360 方面则认为,360 搜索索引这些内容页面并不涉嫌侵犯百度的权益,实际上还为百度带来了大量的用户和流量,百度应该感谢 360。
百度公司在本案中指控奇虎公司的 360 搜索存在以下不正当竞争行为:
无视百度公司设置的 robots 协议,擅自抓取、复制百度网站相关页面并生成网页快照复制件存储于奇虎公司自身服务器中;
在明确得知百度公司拒绝其抓取百度网站内容后,仍然继续抓取、复制百度网站内容并生成网页快照复制件存储于奇虎公司自身服务器中;
在网络用户点击 360 搜索的搜索结果页中来自于百度网站的链接的标题时,直接向网络用户提供其复制存储在自身服务器上的“网页快照”等,上述行为构成不正当竞争。
奇虎公司也认为百度网讯公司、百度在线公司存在不正当竞争行为,奇虎公司提交的(2013)京方圆内经证字第00364号公证书、(2013)京方圆内经证字第06932号公证书、(2013)京方圆内经证字第11476号公证书及(2015)京方圆内经证字第00228号公证书显示,自2012年8月以来,百度网讯公司、百度在线公司一直在其相关网站的 robots 协议中排除 360 搜索引擎。百度网讯公司、百度在线公司对上述事实予以认可,但认为 robots 协议是国际通行的行业惯例和商业道德,允许和/或限制全部和/或特定搜索引擎抓取是 robots 协议的应有之义,百度 robots 协议的“白名单”制度仅允许特定的几家搜索引擎抓取,对除此之外的所有其他搜索引擎均不允许抓取,不存在不正当竞争行为。
奇虎公司提交的(2013)京方圆内经证字第05960号公证书显示,使用 360 搜索引擎搜索到百度的相关网站后,在点击访问时,会出现访问被阻断并跳转到百度搜索引擎网站的现象。奇虎公司认为百度采取的相关技术措施会导致网络用户在使用 360 搜索引擎时的用户体验度下降。百度网讯公司、百度在线公司对上述事实予以认可,但认为这是针对奇虎公司不遵守百度 robots 协议而采取的自力救济措施。
法院观点
百度网讯公司、百度在线公司通过设置 robots 协议的方式限制 360 搜索引擎对其相关网页的抓取与 robots 协议的初衷背道而驰。robots 协议的初衷是为了指引搜索引擎的网络机器人更有效的抓取对网络用户有用的信息,从而更好的促进信息共享,而百度网讯公司、百度在线公司的行为会造成网络用户通过 360 搜索引擎无法得到完整的搜索结果,人为设置了信息流动的障碍。需要强调的是,360 搜索引擎属于通用搜索引擎,而通用搜索引擎的网络机器人进入一个对公众开放的网站抓取信息通常并不会损害网站的利益,反而有利于其宣传推广。事实上,目前绝大多数网站对通用搜索引擎持开放、欢迎的态度,因为如果被搜索到,就意味着更多的网页浏览量以及由此而带来的潜在用户。也正是由于这个原因,绝大多数网站非但不会使用 robots 协议禁止通用搜索引擎抓取,反而希望能够更快的被搜索出来并展示在搜索结果中较为前列的位置,这也促成了搜索引擎竞价排名等商业模式的产生。而百度网讯公司、百度在线公司却在允许国内外主流搜索引擎抓取其网页内容的情况下,限制 360 搜索引擎抓取,其行为显然有悖于robots协议的初衷。
就我国目前互联网搜索行业的发展现状来看,百度搜索引擎在市场份额上占据绝对优势,而 360 搜索所占的市场份额较小。在这种情况下,百度网讯公司、百度在线公司通过设置 robots 协议的方式限制 360 搜索引擎对其相关网站内容的抓取,会导致网络用户在使用 360 搜索引擎时无法及时获取所需信息,转而使用百度搜索引擎,这不仅会降低 360 搜索的用户满意度,损害奇虎公司的合法权益,也会在客观上增强百度搜索引擎的市场优势地位。不难想象,如果国内各主要网站都针对某一特定的搜索引擎以设置 robots 协议的方式限制其抓取,这一搜索引擎必然无法在市场上立足。事实上,包括互联网工程任务组在内的一些重要的国际组织拒绝采纳 robots 协议作为行业标准的原因就是考虑到少数行业巨头可能会利用 robots 协议本身的漏洞而将其作为垄断的工具。因此,百度网讯公司、百度在线公司以设置 robots 协议的方式限制 360 搜索引擎抓取的动机难谓正当。
百度网讯公司、百度在线公司还主张其设置 robots 协议是针对奇虎公司的侵权行为而采取的自力救济措施,对此,如果网站所有者认为搜索引擎的抓取侵犯了其某项具体的民事权利,应当通过相应的法律途径寻求救济,而不应以限制互联网信息流动的方式进行所谓的自力救济,故百度网讯公司、百度在线公司的主张不能成立。
法院认为:百度在线公司、百度网讯公司在缺乏合理、正当理由的情况下,以对网络搜索引擎经营主体区别对待的方式,限制奇虎公司的 360 搜索引擎抓取其相关网站网页内容,影响该通用搜索引擎的正常运行,损害了奇虎公司的合法权益和相关消费者的利益,妨碍了正常的互联网竞争秩序,违反公平竞争原则,且违反诚实信用原则和公认的商业道德而具有不正当性,不制止不足以维护公平竞争的秩序,故构成反不正当竞争法第二条规定所指的不正当竞争行为。
根据第2668号判决:奇虎公司的搜索引擎直接将百度公司相关网页的链接更换为该网页的网页快照链接的行为明显已经超出了使用网页快照的合理范围,故对于百度公司关于奇虎公司将百度公司网站的搜索结果直接以网页快照的方式向网络用户提供的行为不当的主张予以支持。奇虎公司赔偿百度公司经济损失五十万元、合理开支二十万元。
判决情况
百度网讯公司、百度在线公司立即停止涉案不正当竞争行为;
百度网讯公司、百度在线公司于判决生效之日起十日内连带赔偿奇虎公司经济损失二十万元;
百度网讯公司、百度在线公司于判决生效之日起三十日内在三家网站(www.360.cn,www.sina.com,www.sohu.com)首页的显著位置连续十日刊登声明,就其涉案不正当竞争行为为奇虎公司消除影响;
二审案件受理费四千三百元,由百度网讯公司、百度在线公司负担;
驳回奇虎公司的其他诉讼请求。
判决文书
https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=2hBPLhgZtbwA23kIOPykUj0dG01aCOIIPkk1AZnSayoXsuzZo9x8i5/dgBYosE2gc2cTGVpSTHaQan7hFsr1Zwgx9Ozn/Ie9t4Hw4I001PFz+vTgpLDCjyH0Qfy2ffn6
案例分析
robots 协议也称爬虫协议、爬虫规则等,是指网站可建立一个 robots.txt 文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取 robots.txt 文件来识别这个页面是否允许被抓取。但是,这个 robots 协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视 robots.txt 文件去抓取网页的快照。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用 robots 元数据(Metadata,又称元数据)。
robots 协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私,例如商品上挂个“非卖品易碎勿碰”,是告诉顾客不要碰这件商品,但无法阻止顾客拿起来看的行为,未损坏也并不违法,故俗称 “君子协议”,并不具备法律效应。robots 协议的初衷并不是限制搜索引擎的网络机器人抓取信息、阻碍互联网信息流动,而是通过善意的指引使搜索引擎的网络机器人能够更有效的抓取对网络用户有用的信息,从而更好的促进信息共享。
结合本案,根据反不正当竞争法第二条第一款、第二款规定:“经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。本法所称的不正当竞争,是指经营者违反本法规定,损害其他经营者的合法权益,扰乱社会经济秩序的行为。”在网络不正当竞争纠纷中,百度网讯公司、百度在线公司通过信息网络实施反不正当竞争法未作出特别规定的竞争行为,足以损害奇虎公司合法权益、扰乱正常的市场经营秩序,违背公平竞争原则,且违反诚实信用原则和公认的商业道德的,可以认定为反不正当竞争法第二条规定的不正当竞争行为。
robots 协议有效性的认定,在适用范围上可以大致分为两类:一类是如本案在搜索引擎范围的适用,当 robots 协议适用搜索引擎领域时,应遵守《互联网搜索引擎服务自律公约》规定的开放、平等、写作、分享的互联网精神,设置限制时应具有行业公认合理正当的理由,否则 robots 协议并不当然有效;另一类为在非搜索引擎范围的适用,此时《互联网搜索引擎服务自律公约》则不宜再适用于整个互联网行业,对于常规爬虫行为,在法律上并未规定为违法行为或禁止使用的行为。
如今,在中国国内互联网行业,正规的大型企业也都将 robots 协议当做一项行业标准,国内使用 robots 协议最典型的案例,就是淘宝网拒绝百度搜索(2008年9月8日)、京东商城拒绝一淘网搜索(2011年10月25日),相关司法案例也屡见不鲜:百度诉 360 案、腾讯诉字节跳动案、大众点评诉百度案等等。不过,绝大多数中小网站都需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用 robots 协议。
爬虫工程师们也需要注意的一点是,基于现行的惯例,未被 robots 协议排除的数据属于互联网上的公开数据,任何人都有权访问和收集。因而,遵循 robots 协议的前提下公开爬取数据原则上既不会侵犯信息提供者的权利,也不会构成不正当竞争。反之,如果违反 robots 协议,强行爬取他人的数据,则可能被认定为违反诚实信用和商业道德,构成不正当竞争。
【K哥爬虫普法】百度、360八年恩怨情仇,robots 协议之战终落幕
当前简讯:对于多方安全计算,你是否也有这样的疑惑?
天天速看:央行2月20日开展2700亿元7天期逆回购操作
天天速看:比亚迪、特斯拉谁强让美国投资人吵翻:前者利润、技术、全球市场都差不少?
世界热资讯!暴雪《暗黑破坏神4》开篇动画公开:相比3代跨越式进步
13倍浓缩:日本隅田川胶囊咖啡1元/杯历史新低
世界快资讯:你被各式的电话推销骚扰过吗?说了不需要还能接到电话
当前速讯:百公里5个油 广汽本田ZR-V致在e:HEV今日上市:若卖19万买吗
手机哪些功能最费电?想不到耗电大户竟是相机 没电千万别用
每日观察!惨!特斯拉Model S疑似失速撞上消防车:司机死亡 车被压扁
每日报道:无语!女子应聘助理被要求和经理同吃住 月薪最高1.2万:本人回应目的不纯放弃
当前报道:邓超新电影跟漫威大片同天上映!观众赞《中国乒乓》有力量感 漫威剧情缺乏逻辑
红旗全新中大型SUV E202亮相:5分钟充电300公里
胎压过高对汽车有什么影响
世界关注:魅族20系列宣布搭载13根电竞级高能天线!TOP级信号质量
世界消息!男子200元买梭子蟹皮套占80元?商家回应:进货时就是这
世界焦点!读Java实战(第二版)笔记15_并行数据处理与性能
全球今亮点!“神话”破了!日本男子拉面店舔筷子后放回 还有人往旋转寿司上抹口水
全球新资讯:打赏后主播帮忙表白 抖音直播间代打电话火了:官方出手治理
环球今日报丨K8S的Kubeclt命令
Seata分布式事务框架示例
Arm中国年利润暴跌96%!裁员近百 补偿N+3
焦点热议:RTX 4070竟有三种显存容量?10GB、12GB、16GB同时出现
ChatGPT的成功密码是啥?我想我找到了
世界新动态:倪萍还是胖胖的好看!60多岁减肥还瘦出尖下巴,干瘪身材反倒显老
《织金新闻》2023.02.18
全球今日报丨Python selenium
LeetCode-45. 跳跃游戏II - 题解分析
天天快看点丨JVM系统优化实践(1):JVM概览
AMD锐龙7 7745HX跑分首曝:8核心不怕Intel 16核心
每日观点:浅谈strtok函数的原理与使用
天天简讯:Cesium entity画各种图(十六)
广东海陵岛海滩连日现“蓝眼泪”:3mm微生物的盛宴
每日报道:神秘股东抄底特斯拉:短短6个星期 爆赚近1千亿
当前快看:Educational Codeforces Round 143 (Rated for Div. 2) C(二分+差分维护)
【天天聚看点】“乐山油炸串串建议取缔”引争议!做好这3点别担心
世界观点:三句话 让中国人给比亚迪花30万
每日视讯:陶瓷薄板的特点_陶瓷薄板的特点有哪些
大量接洽广告商:微软寻求ChtaGPT版Bing变现渠道
天天最新:笔试准备
世界简讯:FPGA基于ACM2108的DDS设计
配双激光雷达!传新款小鹏P7定名小鹏P7i 3月上市
世界快看:租客跟房东说养宠物结果是匹马 发现时房间堪比垃圾场
当前观点:北京一地铁口现煎饼果子机器人:3分钟一个 可选要不要香菜
ArcGIS Pro SDK 001 基于SDK创建第一个插件
每日精选:linux limits.conf 生效,linux修改limits.conf不生效
[数据结构] 稀疏矩阵的加法与乘法
世界热点!全国第一!广西率先实现双千兆网络覆盖所有行政村
天天视讯!微软技术测试“玩出”新花样:实现《我的世界》AI自动建造
观焦点:Module理解及使用
环球今日报丨【算法训练营day49】LeetCode121. 买卖股票的最佳时机 LeetCode122. 买卖股票的最佳时机II
全球时讯:IDEA如何使用Maven不通过模板创建javaWeb项目
【速看料】golang执行命令 && 实时获取输出结果
【速看料】[Qt开发/毕业设计/求职项目]局域网环境下远程文件发送部署系统-服务端、客户端双端的讲解
【环球快播报】公园飞无人机 被男子一板凳拍在地上:怕伤到孩子
环球新消息丨为1个亿目标 26岁“背景太假哥”拼了:每天冒严寒、酷暑直播
全球看点:智慧管理+贴心服务,这座网红公厕不“简单”
【快播报】[数据结构] 稀疏矩阵的转置与快速转置
天天微动态丨关于Linux升级内核时报错-grub2-editenv: error: environment block too small.
RTX 4070笔记本挤牙膏?只比RTX 3070快了11%
天天热资讯!史上第25个!浙江彩民69元中2.4亿元巨奖 网友调侃:又骗我买彩票
全球热讯:不能“回血”了!微软大作《红霞岛》实体版仅提供激活码
焦点报道:0X01 位运算笔记
P4171 满汉全席
0反式脂肪酸!旺旺邦德轻乳咖啡官方清仓:9瓶1盒仅19.9元
目标基辅号
环球观点:鹡鸰女神第2集-鹡鸰女神无修版
环球新动态:雷军宣布小米参加MWC 2023大会!铁大、铁蛋机器人海外亮相
【世界快播报】(数据库系统概论|王珊)第五章数据库完整性-第四、六、七节:约束命名子句、断言和触发器
上海一特斯拉再现失控事故:成道路护栏“终结者”
全球实时:插混和增程路线谁更好?院士欧阳明高给出答案
上海中环内圈发生单车事故 官方通报:车辆起火翻滚地面 驾驶员死亡
每日速讯:F - 树状数组 2【GDUT_22级寒假训练专题五】
全球新资讯:ChatGPT大火 马斯克批OpenAI违背初心:被微软控制 只顾赚钱
贵南高铁全线静态验收:时速350公里 南宁到贵阳时间缩短一半
速看:05-python运算符
【全球聚看点】字节二面:10Wqps超高流量系统,如何设计?
全球快看:动态规划解决最值、有多少方案之类问题
[奶奶看了都会]ChatGPT接入企业微信成为聊天机器人
世界观热点:蹲夜叉还有意外收获?变异蝴蝶直接就往脸上刷啊!
今日热讯:暴雪宣布《暗黑4》新雕像
43年的友情!马云低调现身墨尔本 与昔日好友相见
每日视点!男子将比亚迪海豚改装称房车:车内洗澡、看电影、吃火锅
全球热点!仿豆瓣发布-编辑框自适应高度,自动滚动定位到焦点输入
今日热门!(数据库系统概论|王珊)第五章数据库完整性-第一、二、三节:数据库三大完整性
精选!特斯拉前脸被完全撞烂 气囊没弹!车主:可以去维权吗?
当前聚焦:《地下城与勇士》大面积更改名称、美术素材 玩家喊话中消协:退钱
环球通讯!特斯拉创始人:自动驾驶是胡扯 汽车不应像iPhone
【天天新要闻】AMD、NV把显卡卖到万元 Intel成救星:下代能冲RTX 4080
手机预置软件影响用户体验 央媒揭秘幕后原因:厂商利益驱动
全球视点!苹果上新348元省电保护膜!网友:觉得贵的不是目标客户
读Java实战(第二版)笔记14_CompletableFuture及反应式编程背后的概念
如果我种一个橄榄核,它会长成一棵树吗?
天天即时:全球第10 三星Galaxy S23 Ultra相机DXO等分140:不敌小米11 Ultra
《塞尔达传说:王国之泪》日本最新海报曝光:腐朽大师剑现身
讯息:《生化危机4:重制版》硬件要求出炉:开光追 A卡很受伤
仰望银河背后 吉利是真着急了
散片就是这么来的?男子腰缠155片CPU入境被海关查获
【全球热闻】SpringBoot中统一API返回格式的两种方式
焦点消息!C#两个特殊的集合类StringCollection与StringDictionary