爬虫圈一直属于一个难以界定的灰色地带,但随着网络监管力度加大,越来越多的爬虫犯罪浮出水面。国家查处了多家编写爬虫程序盗取其他公司信息的不良公司,使得爬虫工程师们人人自危,总是担心自己一不小心就侵权了,被有关部门请去喝茶。
那么做爬虫到底是不是犯法呢?
答案肯定为否。因为爬虫也分善恶,做SEO的员工天天都期盼着百度和谷歌的爬虫能光顾自己的网站,开心还来不及呢。因为只有搜索引擎的爬虫光顾你的网站,网站才会被收录。
爬虫就是一个网络上的探测器,这边点点,那边看看,一般情况下和普通游客没太多区别,只是它会在网站上采集一些信息,在一般情况下,爬他人网站不会犯法,但符合下列条件对他人网站进行采集,就具有法律风险了。
1.网站拒绝爬虫采集
每个正规的爬虫都有其固定的UA(user agent),服务器会通过UA来得知是谁要访问网站,若修改UA伪装成其他蜘蛛,或通过其他方法强行采集,则会有法律风险。
2.干扰网站正常运作
爬取网站公开信息是不必担心的,但爬取频率不能太高,做爬虫时要添加限制,若是像个抢票系统般一秒恨不得刷个几万次,这就相当于是Dos攻击了。导致对方服务器崩溃,那就很可能构成“破坏计算机信息系统罪”。
3.爬取数据用于商业目的或非法获利
2016年,百度与大众点评的纠纷案闹得沸沸扬扬,百度抓取了大众点评等APP上的店铺与评论直接用于百度地图上,迅速获得用户和流量,对大众点评造成了损失,最后百度赔偿大众点评运营商汉涛公司300多万元。这只是用于商业目的的其中一个例子,不少网站自己不生产内容,只做网络上的搬运工,通过爬虫将其他网站的视频和图片直接搬运到自己网站上,这也会有风险。
随着中国越来越重视知识产权和信息安全,爬虫犯罪会越来越被重视,技术没有罪,但恶意使用技术有罪,爬虫不犯法,但也要看使用的方式和目的,对于明显不能爬取的内容不能强行突破,对于不是自己的数据与信息不能非法获利,遵纪守法,敬畏法律,做网络好公民。
版权所有 普拉内特计算机技术(北京)有限公司