一文解释:爬虫到底是啥?

最近,我们经常能够听到“XX公司做违法爬虫”被一锅端,程序员坐牢(www.9zzz.cn)。还有XX公司的爬虫给12306网站带来重压等等新闻,在看热闹的同时,很多人都会提出疑问——爬虫到底是啥?今天就彻底给您讲明白。

按照定义“网络爬虫”就是按照一定的规则,自动地抓取互联网信息的程序或者脚本,能够把网站上的信息收集回来,并且能在网站之间游走。爬虫还会模拟人的行为,这看看、那瞅瞅。

比如百度、谷歌等搜索引擎就是典型的“爬虫”,当你搜索“科技富能量”这个关键词时,搜索引擎就会到各个网站上把和这个关键词有关的内容找来呈现在结果页面。

搜索之后,我们自然会选择想要的结果点击进去,这样“被爬”的网站增加了点击量,搜索引擎也获得流量,这属于双赢局面。

但并非所有网站都愿意“被爬”。比如12306,作为中国唯一的官方火车票预订渠道,本身每天就有海量点击,但火车票代订、代刷软件(比如携程、360等),为了挣抢票费,也会使用爬虫软件,恶意爬12306.

最疯狂的时候,就是年前那段时间,公开数据表示:最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。

令人讨厌的不仅仅有抢票爬虫,还有微博的“僵尸爬虫”——僵尸粉

打开某流量明星的留言页面你就会看到,海量的留言量中,除了几个真粉的发言,剩下的都是“步调一致”的僵尸粉。为啥流量明星最爱爬虫?因为他们可以告诉厂商——我有流量,我有海量粉丝,来找我做代言/拍戏吧!

某流量明星留言中,还带着“文案”二字

当然,还有中性爬虫——比价软件。

按照正常购物流程,你会打开京东、淘宝甚至贝壳找房,查看同一商品然后进行价格对比,费时费力。

在比价网站上,你搜索一样商品,这类聚合平台就会自动把各个电商的商品都放在你面前供你选择,基本各大购物网站都能囊括在内。这就是“爬虫”的功劳。它们去各家电商软件上,把商品的图片和价格统统扒下来,然后在自己这里展示。

这种爬虫方便了用户却“恶心”了电商,因为电商平台会把最显眼的位置留给交钱最多的卖家,你都爬走了,肯定按照最便宜的产品展示,如此一来,谁还看交过钱的商家呢?

但是电商平台没法像12306那样设置验证码,而且爬虫还会模拟用户的操作行为,你能想象每打开一次商品就输入一次验证码吗?谁还愿意买东西呢?

但是电商平台也不是吃素的,各种封禁爬虫IP地址、故意耗费爬虫程序资源等等方式也很常见,爬与被爬的攻防战,一刻不停。

最重要的是,虽然《网络安全法》没有对爬虫行为作出明确规定,但是其司法解释写道“未经授权爬取用户手机通讯录超过50条记录;未经授权抓取用户淘宝交易记录超过500条;未经授权读取用户运营商网站通话记录超过500条;未经授权读取用户公积金社保记录的超过50000条的。”可以入刑。

技术本无善恶之分,就看爬与被爬的,到底是谁。

公司名称:青州蒙特机械有限公司