定州Python学习去哪里
来源:定州IT培训学校
时间:2020/1/11 16:41:44
Python爬虫抓取技术大盘点
反爬虫的银弹
目前的反抓取、机器人检查手段,较可靠的还是验证码技术。但验证码并不意味着一定要强迫用户输入一连串字母数字,也有很多基于用户鼠标、触屏(移动端)等行为的行为验证技术,这其中较为成熟的当属Google reCAPTCHA,基于机器学习的方式对用户与爬虫进行区分。
基于以上诸多对用户与爬虫的识别区分技术,网站的防御方较终要做的是封禁ip地址或是对这个ip的来访用户施以高强度的验证码策略。这样一来,进攻方不得不购买ip代理池来抓取网站信息内容,否则单个ip地址很容易被封导致无法抓取。抓取与反抓取的门槛被提高到了ip代理池经济费用的层面。
2、机器人协议
除此之外,在爬虫抓取技术领域还有一个“白道”的手段,叫做robots协议。Allow和Disallow声明了对各个UA爬虫的抓取授权。不过,这只是一个君子协议,虽具有法律效益,但只能够限制那些商业搜索引擎的蜘蛛程序,你无法对那些“野爬爱好者”加以限制。
总之,Python爬虫对网页内容的抓取与反制,注定是一个魔高一尺道高一丈的猫鼠游戏,你永远不可能以某一种技术彻底封死爬虫程序的路,你能做的只是提高攻击者的抓取成本,并对于未授权的抓取行为做到较为的获悉。