直接对抗反爬?No!谈一谈数据采集前的思路
作为爬虫小生的你们是否遇到很多情况下,需求紧急,需要短时间对某些目标数据进行采集 ,作为过来人,笔者把我们开发的时候需要注意的问题罗列出来,避免一上来就吭哧吭哧撸代码,一顿操作猛如虎,咔咔一看二百五,以下是在快速完成需求的时候我们得问问自己的一些问题。
对于开始开发前的准备: - 1、采集的是网站还是app?
哪一个更简单(反爬最少)。 - 2、如果是网站,采集的平台是PC端web,还是移动端的web?
同上。 - 3、是否需要登录?
需要需求方提供账号 - 4、是否需要验证码?
叫客户加预算[手动狗头] - 5、什么类型的验证码,是否有接码平台可以直接先顶着?
需要需求方提供打码服务。 - 6、是否存在封ip(限制访问频率)?
需要需求方提供三方ip代理。 - 7、需要登录的是否会根据账号进行限制?
需要需求方提供大量的账号。 - 8、抓包分析,android手机抓不到包?
换苹果试试(可能是最快的方式,当然你要去硬过也行) - 9、网站、app反爬太厉害,短时间搞不定?
试试微信小程序
- 10、小程序也还是搞不定?
试试快应用(不知道快应用的可以去百度,类似微信小程序的另一个小程序的生态)
-
11、用fiddler抓包未定位到对应请求? 如果是chrome就开启隐身模式(win下:ctrl+shift+n,mac下:command+shift+n),把最开始请求到最后都抓包,全局搜索关键字定位
-
12、对于某些目标,可以小程序和app结合进行突破,因为它们可能部分使用的是一样的接口。
-
13、多使用分析目标的各网站、接口、APP等,会有意想不到的收获。
以上。其他想到的再补充。
防止失联,关注微信公众号:码道工程。
请先登陆 或 注册