0%

关于拼多多反爬加密的那些事 (一)

前景提要


  • 因为一些项目原因需要实现拼多多的登录商品列表爬取等功能
  • 使用工具 Fiddler 4 VsCode Microsoft Edge
  • 目标网址 拼多多

    1.抓包


打开FD 因为我们现在目标是爬取商品列表 所以我们下拉网页试着抓到下发商品的包
1

是个Get包 参数中的 antiContent 这是我们今天这贴的目标

调试

Xhr断点


xhr:XMLHttpRequest
通过监听 xhr 的断点,可以轻而易举的找到事件的触发点和调用堆栈
请求链接:

1
http://yangkeduo.com/proxy/api/api/alexa/goods/hub?pdduid=0&page_sn=10002&list_update_time=true&platform=1&assist_allowed=1&hs_version=2&wrt_type=1&page=4&size=20&list_id=zk7b2ll6l4&antiContent=0aoAfxnUmyIgYgdonRlwlh6adOswBTTVwp5WHNiOQpTKZvnEO1ZCuwpjPNfuHy-ubnck2Prt75xGF3r3g8T6CSZi2iPAQgHAQgQrlDn2Lz68GqXDNLhqDabXxnf9lTs847qCXG1goSMnhPnmChbgWUPiTzePMr5MogMwodsiS89s45HWXDbkoGWmW31TS6rK40KBGqNwl6Z6ooZ0n3R2g1BPR2fXtuoNpxsgVkz5S-gx7AD1fE7vw8vMdzy5rKkv2yd57R1o3M1oCY_iO5pvoPqsQd_Nhp5ItuWmfYXAHOwdA_IZ5GqYhb9VfnX0ItV9M4ef2szcYGVgH9OgScD-1eII-6Kc-hDlcWlQmy_uula6umxG9bGfXt5GC0mfHlgcTPqhVkgeZ2Y8qerwyvvqFz6iLkoM23mP3n9_Vsq0LsgKZnrY2xAUYPrDz7qlgUrVmH1t8WZnXxl0OFc-j-1ItJasfkba1kzcmPjr5ow6Ag8JYGVVZYDsZH8uN1Oiazza9Q2kZPEe4cHBSjqSv9m_yeFdquvjADHSuWqah6eIcjoWbIBir-B9adxlxoWbnhe97mDkAJ3kDLRltyjcJL2Z8F0LGMOjSn2j6pIVZFoNkpJRNdFXcJ25hUgrPlrxDv17BOgZAckc3YOKDieLQ6djlZhIRrse2Bz4C

我们直接复制 请求链接 中的一部分

1
api/alexa/goods/

F12 源代码
图 3
下拉网页 触发请求
这里我们断下来了
图 6

调用回溯


我们查看调用堆栈,我们选择一个只有一个参数的函数 这样比较好调试
图 5

最终我选择了这里
图 7

我们在这下断,关闭xhr断点 放行 试着下拉网页能不能触发我们刚下的断点
第一次断下 并没有我们想要的东西 我们f8 放行试试
图 8

放行到第五次出现了我们想要的
图 9
继续放行,直到网页不再断下(这里我们可以直接暂时取消所有断点 CTRL+f8 下一步记得恢复)
我们再次下拉网页 触发断点

上一次第五次出现了我们想要的 那么他必然会经过这里 这次我们放行四次 然后单步调试
途径每一个可疑函数都在控制台执行一下
图 11
图 12
最终我们追出Ee()
图 13