通过python爬虫可以轻松爬取淘宝搜索关键字返回的内容
效果展示:
源码:
淘宝网搜索功能受限:
由于淘宝设置了要登陆了才能使用搜索功能
so, 下面这份简单的爬虫代码并不会起作用:
1 | #CrowTaobaoPrice.py |
解决办法:
首先我们需要先在浏览器中登录我们的个人淘宝,然后搜索以书包为例的商品,打开开发者模式(我使用的是chrome)或者按F12
这里我们可以看到我们当前的cookie和user-agent(一般是Mozilla/5.0)(注意:如果没有出现这几个name,点击浏览器刷新就会出现了)
通过增加cookie和user-agent,发现代码正常运行
下面代码中getcookiefromchrome函数为获取cookie
然后在gethtmltext函数中增加cookie和user-agent访问身份
1 | import os |
实测只有先前已经登陆过淘宝页面才能正常运行以上代码(清楚浏览器数据后运行没成功)
问题后续有时间再研究。。。
补充一些效果图吧:
学完模拟登陆之后,可以来一份简单的爬取代码辣!!!(基础知识去爬虫专题的模拟登陆看)
1 | # -*- coding: utf-8 -*- |