python进行网页数据抓取有两种方式:
一种是直接依据url链接来拼接使用get方法得到内容,
一种是构建post请求改变对应参数来获得web返回的内容。
一、第一种方法通常用来获取静态页面内容,每次将页面对应的关键字进行替换就能抓取到相应的页面。
二、第二种方法是通过使用post请求来进行获取web内容抓取,由于许多网站是动态网站,每次请求返回的对应链接都是无变化,所以不能直接使用get方法来抓取网站内容,基本思路是只能依据每次发送的post数据请求观察其中的参数,并模拟构造post请求实现相应的页面获取。
静态网页爬取可见从零开始爬虫系列中的实例