目标:获取上交所和深交所所有股票的名称和交易信息
输出:保存到文件中
技术路线:scrapy
数据网站的确定:
1 | 获取股票列表: |
步骤:
- 步骤1:建立工程和Spider模板
- 步骤2:编写Spider
- 步骤3:编写ITEM Pipelines
步骤1:建立工程和Spider模板
1 | \>scrapy startproject BaiduStocks |
步骤2:编写Spider
- 配置stocks.py文件
- 修改对返回页面的处理
- 修改对新增URL爬取请求的处理
1 | # stocks.py |
步骤3:编写ITEM Pipelines
- 配置pipelines.py文件
- 定义对爬取项(Scraped Item)的处理类
- 配置ITEM_PIPELINES选项
1 | # pipelines.py |
配置settings.py文件
1 | # Configure item pipelines |