欢迎关注本人简书共同交流运维/监控/Linux/Python/Django/Flask...: https://www.jianshu.com/u/788c815ee098

工程目录以及说明:

.
|-- JiYS
|   |-- __init__.py
|   |-- controllers
|   |   `-- __init__.py
|   |-- items.py
|   |-- middlewares.py
|   |-- models
|   |   |-- __init__.py
|   |   `-- body_seg.py
|   |-- pipelines.py
|   |-- settings.py
|   `-- spiders
|       |-- __init__.py
|       `-- jys_seg.py
|-- README.md
|-- get_proxies.py (第三节中获取代理的爬虫)
|-- proxy_servers.txt (代理列表文件)
|-- requirements.txt
|-- run_all_spiders.sh
|-- scrapy.cfg
`-- tree.txt

sqlalchemy 关系建立...这不属于本章探讨范围,请参考 sqlalchemy 官方文档.

多个 pipeline? 你只要开心, 随便写, 一行行加入 settings.py 中即可, 数据会根据优先级一个个流过去,只要判断并处理就好啦!

我也是使用 scrapy 第一个项目,没啥说的了啦...当然写代码过程中各种 Exception 各位童鞋自己克服哈!