此篇是之前写的另外一个爬虫项目,只不过后来又了若干版本的演变,因此记录下来。
技术点
- 多线程
- asyncio
- aiohttp
- aiofiles
逻辑
该项目抓取的逻辑比较简单,直接根据api获取数据后存储即可,无需从源代码上筛选节点。
多线程的方式
需要注意线程数量和limit值,否则容易把网站搞崩!
下列代码实现两种功能,全量和增量,适用flag来标识:
- 全量数据,抓取全部,如果出现失败的会最终进行重试,直到指定list为空;
- 增量数据,默认抓取今天,但是如果没有今天的则抓取前一天的,并和已有文件进行比对,不存在对应日期则存储。
1 | #!/usr/bin/python |