一、初级爬虫

1、python【语言基础】

1.1、python基础入门

1.1.1、计算机基础知识

1.1.2、python环境搭建

1.1.3、变量

1.1.4、流程控制语句

1.1.5、字符串

1.1.6、列表和元组

1.1.7、字典

1.1.8、函数

1.1.9、找个综合性比较强的基础项目来练习和巩固

1.2、python高级编程

1.2.1、面向对象

初级
ADT
面向对象基本概念
类与对象的成员(属性和方法)
三大特性

封装

继承与派生

多态与抽象基类

高级

web开发方向建议往深学

参考web前端开发

1.2.2、高级语法

函数进阶

作为参数传递

作为返回值

模块与包&自定义第三方模块
python的异常处理机制&自定义异常类
python的迭代器和生成器
自定义上下文管理器

1.2.3、并发与多线程

并发基本原理与进程理论基础
python创建多进程
进程间通信原理
线程理论基础、同步互斥基本原理
详解python的GIL线程锁
并发网络通信模型
io并发:阻塞io、非阻塞io、io多路复用、异步io

1.2.4、io网络编程

python文件处理
字节串与文件的读写操作
文件读写的其他操作
文件管理函数
网络编程基础与osi模型详解
传输层服务
面向连接的传输服务
面向无连接的传输服务
socket套接字编程
tcp套接字
udp套接字
http协议基础概念详解

1.2.5、正则表达式

基础概念及元字符使用、正则匹配规则

python re模块

2、requests【请求相关】

3、lxml【解析相关】

4、xpath【解析相关】

5、beautifulsoup【解析相关】

6、pyquery【解析相关】

7、mysql【数据库】

8、mongodb【数据库】

9、elasticsearch【企业级搜索引擎】

10、kafka【消息队列相关】

二、中级爬虫

1、ajax【能通过ajax接口获取数据】

2、puppeteer【基于js的爬虫框架,可直接执行js】

3、pyppeteer【基于puppeteer开发的python版本,需要python异步知识】

4、selenium【常见的自动化工具,支持多语言】

5、splash

6、多进程【python多任务基础】

7、多线程【python多任务基础】

8、协程【python多任务基础】

9、fiddler【抓包工具】

10、mitmproxy【中间人代理工具】

11、appium【自动化工具】

12、adb【安卓adb工具】

13、charles【抓包工具】

三、高级爬虫

1、消息队列相关

2、redis【缓存数据库,mongodb】

3、scrapy

3.1、redis【是crapy的redis组件】

3.2、redis-bloomfilter【scrapy的布隆过滤器】

3.3、cluster【分布式爬虫框架】

4、验证码破解

5、ip代理池

6、用户行为管理

7、分流技术【建池子】

7.1、token池

7.2、sign池

7.3、cookies池

8、账号管理

四、更高水平的爬虫

1、js逆向【分析目标站点js加密逻辑】

2、app逆向【xposed可在不改变原应用代码基础上植入自己的代码】

3、智能化爬虫

4、运维

4.1、grafana

4.2、prometheus

4.3、kubernetes

接私活一定要注意的个点:

1.没有第三方担保的个人单子尽量少接。

2.无需求文档,没具体需求的不接。

3没有预付不做,尽量用442的分步骤方式。

注意事项:

1.没有金刚钻,别揽瓷器活。

2.急单勿接。

3.任何不付定金的单子都是耍赖。

4.不计得失;不怕吃亏。

5.保证质量,塑造口碑。