Python3爬虫之urllib模块
Python2 中的urllib和Python3中的urlllib的区别
在python 2中有urllib和urllib2两个库进行实现请求的发送,但是再python 3中官方将urllib2库合并在了urllib库中。所以在3中使用urllib库时一定要先了解其中的四个模块:
- request:这个模块是最基本的HTTP请求模块,用来模拟发送请求。
- error:异常处理模块,用来捕获异常,保证程序不会意外终止。
- parse:工具模块,提供了许多URL处理方法,如拆分、解析、编码等
- robotparser:用来识别网站的robots.txt文件,判断哪些网站可以爬,一般不用。
此处只讲解前三个的用法。