BeautifulSoup4库
和lxml一样,BeautifulSoup也是一个HTML/XML的解析器,主要的功能也是解析和提取HTML/XML数据。
lxml只会局部遍历,而BeautifulSoup是基于HTML DOM的,它会加载整个文档,解析整个DOM树,因此在时间和内存上也会有很大的开销,所以性能要低于lxml。
BeautifulSoup用来解析HTML比较简单,其API设计的非常人性化,同时BeautifulSoup也支持CSS选择器、Python标准库中的HTML解析器、lxml的XML。