动态网页数据抓取

发表于 2019-07-03 更新于 2020-07-14 分类于爬虫本文字数： 6.9k 阅读时长 ≈ 6 分钟

动态页面数据抓取

什么是AJAX

AJAX（Asynchronouse JavaScript And XML）异步JavaScript和XML。在后台与服务器进行少量数据换时，可以在不重新加载整个网页的情况下，利用Ajax对网页实现异步更新。在传统的网页中，如果要获取更新内容，需要重新加载整个页面。因为传统的网页数据传输格式使用的是XML语法。在Ajax加载的网页中，数据的交互使用的是JSON格式。

获取ajax数据的格式

直接分析ajax调用的接口，然后通过代码请求接口。
使用selenium+chromedriver模拟浏览器的行为获取数据。

方式	优点	缺点
分析接口	直接可以请求到数据，不需要做一些解析工具，代码量少，性能高。	分析接口比较复杂，特别是一些通过js混淆的接口，需要有js的功底。容易被发现是爬虫。
selenium	直接模拟浏览器的行为，浏览器能请求到的，使用selenium也同样可以获取。爬虫更稳定。	代码量多，性能低。

selenium + chromdriver获取动态数据

Selenium是一个自动化测试工具，可以在模拟人类在浏览器上的行为，自动处理浏览器上的一些行为，如点击，填充数据，删除cookie等。chromedriver是一个chrome浏览器的驱动程序。

Chromedriver：http://npm.taobao.org/mirrors/chromedriver

安装Selenium和chromedriver

安装selenium：pip install selenium
安装chromedriver：下载完毕后，放到自己能找到的英文目录中即可。

快速开始

以一个例子快速开始

from selenium import webdriver
import time

driver_path = './driver/chromedriver.exe'
url = "https://www.baidu.com"

driver = webdriver.Chrome(executable_path=driver_path)

driver.get(url)
print(driver.page_source)
time.sleep(5)
driver.close()

在运行之后会出现一个浏览器框，并自动的访问百度

selenium官方文档

https://selenium-python.readthedocs.io/index.html

关闭页面

driver.close()：关闭当前页面
driver.quit()：退出整个浏览器

定位元素

find_element_by_id：根据id查找某个元素

1
2
3

submitTag = driver.find_element_by_id('su')
### 等价于
submitTag = driver.find_element(By.ID, 'su')

find_element_by_class_name：根据类名查找元素

1
2
3

submitTag = driver.find_element_by_class_name('s_ipt')
### 等价于
submitTag = driver.find_element(By.CLASS, 's_ipt')

find_element_by_name：根据name属性的值来查找元素

1
2
3

submitTag = driver.find_element_by_name('email')
### 等价于
submitTag = driver.find_element(By.NAME,'email')

find_element_by_tag_name：根据标签名来查找元素

1
2
3

submitTag = driver.find_element_by_tag_name('div')
### 等价于
submitTag = driver.find_element(By.TAG_NAME,'div')

find_element_by_xpath：根据xpath语法来获取元素

1
2
3

submitTag = driver.find_element_by_xpath('//div')
### 等价于
submitTag = driver.find_element(By.XPATH,'//div')

find_element_by_css_selector：根据css选择器选择元素

1
2
3

submitTag = driver.find_element_by_css_selector('//div')
### 等价于
submitTag = driver.find_element(By.CSS_SELECTOR,'//div')

By模块导入

1	from selenium.webdriver.common.by import By

注意：find_element是获取第一个满足条件的元素。find_elements是获取所有满足条件的元素

操作表单元素

在操作输入框时需要分为两步，一：找到表单元素，二：填充数据。
1
2
inputTag = driver.find_element_by_id('kw')
inputTag.send_keys("Python")
使用clear方法可以清除输入框中的内容

inputTag.clear()
操作checkbox时，需要先选中checkbox标签，然后执行click事件。
1
2
rememberTag = driver.find_element_by_name("rememberMe")
rememberTag.click()

选择select时，不能直接点击，因为点击后还需要选中元素。因此在selenium中专门为select标签设置了一个类selenium.webdriver.support.ui.Select。将获取到的元素当成参数传到这个类中，创建这个对象，之后就可以使用这个对象进行选择了。

from selenium.webdriver.support.ui import Select

### 选中标签创建对象
selectTag = Select(driver.find_element_by_name("jumpMenu"))
### 根据索引选择
selectTag.select_by_index(1)

### 根据值选择
selectTag.select_by_value("https://www.python.org")

### 根据可视化文本选择
selectTag.select_by_visible_text("Python")

### 取消选中的所有选项
selectTag.deselect_all()

操作按钮：

1 2	inputTag = driver.find_element_by_id("su") inputTag.click()

行为链

有时候在页面中的操作可能要有很多步，那么这时候可以使用鼠标行为链类ActionChains来完成。如将鼠标移到某个元素并执行点击事件。

inputTag = driver.find_element(By.ID, 'kw')
submitTag = driver.find_element_by_id('su')

actions = webdriver.ActionChains(driver)
actions.move_to_element(inputTag)
actions.send_keys_to_element(inputTag, 'Python')
actions.move_to_element(submitTag)
actions.click(submitTag)
actions.perform()

更多鼠标相关操作

click_and_hold(element)：点击但不松开鼠标
context_click(element)：右键点击
double_click(element)：双击

Cookie操作

获取所有的cookie

1 2	for cookie in driver.get_cookies(): print(cookie)

根据cookie的key获取value
1
value = driver.get_cookie(key)
删除所有的cookie
1
driver.delete_all_cookies()
删除某个cookie
1
driver.delete_cookie(key)

页面等待

现在的网页多采用 Ajax 技术，这样程序便不能确定何时某个元素完全加载出来了。如果实际页面等待时间过长导致某个dom元素还没出来，在使用了WebElement时，就会抛出NullPointer的异常。为了解决这个问题。所以 Selenium 提供了两种等待方式：一种是隐式等待、一种是显式等待。

隐式等待

调用driver.implicitly_wait。

driver = webdriver.Chrome(executable_path=driver_path)
driver.implicitly_wait(10)
# 请求网页
driver.get("https://www.douban.com/")

显式等待

显示等待是表明某个条件成立后才执行获取元素的操作。也可以在等待的时候指定一个最大的时间，如果超过这个时间那么就抛出一个异常。显示等待应该使用selenium.webdriver.support.excepted_conditions期望的条件和selenium.webdriver.support.ui.WebDriverWait来配合完成。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Firefox()
driver.get("http://somedomain/url_that_delays_loading")
try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()

其他的等待条件
1. presence_of_element_located：某个元素已经加载完毕了。
2. presence_of_all_emement_located：网页中所有满足条件的元素都加载完毕了。
3. element_to_be_cliable：某个元素是可以点击了。
更多条件请参考：http://selenium-python.readthedocs.io/waits.html

切换页面

在切换页面时，selenium提供了一个叫做switch_to_window来进行切换，具体切换到哪个页面，可以从driver.window_handles中找到。

# 打开一个新的页面
self.driver.execute_script("window.open('"+url+"')")
# 切换到这个新的页面中
self.driver.switch_to_window(self.driver.window_handles[1])

设置代理

from selenium import webdriver
import time

options = webdriver.ChromeOptions()
options.add_argument("--proxy-server=http://113.12.202.50:50327")
driver_path = "./driver/chromedriver.exe"
driver = webdriver.Chrome(executable_path=driver_path, options=options)

driver.get('http://httpbin.org/ip')
time.sleep(5)
driver.quit()

WebElement元素

from selenium.webdriver.remote.webelement import WebElement类是每个获取出来的元素的所属类

常用属性：

get_attribute：这个标签的某个属性的值。
screentshot：获取当前页面的截图。这个方法只能在driver上使用。driver的对象类，也是继承自WebElement。

对带有页面嵌套的豆瓣进行登录

from selenium import webdriver
import time

driver_path = "./driver/chromedriver.exe"
driver = webdriver.Chrome(executable_path=driver_path)
driver.get('https://www.douban.com')
iframe = driver.find_element_by_tag_name("iframe")
driver.switch_to.frame(iframe)

login = driver.find_element_by_class_name("account-tab-account")

actions = webdriver.ActionChains(driver)
actions.move_to_element(login)
actions.click()
actions.perform()

username = driver.find_element_by_id("username")
password = driver.find_element_by_id("password")
submit = driver.find_element_by_xpath("//div[@class='account-form-field-submit ']/a")

actions.move_to_element(username)
actions.send_keys_to_element(username, "your username")
actions.move_to_element(password)
actions.send_keys_to_element(password, "your password")
actions.move_to_element(submit)
actions.click()
actions.perform()

time.sleep(10)

driver.quit()

注意：在使用以下内容时会出现警告信息，身为有代码洁癖的人，最不能忍受运行中出现警告信息。

警告信息：

1	DeprecationWarning: use driver.switch_to.frame instead driver.switch_to_frame(iframe)

使用方式：

1 2	iframe = driver.find_element_by_tag_name("iframe") driver.switch_to_frame(iframe)

将上文改为即可：

1 2	iframe = driver.find_element_by_tag_name("iframe") driver.switch_to.frame(iframe)

对框架的解决方式推荐一篇文章：Selenium（十二）嵌套frame定位