SessionSelenium
SessionSelenium是husky-spider-utils的核心组件,它整合了Selenium和Requests的功能,让爬虫开发更加便捷高效。
🚀 快速开始
⚙️ 初始化参数
参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
selenium_init_url | str | https://cn.bing.com | Selenium初始化链接 |
driver_type | str | firefox | 浏览器类型 |
headers | dict | 见下文 | Requests的headers |
download_path | str | "" | 浏览器下载路径 |
driver_path | str | "./" | 驱动程序路径 |
os_type | str | "windows" | 操作系统类型 |
option | object | None | Selenium选项 |
🌐 selenium_init_url
类型: str
默认值: https://cn.bing.com (提一嘴,建议大家可以使用bing作为常用搜索引擎)
selenium的初始化链接,用于启动浏览器时访问的第一个页面。
🔍 driver_type
类型: str
默认值: firefox
浏览器类型,支持以下三种类型:
🦊
firefox🌐
edge🌀
chrome
📋 headers
类型: dict
默认值: None
这里是requests的session的默认headers,虽然传值为None,但实际默认值如下,传入的值以update的方式修改默认值:
📂 download_path
类型: str
默认值: ""
浏览器下载文件路径设置,为空则使用浏览器默认下载路径。
🔧 driver_path
类型: str
默认值: "./"
driver路径,默认为工作目录根目录下,若未检测到会自动下载。
💻 os_type
类型: str
默认值: "windows"
这里的作用主要为driver的下载,支持填写:
windowslinux
⚙️ option
selenium options对象,用于自定义浏览器行为。注意: download_path参数的优先级大于传入的option中的下载路径设置。
📝 建议开发方式
husky-spider-utils提供了灵活的开发方式,以下是两种推荐的使用模式:
🧬 继承式
通过继承SeleniumSession类,可以方便地扩展功能:
🔄 成员变量式
将SeleniumSession作为类的成员变量使用:
通过使用SessionSelenium,你可以轻松结合Selenium的浏览器自动化能力和Requests的高效网络请求功能,大大简化爬虫开发流程。