scrapy selenium phantomJS动态网页爬虫

目前phantomJS已经停止更新了，最新的selenium包在调用phantomJS时也发出了警告，说不再支持phantomJS了，可以用headless参数调用其他浏览器替代phantomJS。但是这个隐藏浏览器确实好用，况且也支持Windows，Linux，macOS。

下面给出一个通用的middleware，使得scrapy能够调用phantomJS实现动态网页爬虫。

middlewares.py

其中js是浏览器中要进行的操作。

from scrapy import signals
from selenium import webdriver
from scrapy.http import HtmlResponse
import time

class JSMiddleware(object):
    def process_request(self, request, spider):
        driver = webdriver.PhantomJS("/Users/reacubeth/Downloads/phantomjs-2.1.1-macosx/bin/phantomjs")  # 指定使用的浏览器
        driver.get(request.url)
        time.sleep(1)
        js = "var q=document.documentElement.scrollTop=10000"
        driver.execute_script(js)  # 可执行js，模仿用户操作。此处为将页面拉至最底端。
        body = driver.page_source
        print("访问" + request.url)
        return HtmlResponse(driver.current_url, body=body, encoding='utf-8', request=request)

from scrapy import signals

from selenium import webdriver

from scrapy.http import HtmlResponse

import time

class JSMiddleware(object):

def process_request(self, request, spider):

driver = webdriver.PhantomJS("/Users/reacubeth/Downloads/phantomjs-2.1.1-macosx/bin/phantomjs") # 指定使用的浏览器

driver.get(request.url)

time.sleep(1)

js = "var q=document.documentElement.scrollTop=10000"

driver.execute_script(js) # 可执行js，模仿用户操作。此处为将页面拉至最底端。

body = driver.page_source

print("访问" + request.url)

return HtmlResponse(driver.current_url, body=body, encoding='utf-8', request=request)

js = “var q=document.documentElement.scrollTop=10000” 这个目的是将页面滑到浏览器最底端

如果页面是动态加载，即页面持续变长，没有底部的（如知乎），可以使用如下代码（250是预设的一个值）：

js = "window.scrollTo(0,document.body.scrollHeight)"
for i in range(250):
    driver.execute_script(js)
    time.sleep(random.randint(1, 3))

js = "window.scrollTo(0,document.body.scrollHeight)"

for i in range(250):

driver.execute_script(js)

time.sleep(random.randint(1, 3))

settings.py

在DOWNLOADER_MIDDLEWARES中添加：

'route_track.middlewares.JSMiddleware': 100,

1	'route_track.middlewares.JSMiddleware': 100,

最前面的项目名称需要改动

留下评论

scrapy selenium phantomJS动态网页爬虫

middlewares.py

settings.py

大模型AlpacaFarm分析

NLG文本评估任务或许并不需要真值或参考文本

大模型中的RepE表征工程

大模型也是一种优化器（LLM as Optimizer）

全栈开发与快速部署Demo

学术idea自动发现与生成

自回归语言模型（language model）Python实现

粉丝期待的三体电影宇宙（近四十部电影与电视剧集）

基于历史对比学习的时序知识图谱推理

泰拉瑞亚Terriaria快速部署Linux服务器

留下评论取消回复

middlewares.py

settings.py

相关文章

留下评论取消回复