Puppeteer拦截修改返回值

2021-04-15 10:11:17

参考地址 Puppeteer拦截某条url并返回其响应内容(场景和方法) API RequestInterception拦截器的使用

page.setRequestInterception(true)拦截器的使用方法和场景

现附上Puppeteer的Api的链接https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md


实用场景(没错就是实用):比如我用Puppeteer模拟某个网页,然后我只想抓到这条网页的url的response的内容,或者我需要截图或者生成PDF但是只要文件我就可以过滤掉后缀是图片的url


使用的api:定位到api的链接https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#class-request 


主要是class: Request 和 class: Response 两大块相结合


官方例子参考1:


await page.setRequestInterception(true);

page.on('request', request => {

  request.respond({

    status: 404,

    contentType: 'text/plain',

    body: 'Not Found!'

  });

});

实际使用的例子参考1:


'use strict';

 

const puppeteer = require('puppeteer');

 

(async () => {

    const browser = await puppeteer.launch({

        ignoreHTTPSErrors: true,

        headless: false,

        args: ['--no-sandbox', '--disable-setuid-sandbox'],

    }).catch(() => browser.close);

    const page = await browser.newPage();

 

    let response = await page.goto('http://www.google.com');

    response.json();// 将response.body 转成json。

    console.log(response);

    await page.setRequestInterception(true);

    page.on('requestfailed', request => {

        console.log(request.url() + ' ' + request.failure().errorText);

    });

    // response.ok(); //  返回一个boolean值 如果状态码为200-299则为true, 其他则为false.

    // response.status; // 返回状态码

    // response.text(); // 返回 response body.

    // response.headers // 返回 HTTP headers

    await browser.close();

})();

实际参考例子2:


'use strict';

 

const puppeteer = require('puppeteer');

(async () => {

    try {

        const browser = await puppeteer.launch({

            ignoreHTTPSErrors: true,

            headless: false,

            args: ['--no-sandbox', '--disable-setuid-sandbox'],

        }).catch(() => browser.close);

        const page = await browser.newPage();

        await page.setRequestInterception(true);

        var num = 0;

        await page.on('request', request => {

            //这就是请求的类型如果是图片类型的话执行abort拦截操作 否则continue继续请求别的

            if (request.resourceType() === 'image') {

                console.log(num + "image: ");

                let res = request.response();

                console.log(request.url);

                console.log(res);

                num++;

                request.abort();

            } else {

                // request.respond({

                //     status: 200,

                //     contentType: 'text/plain',

                //     body: 'GOOD!'

                // });

                console.log("continue")

                request.continue();

            }

 

        });

        // page.on('request', request => {

        //     if (request.resourceType() === 'image')

        //         request.abort();

        //     else

        //         request.continue();

        // });

        await page.goto('https://news.google.com/news/');

        await page.screenshot({path: 'news.png', fullPage: true});

 

        await browser.close();

    } catch (e) {

        console.log(e);

    }

 

})();

基本代码注释也很清楚也很容易理解,这是两个比较常用的例子,接下来是实战中更加常用的实用性例子


实际参考例子3(重点):


/**

 * 获取拦截某条url内容的

 * @param page

 * @returns {Promise<any | never>}

 */

async function getResponseMsg(page) {

    return new Promise((resolve, reject) => {

        page.on('request', request => {

            if (request.url() === 'https://test.do') {

                console.log(request.url());

                console.log("拦截到了这条url然后就该请求了");

                page.on('response', response => {

                    if (response.url() === 'https://test.do') {

                        const req = response.request();

                        console.log("Response 的:" + req.method, response.status, req.url);

                        let message = response.text();

                        message.then(function (result1) {

                            results = result1;

                            resolve(results);

                        });

                    }

 

                });

                request.continue();

 

            }

            else {

                console.log(request.url());

                console.log("continue");

                request.continue();

            }

 

        });

    }).catch(new Function()).then();

 

}

稍微解释下上面这个例子,就是拦截拿到内容 然后返回 代码也清晰不多累赘 全是爬坑干货 欢迎一起爬坑



  • 2020-12-16 22:07:44

    Android视频点播-边播边缓存

    一些知名的视频app客户端(优酷,爱奇艺)播放视频的时候都有一些缓存进度(二级进度缓存),qq,微信有关的小视频,还有一些短视频app,都有边播边缓的处理。还有就是当文件缓存完毕了再次播放的话就不再请求网络了直接播放本地文件了。既节省了流程又提高了加载速度。 今天我们就是来研究讨论实现这个边播边缓存的框架,因为它不和任何的业务逻辑耦合。

  • 2020-12-16 22:46:44

    基于coturn项目的stun/turn服务器搭建

    webrtc是google推出的基于浏览器的实时语音-视频通讯架构。其典型的应用场景为:浏览器之间端到端(p2p)实时视频对话,但由于网络环境的复杂性(比如:路由器/交换机/防火墙等),浏览器与浏览器很多时候无法建立p2p连接,只能通过公网上的中继服务器(也就是所谓的turn服务器)中转。示例图如下:

  • 2020-12-16 23:06:05

    Rocket.Chat推送信息

    Rocket.Chat推送消息 Rocket.Chat是一个开源实时通讯平台, 支持Windows, Mac OS, Linux. 支持聊天, 文件上传, 视频通话, 语音通话功能. 向Rocket.Chat推送消息 以下示例可以转为别的语言的版本, 本示例使用Linux平台的curl测试, curl非常强大. 登陆 首先需要登陆Rocket.Chat服务器

  • 2020-12-17 09:01:23

    对BitTorrent Tracker源码分析

    tracker服务器是BT下载中必须的角色。一个BT client 在下载开始以及下载进行的过程中,要不停的与 tracker 服务器进行通信,以报告自己的信息,并获取其它下载client的信息。这种通信是通过 HTTP 协议进行的,又被称为 tracker HTTP 协议,它的过程是这样的: client 向 tracker 发一个HTTP 的GET请求,并把它自己的信息放在GET的参数中;这个请求的大致意思是:我是xxx(一个唯一的id),我想下载yyy文件,我的ip是aaa,我用的端口是bbb。。。

  • 2020-12-17 10:55:48

    html5 video p2p research

    节约带宽,减少缓冲时间,提升服务质量,处理峰值流量, 视频观看的人越多,播放越流畅。

  • 2020-12-17 10:57:34

    使用 MediaSource 搭建流式播放器

    Media Source Extensions(媒体源扩展)大大地扩展了浏览器的媒体播放功能,提供允许JavaScript 生成媒体流。这可以用于自适应流(adaptive streaming,也是我毕设的研究方向)及随时间变化的视频直播流(live streaming)等应用场景。

  • 2020-12-17 11:00:37

    H5流式播放(FMP4转封装与mediaSource)

    W3C上有明确关于mediaSource 扩展接口的文档。mediaSource 扩展文档中是这么定义的, 它允许JS脚本动态构建媒体流用于和,允许JS传送媒体块到H5媒体元素。这种接口的应用可以让h5播放器实现持续添加数据进行播放。做as的朋友都知道as中的appendBytes方法,一种添加二进制数据进行播放的方式。这两种接口在概念上是类似的。只是里面的定义和对媒体文件的要求有所不同。对于mediaSource扩展接口我只介绍我们主要应用的几个。