Puppeteer拦截修改返回值

2021-04-15 10:11:17

参考地址 Puppeteer拦截某条url并返回其响应内容(场景和方法) API RequestInterception拦截器的使用

page.setRequestInterception(true)拦截器的使用方法和场景

现附上Puppeteer的Api的链接https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md


实用场景(没错就是实用):比如我用Puppeteer模拟某个网页,然后我只想抓到这条网页的url的response的内容,或者我需要截图或者生成PDF但是只要文件我就可以过滤掉后缀是图片的url


使用的api:定位到api的链接https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#class-request 


主要是class: Request 和 class: Response 两大块相结合


官方例子参考1:


await page.setRequestInterception(true);

page.on('request', request => {

  request.respond({

    status: 404,

    contentType: 'text/plain',

    body: 'Not Found!'

  });

});

实际使用的例子参考1:


'use strict';

 

const puppeteer = require('puppeteer');

 

(async () => {

    const browser = await puppeteer.launch({

        ignoreHTTPSErrors: true,

        headless: false,

        args: ['--no-sandbox', '--disable-setuid-sandbox'],

    }).catch(() => browser.close);

    const page = await browser.newPage();

 

    let response = await page.goto('http://www.google.com');

    response.json();// 将response.body 转成json。

    console.log(response);

    await page.setRequestInterception(true);

    page.on('requestfailed', request => {

        console.log(request.url() + ' ' + request.failure().errorText);

    });

    // response.ok(); //  返回一个boolean值 如果状态码为200-299则为true, 其他则为false.

    // response.status; // 返回状态码

    // response.text(); // 返回 response body.

    // response.headers // 返回 HTTP headers

    await browser.close();

})();

实际参考例子2:


'use strict';

 

const puppeteer = require('puppeteer');

(async () => {

    try {

        const browser = await puppeteer.launch({

            ignoreHTTPSErrors: true,

            headless: false,

            args: ['--no-sandbox', '--disable-setuid-sandbox'],

        }).catch(() => browser.close);

        const page = await browser.newPage();

        await page.setRequestInterception(true);

        var num = 0;

        await page.on('request', request => {

            //这就是请求的类型如果是图片类型的话执行abort拦截操作 否则continue继续请求别的

            if (request.resourceType() === 'image') {

                console.log(num + "image: ");

                let res = request.response();

                console.log(request.url);

                console.log(res);

                num++;

                request.abort();

            } else {

                // request.respond({

                //     status: 200,

                //     contentType: 'text/plain',

                //     body: 'GOOD!'

                // });

                console.log("continue")

                request.continue();

            }

 

        });

        // page.on('request', request => {

        //     if (request.resourceType() === 'image')

        //         request.abort();

        //     else

        //         request.continue();

        // });

        await page.goto('https://news.google.com/news/');

        await page.screenshot({path: 'news.png', fullPage: true});

 

        await browser.close();

    } catch (e) {

        console.log(e);

    }

 

})();

基本代码注释也很清楚也很容易理解,这是两个比较常用的例子,接下来是实战中更加常用的实用性例子


实际参考例子3(重点):


/**

 * 获取拦截某条url内容的

 * @param page

 * @returns {Promise<any | never>}

 */

async function getResponseMsg(page) {

    return new Promise((resolve, reject) => {

        page.on('request', request => {

            if (request.url() === 'https://test.do') {

                console.log(request.url());

                console.log("拦截到了这条url然后就该请求了");

                page.on('response', response => {

                    if (response.url() === 'https://test.do') {

                        const req = response.request();

                        console.log("Response 的:" + req.method, response.status, req.url);

                        let message = response.text();

                        message.then(function (result1) {

                            results = result1;

                            resolve(results);

                        });

                    }

 

                });

                request.continue();

 

            }

            else {

                console.log(request.url());

                console.log("continue");

                request.continue();

            }

 

        });

    }).catch(new Function()).then();

 

}

稍微解释下上面这个例子,就是拦截拿到内容 然后返回 代码也清晰不多累赘 全是爬坑干货 欢迎一起爬坑



  • 2018-04-03 10:21:35

    jquery实时监听输入框值变化

    在做web开发时候很多时候都需要即时监听输入框值的变化,以便作出即时动作去引导浏览者增强网站的用户体验感。而采用onchange时间又往往是在输入框失去焦点(onblur)时候触发,有时候并不能满足条件。

  • 2018-04-03 10:22:20

    JQuery如何监听DIV内容变化

    这几天在做一个微博的接入,需要判断微博是否被关注,要检查微博标签的DIV是否有“已关注”的字符,但这个DIV的内容是微博JSSDK动态生成。$("#id").html()是获取不到我想要的内容。原因是当我们获取的时候内容还没有改变,所以获取不到,如果就想到监听这个DIV内容变化后,再来获取就个时候就能获取到了。于是产生新的问题,如何监听DIV的变化?

  • 2018-04-04 23:52:03

    PowerManager之PowerManager

    当你在做一些事情时,如果持续时间过长,那么一段时间后屏幕会灭掉,如果你想在你做这些事时屏幕始终保持点亮状态,那么你需要WakeLock的帮助。

  • 2018-04-07 23:35:16

    使用Intent传递对象的两种方式

    Intent 的用法相信你已经比较熟悉了,我们可以借助它来启动活动、发送广播、启动服务等。在进行上述操作的时候,我们还可以在Intent 中添加一些附加数据,以达到传值的效果,比如在FirstActivity 中添加如下代码:

  • 2018-04-10 14:59:59

    JS实现数组去重方法总结(六种方法)

    这篇文章给大家总结下JS实现数组去重方法(六种方法),面试中也经常会遇到这个问题。文中给大家引申的还有合并数组并去重的方法,感兴趣的朋友跟随脚本之家小编一起学习吧

  • 2018-04-13 17:28:33

    jsoup 使用总结4--高级用法之 script js 脚本

    大部分时候,我们使用jsoup解析网页的时候,都是直接找到某一类元素,或者按某种selector查询;具体使用方法可以参考jsoup官网文档 那么你有没有实际操作过,查找script js 脚本呢,因为很多时候页面的内容是根据js动态生成的,或者数据是动态变更;那么这个时候,我们只是获取html页面中script js脚本之间的内容。