GitHub_Daily: 想要给 AI Agent 投喂最新的网页数据，自己写爬虫脚本颇为麻烦。刚搞定 Puppeteer，又被 Cloudfla

Recorded Date: 2026-02-13T10:01:11.000Z

Tags: 0

Source: here

想要给 AI Agent 投喂最新的网页数据，自己写爬虫脚本颇为麻烦。刚搞定 Puppeteer，又被 Cloudflare 的人机验证挡在门外，维护代理 IP 更是让人头大。

最近找到 Reader 这个开源项目，专为 LLM 设计的生产级网页抓取引擎，解决了“爬取”和“清洗”两大难题。

能够自动绕过各类反爬验证，将复杂的网页内容直接转化为干净的 Markdown 格式。内置了浏览器指纹伪装和自动重试机制，哪怕是面对高防护的网站，也能稳定获取数据。

GitHub：http://github.com/vakra-dev/reader…

提供 CLI 和 API 两种调用方式，底层基于 Ulixee Hero 构建，支持 Docker 部署，开箱即用。

如果正在开发需要联网能力的 AI 应用，或者受够了手动维护爬虫脚本，这个项目能帮我们节省大量时间。

Quck comment:

sbkm_twitter

Quck tags:

__sbkm_twitter, -, link, image

Preview?: false

My Post meta: {"params keys":["id"]}

My Post details: 379

{
    "data": {
        "id": 379,
        "attributes": {
            "title": "GitHub_Daily: 想要给 AI Agent 投喂最新的网页数据，自己写爬虫脚本颇为麻烦。刚搞定 Puppeteer，又被 Cloudfla",
            "url": "https://x.com/GitHub_Daily/status/2022249686418206730",
            "dateHappened": "2026-02-13T10:01:11.000Z",
            "content": [
                {
                    "type": "paragraph",
                    "children": [
                        {
                            "text": "想要给 AI Agent 投喂最新的网页数据，自己写爬虫脚本颇为麻烦。刚搞定 Puppeteer，又被 Cloudflare 的人机验证挡在门外，维护代理 IP 更是让人头大。\n\n最近找到 Reader 这个开源项目，专为 LLM 设计的生产级网页抓取引擎，解决了“爬取”和“清洗”两大难题。\n\n能够自动绕过各类反爬验证，将复杂的网页内容直接转化为干净的 Markdown 格式。内置了浏览器指纹伪装和自动重试机制，哪怕是面对高防护的网站，也能稳定获取数据。\n\nGitHub：http://github.com/vakra-dev/reader…\n\n提供 CLI 和 API 两种调用方式，底层基于 Ulixee Hero 构建，支持 Docker 部署，开箱即用。\n\n如果正在开发需要联网能力的 AI 应用，或者受够了手动维护爬虫脚本，这个项目能帮我们节省大量时间。",
                            "type": "text"
                        }
                    ]
                },
                {
                    "type": "image",
                    "image": {
                        "id": 393,
                        "ext": ".png",
                        "url": "https://s3.us-east-1.amazonaws.com/fatbonet-newstream/screenshot_1771071043213_7bc78b3f7d.png",
                        "hash": "screenshot_1771071043213_7bc78b3f7d",
                        "mime": "image/png",
                        "name": "screenshot_1771071043213.png",
                        "size": 979.37,
                        "width": 1480,
                        "height": 2360,
                        "caption": null,
                        "formats": {
                            "thumbnail": {
                                "ext": ".png",
                                "url": "https://s3.us-east-1.amazonaws.com/fatbonet-newstream/thumbnail_screenshot_1771071043213_7bc78b3f7d.png",
                                "hash": "thumbnail_screenshot_1771071043213_7bc78b3f7d",
                                "mime": "image/png",
                                "name": "thumbnail_screenshot_1771071043213.png",
                                "path": null,
                                "size": 21.49,
                                "width": 98,
                                "height": 156,
                                "sizeInBytes": 21492
                            }
                        },
                        "provider": "aws-s3",
                        "createdAt": "2026-02-14T12:10:50.424Z",
                        "updatedAt": "2026-02-14T12:10:50.424Z",
                        "previewUrl": null,
                        "alternativeText": null,
                        "provider_metadata": null
                    },
                    "children": [
                        {
                            "text": "",
                            "type": "text"
                        }
                    ]
                }
            ],
            "meta": {
                "quckTag": "__sbkm_twitter, -, link, image",
                "quckComment": "sbkm_twitter"
            },
            "public": false,
            "createdAt": "2026-02-14T12:10:52.107Z",
            "updatedAt": "2026-02-14T12:10:53.658Z",
            "publishedAt": "2026-02-14T12:10:43.162Z",
            "locale": "zh-Hant-HK",
            "tags": {
                "data": []
            }
        }
    },
    "meta": {}
}

GitHub_Daily: 想要给 AI Agent 投喂最新的网页数据，自己写爬虫脚本颇为麻烦。刚搞定 Puppeteer，又被 Cloudfla

Sidebar