想要给 AI Agent 投喂最新的网页数据,自己写爬虫脚本颇为麻烦。刚搞定 Puppeteer,又被 Cloudflare 的人机验证挡在门外,维护代理 IP 更是让人头大。

最近找到 Reader 这个开源项目,专为 LLM 设计的生产级网页抓取引擎,解决了“爬取”和“清洗”两大难题。

能够自动绕过各类反爬验证,将复杂的网页内容直接转化为干净的 Markdown 格式。内置了浏览器指纹伪装和自动重试机制,哪怕是面对高防护的网站,也能稳定获取数据。

GitHub:http://github.com/vakra-dev/reader…

提供 CLI 和 API 两种调用方式,底层基于 Ulixee Hero 构建,支持 Docker 部署,开箱即用。

如果正在开发需要联网能力的 AI 应用,或者受够了手动维护爬虫脚本,这个项目能帮我们节省大量时间。

screenshot_1771071043213.png