天才的微信公众号文章导出工具……

我一直很关注公众号文章导出和爬取，今天看到一个很有意思的开源项目：https://github.com/wechat-article/wechat-article-exporter ,用了一种很有意思的方法解决了这个问题。

核心原理（一句话）

它不是爬虫，是微信公众号管理后台的「代理人」——通过你扫码登录微信公众号后台（mp.weixin.qq.com），拿到 session cookie，然后用微信后台自己的内部 API 来拉取任何公众号的文章。

用户浏览器 → Nuxt 服务端 → mp.weixin.qq.com

⚠️ 你不需要是那个公众号的管理员。只要有任何一个微信公众号的管理权限就行——微信后台登录后，搜索公众号的 API 是全局的。

GET https://mp.weixin.qq.com/cgi-bin/searchbiz?query=xxx&token=xxx

用微信后台的搜索接口搜任何公众号，返回 fakeid（微信内部 ID）。

GET https://mp.weixin.qq.com/cgi-bin/appmsgpublish?fakeid=xxx&token=xxx

用的是微信后台的素材管理 API，可以拉到目标公众号的全部历史文章列表，包括：标题、摘要、链接、封面、发布时间、作者、是否原创、所属合集。

文章内容不是从后台 API 拿的，而是直接访问文章的 URL（mp.weixin.qq.com/s?__biz=xxx）。但微信有严格的反爬，直接从服务器 IP 访问会被封，所以项目部署了一套代理池架构：

代理管理器（ProxyManager）实现了：自动选最优代理（失败最少 + 最久未用）、失败自动冷却 + 指数退避重试、并发控制（HTML 可高并发，阅读量数据限 2 并发）。

拿到 HTML 后，从中提取 window.cgiDataNew 这个 JS 对象——这是微信文章页的核心数据结构，包含完整文章内容（HTML）、作者、公众号名、创建时间、IP 归属地、阅读量、点赞、分享、评论数。

解析方式很聪明：

阅读量和评论需要手机端微信的认证凭证（uin、key、pass_ticket）。项目提供了一个 mitmproxy 插件：手机设置代理 → 打开目标公众号文章 → 插件自动截获 Set-Cookie 提取凭证 → 暴露给前端使用。

支持 HTML、Markdown、DOCX、Excel、JSON、TXT 多种格式。所有数据存在浏览器端的 IndexedDB（通过 Dexie.js），不依赖服务器存储。