Python 导出公众号文章为 Markdown #7
shenweiyan
announced in
2.1-乱弹
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
记录一下个人使用 Python3 爬取个人公众号的所有文章,并把文章保存为 Markdown 格式的一些操作记录,主要介绍一下思路和一些简单的代码。
前提条件与思路
之所以选择通过文章公开访问的 url 爬取对应文章的 HTML,而不是直接沿用 Cookies,主要是怕 Cookies 滥用导致其他不可预知的问题,例如封号之类。截止本文章发布前,个人公众号全部已发表的文章大约有 400 多篇,通过这个方法都能正常爬取下来。
获取已发表文章数
登录公众号,按下 F12 打开开发者工具,在
网络
栏中找到appmsgpublish
名称的请求。查看请求地址
获取 cookie
获取所有的文章信息
以下程序的
mp.txt
就是得到的该公众号所有文章信息的列表。HTML to Markdown
Python 导出公众号文章为 Markdown 最后的一步工作就是解析上一步骤得到的
mp.txt
文件,然后通过 url 去逐一爬取对应的文章 HTML,然后把 Html 转化成 Markdown 即可。这些步骤都很简单,网上搜一下就有一大堆教程,感兴趣的可以去搜一下,这里文章就不写了。
Beta Was this translation helpful? Give feedback.
All reactions