知乎盐选文章获取工具,专业的内容提取解决方案。
ZhiHu Tools 是一个专为获取知乎盐选文章而设计的工具。自2022-2023年起,知乎平台实施了一系列网页结构变更和反爬虫机制,将盐选内容限制为仅可在移动应用中查看。本项目旨在提供一个解决这些技术障碍的有效方案。
- 感谢 @Xmug 贡献的PR,修复了多个bug
- 完成代码重构和架构优化
├─answerSpider # 问题回答提取模块
├─config # 配置设置
├─ddddocr # OCR功能组件
├─fakeUserAgent # 请求头管理
├─fontPreview # 字体问题解决工具
├─main # 核心执行脚本
└─marketSpider # 市场内容提取模块
功能 | 状态 |
---|---|
动态请求头生成 | ✅ 已完成 |
字体解码与渲染问题 | ✅ 已完成 |
单一问题内容提取 | ⏳ 开发中 |
市场链接内容提取 | ✅ 已完成 |
完整书籍采集 | ⏳ 开发中 |
图形界面实现 | ⏳ 计划中 |
基于关键词的内容搜索 | ⏳ 计划中 |
- Python 3.x 环境
- 有效的知乎盐选会员账号
- 网络检测工具(用于获取必要的认证信息)
- 将此仓库克隆到本地
- 进入项目目录
- 在
config.ini
中配置您的认证信息 - 执行主脚本:
python main/spider.py
提取带有"question"标识符的文章内容。由于知乎平台变更,这些链接需要特定格式,可能需要通过网络检测获取。
使用正确格式的URL从知乎市场提取内容。
示例链接格式:
https://www.zhihu.com/market/paid_column/1702723501155422208/section/1788920608135983104
提取整本盐选书籍的功能正在开发中。
此功能旨在解决知乎网页界面重定向到移动应用并提供特定关键词的情况。开发进行中。
模块缺失错误
- 使用pip安装所需依赖:
pip install -r requirements.txt
内容获取失败
- 确保您拥有有效的知乎盐选会员账号
- 验证您的认证cookie是否正确配置
- 检查您的User-Agent字符串是否合适(推荐使用移动设备格式)
- 项目包含多个User-Agent选项;如果初始尝试失败,请重试
其他技术问题
- 请创建issue并提供完整的错误详情
- 遵循提问的智慧中的最佳实践
本工具设计用于个人存档合法可访问的盐选内容。用户有责任确保其使用符合知乎服务条款和适用法律。
欢迎贡献。请遵循标准GitHub工作流:
- Fork仓库
- 创建功能分支
- 提交包含清晰文档的Pull Request