Skip to content

onewhitethreee/zhihu_tools

Repository files navigation

ZhiHu Tools

知乎盐选文章获取工具,专业的内容提取解决方案。

项目概述

ZhiHu Tools 是一个专为获取知乎盐选文章而设计的工具。自2022-2023年起,知乎平台实施了一系列网页结构变更和反爬虫机制,将盐选内容限制为仅可在移动应用中查看。本项目旨在提供一个解决这些技术障碍的有效方案。

最新更新

2025年3月8日

  • 感谢 @Xmug 贡献的PR,修复了多个bug

2024年4月20日

  • 完成代码重构和架构优化

项目结构

├─answerSpider      # 问题回答提取模块
├─config            # 配置设置
├─ddddocr           # OCR功能组件
├─fakeUserAgent     # 请求头管理
├─fontPreview       # 字体问题解决工具
├─main              # 核心执行脚本
└─marketSpider      # 市场内容提取模块

开发路线图

功能 状态
动态请求头生成 ✅ 已完成
字体解码与渲染问题 ✅ 已完成
单一问题内容提取 ⏳ 开发中
市场链接内容提取 ✅ 已完成
完整书籍采集 ⏳ 开发中
图形界面实现 ⏳ 计划中
基于关键词的内容搜索 ⏳ 计划中

系统要求

  • Python 3.x 环境
  • 有效的知乎盐选会员账号
  • 网络检测工具(用于获取必要的认证信息)

安装与使用

  1. 将此仓库克隆到本地
  2. 进入项目目录
  3. config.ini 中配置您的认证信息
  4. 执行主脚本:
    python main/spider.py
    

功能指南

选项1:基于问题的内容提取

提取带有"question"标识符的文章内容。由于知乎平台变更,这些链接需要特定格式,可能需要通过网络检测获取。

选项2:市场内容提取

使用正确格式的URL从知乎市场提取内容。

示例链接格式:

https://www.zhihu.com/market/paid_column/1702723501155422208/section/1788920608135983104

选项3:完整书籍提取

提取整本盐选书籍的功能正在开发中。

选项4:基于关键词的内容获取

此功能旨在解决知乎网页界面重定向到移动应用并提供特定关键词的情况。开发进行中。

故障排除

常见问题

模块缺失错误

  • 使用pip安装所需依赖:
    pip install -r requirements.txt
    

内容获取失败

  • 确保您拥有有效的知乎盐选会员账号
  • 验证您的认证cookie是否正确配置
  • 检查您的User-Agent字符串是否合适(推荐使用移动设备格式)
  • 项目包含多个User-Agent选项;如果初始尝试失败,请重试

其他技术问题

  • 请创建issue并提供完整的错误详情
  • 遵循提问的智慧中的最佳实践

法律与道德考量

本工具设计用于个人存档合法可访问的盐选内容。用户有责任确保其使用符合知乎服务条款和适用法律。

贡献指南

欢迎贡献。请遵循标准GitHub工作流:

  1. Fork仓库
  2. 创建功能分支
  3. 提交包含清晰文档的Pull Request

如果您有特定的需求,请带上您的报价+要求发送到邮箱twaapot@gmail.com

我会在看到后进行回复

About

知乎盐选会员文章下载 zhihu vip

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages