TriPriest

Pixiv Scraper

一个用于非商业化爬取 Pixiv 排行榜插画与信息的自动化爬虫工具。

🪄 项目背景

我希望能够方便地收集与整理 Pixiv 平台上的优质插画内容，尤其是每日排行榜与关注画师的最新作品。由于 Pixiv 平台没有直接开放完整的公开接口，因此我开发了一个自用的爬虫系统，在遵守合理访问频率的前提下实现数据采集与归档。

该项目仅用于个人学习与非商业用途。

🧩 项目简介

本项目实现了一个自动化的爬虫系统，用于定期爬取 Pixiv 上不同类型的排行榜和用户作品。系统不仅能下载插画图片，还会抓取包括作者信息、图片标签、发布时间等一系列元数据，并存储到数据库中以便后续分析与整理。

此外，我还实现了一个PDF 生成工具，可以将每日下载的插画自动打包输出，方便离线浏览和归档。

⚙️ 核心功能

📊 支持多种榜单类型：daily / weekly / user / latest_following / following
🖼️ 自动下载插画图片及相关元数据（作者ID、标签、发布时间等）
💾 数据存储至 MySQL 数据库
🔍 下载前自动比对图片ID，避免重复爬取
📄 一键生成爬取内容的 PDF 图集
🧠 使用进程池并行加速下载
💤 模拟设备与随机休眠机制，降低被反爬风险

🧠 项目特性

⚡ 高效并行的爬取机制，显著提升抓取速度
🔒 自动去重与反爬规避机制，确保稳定运行
🧩 支持数据持久化与二次处理（如分类、可视化）
🖨️ 提供 PDF 打包导出功能，方便日常浏览
🧰 可扩展结构，支持未来加入更多榜单类型或接口

🛠 技术栈

语言：Python
数据库：MySQL
并发处理：Multiprocessing（进程池）
请求模拟：Requests + 伪装 Headers / User-Agent
文件输出：ReportLab（PDF 生成）
数据结构：JSON + SQL Schema

🧪 使用示例

详情参考 Github 中的 README 文件。

📸 项目截图

暂无

👥 贡献者

🎨 设计 + 代码：个人
🧾 文档与测试：个人

📅 时间线

2025.03.18 - 概念设计
2025.03.20 - MVP 实现（daily/weekly/monthly rank 爬取）
2024.03.26 - 部署数据库，更新数据库对比功能
2024.03.30 - 实现关注列表爬取
2024.04.18 - 实现爬取失败，根据爬取批次回滚数据库的功能

📈 当前状态

✅ v1.0 结束于 2024-04-18
🔄 正在迭代 v2.0 版本