汤不热爬虫 tumblr-crawler

请注意，本文编写于 2429 天前，最后修改于 2309 天前，其中某些信息可能已经过时。

先配置好你的 Python 环境，然后

pip install requests xmltodict

或者

git clone https://github.com/dixudx/tumblr-crawler.git
cd tumblr-crawler
pip install -r requirements.txt

大功告成，直接跳到下一节配置和运行.

运行

pip install xmltodict six "requests>=2.10.0" "PySocks>=1.5.6"

下载 tumblr-crawler 并解压缩

配置和运行

有两种方式来指定你要下载的站点，一是编辑 sites.txt, 二是指定命令行参数.

第一种方法:编辑sites.txt文件

找到一个文字编辑器，然后打开文件 sites.txt, 把你想要下载的 Tumblr 站点编辑进去，以逗号 / 空格 /tab/ 表格鍵 / 回车符分隔，可以多行，不需要.tumblr.com 的后缀。例如，如果你要下载 vogue.tumblr.com and gucci.tumblr.com, 这个文件看起来是这样的:

vogue,gucci
vogue2, gucci2

然后保存文件，双击运行 tumblr-photo-video-ripper.py 或者在终端 (terminal) 里面运行 python tumblr-photo-video-ripper.py

第二种方法:使用命令行参数(仅针对会使用操作系统终端的用户)

如果你对 Windows 或者 Unix 系统的命令行很熟悉，你可以通过指定运行时的命令行参数来指定要下载的站点:

python tumblr-photo-video-ripper.py site1,site2

站点的名字以逗号分隔，不要有空格，不需要.tumblr.com 的后缀.

站点图片/视频的下载与保存

程序运行后，会默认在当前路径下面生成一个跟 tumblr 博客名字相同的文件夹，照片和视频都会放在这个文件夹下面.

运行这个脚本，不会重复下载已经下载过的图片和视频，所以不用担心重复下载的问题。同时，多次运行可以帮你找回丢失的或者删除的图片和视频.

使用代理 (可选)

如果不能够顺利访问和下载 tumblr 的内容，你应该配置一下代理.

文件格式参考./proxies_sample1.json 和./proxies_sample2.json. 然后把你的代理信息用 json 的格式写入./proxies.json. 你可以访问 http://jsonlint.com/ 以确保你的格式是正确的.

如果文件./proxies.json 没有任何内容，下载过程中不会使用代理.

如果你是全局模式使用 Shadowsocks 做代理，此时你的./proxies.json 文件可以写入如下内容，

{
    "http": "socks5://127.0.0.1:1080",
    "https": "socks5://127.0.0.1:1080"
}

然后重新运行下载命令.

转自：https://github.com/dixudx/tumblr-crawler

汤不热 tumblr 爬虫 crawler

汤不热爬虫 tumblr-crawler

配置和运行

第一种方法:编辑sites.txt文件

第二种方法:使用命令行参数(仅针对会使用操作系统终端的用户)

站点图片/视频的下载与保存

使用代理 (可选)

添加新评论

评论列表

汤不热爬虫 tumblr-crawler

配置和运行

第一种方法:编辑sites.txt文件

第二种方法:使用命令行参数(仅针对会使用操作系统终端的用户)

站点图片/视频的下载与保存

使用代理 (可选)

AnyNode：$12.5/年/256MB/10GB SSD空间/500GB流量/KVM/洛杉矶

V2RayN安装使用教程

添加新评论

评论列表