图片爬虫-shell脚本
图片爬虫-shell脚本
最近找网上的不错的能做封面的图片,但是图片一多保存起来非常麻烦,闲暇之余打算干脆写个shell脚本。
Last time: 2024/10/5
介绍:
本脚本由CSDevil全力打造,基于Bash,可以在几乎所有的类 Unix 系统上执行,包括但不限于(linux发行版、windows、mac、bsd)。以操作简单、高效、作为宗旨。只需输入网站链接即可进行对整个网站的图片进行爬取、爬取分页网站,预览、下载爬取到图片链接等功能。
本脚本原理:通过访问网站后获取网站源码进行分析,单独提取网站源码中的图片链接并保存到工作目录中的list.txt文件中,然后进行生成html预览文件、下载图片等功能,本脚本的下载、删除文件均在您输入的或提示中默认的路径目录中执行
使用教程:
1.在使用CSDevil-Shell图片爬虫的过程中,请您务必要注意法律责任问题。下载图片涉及到版权问题,因此在使用脚本时,请确保您有权下载这些图片或图片是公开资源。同时,本脚本仅用来学习交流,不对用户的使用行为承担任何法律责任,使用者需独立承担相关法律风险。使用者需自行注意是否有权爬取某个网站。
2.不得使用本脚本用于非法用途,本脚本不提供任何绕过人机验证的服务,爬取网站时请确保您有权爬取网站中的图片、下载图片频率不会对网站造成影响、已遵守网站的robots.txt文件中的规定。
使用图片爬虫脚本非常简单,您只需在终端中输入以下命令即可开始使用:
Centos/Ubuntu:
1 |
|
其他系统未测试,未进行测试,谨慎使用
使用说明
1.请确保您的系统中安装了
wget
软件包,否则无法执行脚本(2)中的下载代码2.请确保您在系统中安装了
zip
软件包,否则无法执行脚本(3)中的压缩指令。3.请注意,一定要确保工作路径正确,否则后果自负。
如果您是执行的上面的代码使用的脚本,那么我们可以保证脚本中无任何恶意的涉及执行终端的代码或者病毒,本脚本代码是开源的,您可以自行检查。
使用过程中务必确保您的爬虫行为是合法的,在使用过程中如果有任何问题、损失、法律责任都由您个人负责
脚本更新日志:
2024.3.22-v1.0.1:
1.简单融合3个脚本功能代码,优化算法
2.修复已知删除文件时的BUG,优化逻辑
2024.3.25-v1.0.2
1.修复爬取时候不跟随跳转的问题,新增参数自定义爬取
2.新增用户自定义化参数
2024.3.27-v1.0.21
1.下载图片链接时使用多线程下载,下载速度翻倍。
2.优化下载图片链接时的算法
2024.7.22-v1.0.3
1.优化部分语法、兼容Ubuntu系统
2.修复脚本(3)中的语法错误
3.删除打包删除时的部分无用代码
4.部分算法重写
2024.10.5-v1.1
1.修复脚本3中的在(1)序号执行中zip压缩找不到路径的问题
2.修复优化脚本3zh的部分代码,兼容Ubuntu的zip压缩模块代码
3.调整版本号显示
注:以上内容仅供学习交流使用,禁止用于非法目的。请自觉遵守法律规定。本网站所有内容仅限于学习交流和娱乐,任何非法用途均由使用者个人承担责任。