程序三步走:

1. 获取整个页面数据

urllib 模块提供了读取web页面数据的接口,先定义一个getPage()函数

urllib.urlopen()方法用于打开一个URL地址

read()方法用于读取URL上的数据,向getPage()函数传递一个网址,并把整个页面下载下来

2. 筛选页面中想要的数据

导入re模块,利用Python提供的非常丰富的正则表达式筛选页面中想要的数据,这里我筛选的是 JPG 图片

创建了getImg()函数,用于在获取的整个页面中筛选需要的图片连接

re模块主要包含了正则表达式

re.compile() 可以把正则表达式编译成一个正则表达式对象

re.findall() 方法读取html 中包含 imgre(正则表达式)的数据

运行脚本将得到整个页面中包含图片的URL地址。

3. 将页面筛选的数据保存到本地

把筛选的图片地址通过for循环遍历并保存到本地

urllib.urlretrieve()方法,直接将远程数据下载到本地。

通过一个for循环对获取的图片连接进行遍历,重命名图片,使其看上去不会乱糟糟的,命名规则通过x变量累加,保存的位置默认为程序的存放目录,这个目录可以更改

输入想要图片的 URL ,程序运行完成后将在程序目录下看到匹配出的所有图片了

Read More »