基本爬虫入门-图片下载

从网上找了一个例子进行爬虫的入门,自己进行了修改之后把代码贴了上来,只是使用了urllib模块和正则进行匹配,就能下载.jpg。试过用来批量下载图虫的图片很轻松。并且已经用py2.exe转成直接可以运行的程序。

-- coding: utf-8 --

import urllib
import re

def getHtml(url):

page = urllib.urlopen(url)
html = page.read()
return html

def getImg(html):

reg = r'src="(.+?\.jpg)"' #匹配src=" .jpg"
imgre = re.compile(reg)
imglist = re.findall(imgre,html)#匹配后返回列表
x = 1
for imgurl in imglist:

urllib.urlretrieve(imgurl,path+prefix+'_%s.jpg' % x)
x+=1
print "图片"+str(x)+"已经下载!"

# 图片已经下载返回提示

print str(x-1)+"张图片全部下载完!"

url

html = getHtml(raw_input("请输入图片下载的网址:\n"))

path

path=raw_input("请输入图片存放目录:\n")+'\'
prefix=raw_input("请输入图片文件的前缀名:\n")
getImg(html)

标签: none

添加新评论