基本爬虫入门-图片下载
从网上找了一个例子进行爬虫的入门,自己进行了修改之后把代码贴了上来,只是使用了urllib模块和正则进行匹配,就能下载.jpg。试过用来批量下载图虫的图片很轻松。并且已经用py2.exe转成直接可以运行的程序。
-- coding: utf-8 --
import urllib
import re
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)"' #匹配src=" .jpg"
imgre = re.compile(reg)
imglist = re.findall(imgre,html)#匹配后返回列表
x = 1
for imgurl in imglist:
urllib.urlretrieve(imgurl,path+prefix+'_%s.jpg' % x)
x+=1
print "图片"+str(x)+"已经下载!"
# 图片已经下载返回提示
print str(x-1)+"张图片全部下载完!"
url
html = getHtml(raw_input("请输入图片下载的网址:\n"))
path
path=raw_input("请输入图片存放目录:\n")+'\'
prefix=raw_input("请输入图片文件的前缀名:\n")
getImg(html)