博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫简单实现
阅读量:4840 次
发布时间:2019-06-11

本文共 647 字,大约阅读时间需要 2 分钟。

实现功能:把http://tieba.baidu.com/p/2460150866上的图片都爬下来保存在本地项目文件里 分为三个step 1.获取页面 2.根据正则表达式获取图片 3.保存图片到本地 代码如下:
#coding=utf-8import urllibimport re#get the pagedef getHtml(url):    page = urllib.urlopen(url)    html = page.read()    return htmldef getImg(html):    # get the img from the page    reg = r'src="(.+?\.jpg)" pic_ext'    imgre = re.compile(reg)    imglist = re.findall(imgre,html)    # save the img to the project folder    x = 0    for imgurl in imglist:        urllib.urlretrieve(imgurl,'%s.jpg' % x)        x+=1html = getHtml("http://tieba.baidu.com/p/2460150866")print getImg(html)

  

 

转载于:https://www.cnblogs.com/python924/p/5368471.html

你可能感兴趣的文章
那些可能被你忽略的MySQL优化技巧
查看>>
bzoj1034: [ZJOI2008]泡泡堂BNB
查看>>
Android Studio快捷键每日一练(2)
查看>>
atoi函数实现
查看>>
文本文件和二进制文件
查看>>
WCF 实例 —— Android 短信助手 (WCF + Android)
查看>>
C# 读写opc ua服务器,浏览所有节点,读写节点,读历史数据,调用方法,订阅,批量订阅操作...
查看>>
springMVC学习
查看>>
PHP 处理JSON数据
查看>>
SQL Text Literals 文本
查看>>
封装几个有用的函数
查看>>
初识HTML
查看>>
删除目录软链接注意事项
查看>>
一次完整的HTTP事务是怎样一个过程
查看>>
Codeforces Round #440(Div.2)
查看>>
.Net Discovery 系列之一--string从入门到精通(上)
查看>>
c# 主机和网络字节序的转换 关于网络字节序和主机字节序的转换
查看>>
Silverlight 自定义控件的继承问题
查看>>
博客介绍
查看>>
30个高质量的免费jQuery滑块PSD文件
查看>>