爬虫简单实现-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

爬虫简单实现

阅读量：4840 次

发布时间：2019-06-11

本文共 647 字，大约阅读时间需要 2 分钟。

实现功能：把http://tieba.baidu.com/p/2460150866上的图片都爬下来保存在本地项目文件里 分为三个step 1.获取页面 2.根据正则表达式获取图片 3.保存图片到本地 代码如下：

#coding=utf-8import urllibimport re#get the pagedef getHtml(url):    page = urllib.urlopen(url)    html = page.read()    return htmldef getImg(html):    # get the img from the page    reg = r'src="(.+?\.jpg)" pic_ext'    imgre = re.compile(reg)    imglist = re.findall(imgre,html)    # save the img to the project folder    x = 0    for imgurl in imglist:        urllib.urlretrieve(imgurl,'%s.jpg' % x)        x+=1html = getHtml("http://tieba.baidu.com/p/2460150866")print getImg(html)

　　

转载于:https://www.cnblogs.com/python924/p/5368471.html

你可能感兴趣的文章

那些可能被你忽略的MySQL优化技巧

bzoj1034: [ZJOI2008]泡泡堂BNB

Android Studio快捷键每日一练（2）

atoi函数实现

文本文件和二进制文件

WCF 实例 —— Android 短信助手 (WCF + Android)

C# 读写opc ua服务器，浏览所有节点，读写节点，读历史数据，调用方法，订阅，批量订阅操作...

springMVC学习

PHP 处理JSON数据

SQL Text Literals 文本

封装几个有用的函数

删除目录软链接注意事项

一次完整的HTTP事务是怎样一个过程

Codeforces Round #440（Div.2）

.Net Discovery 系列之一--string从入门到精通(上)

c# 主机和网络字节序的转换关于网络字节序和主机字节序的转换

Silverlight 自定义控件的继承问题

30个高质量的免费jQuery滑块PSD文件

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-30 11:29:31 当前IP: 18.226.186.172 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我