首页 技术 正文
技术 2022年11月6日
0 收藏 569 点赞 962 浏览 772 个字

简单的案例-爬取百度首页

 from urllib import request
'''
爬取百度首页
'''
# 确定爬去目标
base_url = 'http://www.baidu.com' # 发起http请求 返回一个类文件对象
response = request.urlopen(url=base_url) # 获取相应内容
html = response.read() # 把bytes类型转换成utf-8编码的字符串类型
html = html.decode('utf-8') # 写入文件
with open('baidu.html','w',encoding='utf-8') as f:
f.write(html)
response = request.urlopen(url=base_url)
  传入要爬取的网页的url,返回一个类文件对象,它可以像文件对象一样被操作。
  请求地址url,一般使用http,不使用https。https有的时候返回内容读取后不是网页的html内容。
html = response.read()
  response是一个类文件对象,通过read()读取,返回内容的编码格式是bytes类型。
  python一般操作的都是字符串,将读取内容使用decode()进行编码。html = resoonse.read().decode('utf-8')
  decode('utf-8')设置编码格式为utf-8。这个编码是根据原网页的编码格式决定的。
  decode()默认的编码格式为utf-8。
  如果原网页的编码格式为gb2312,使用gbk编码格式也可以,引文gbk包含gbk2312。with open('baidu.html',mode='w',encoding='utf-8') as f:
  保存文件时,要指定编码格式。有时因为平台的不同,默认保存文件的编码格式不同。
相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:8,991
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,506
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,349
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,134
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,766
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,844