首页 技术 正文
技术 2022年11月14日
0 收藏 549 点赞 5,137 浏览 534 个字

1 – 导入模块

from bs4 import BeautifulSoup

2 – 创建对象

fp = open('./test.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')

3 – 定位

(1)标签定位:
1)div_tag = soup.div

(2)属性定位:
1)find(只可以定位到满足要求的第一个标签): div_tag = soup.find('div',class='song')
2)findAll(定位到满足要求的所有标签): div_tag = soup.findAll('div',class_='song')

(3)选择器定位(定位到满足要求的所有标签):
1)a_tag = soup.select('#feng')
2)层级选择器(>表示一个层级,空格表示多个层级):
li_tag = soup.select('.tang > ul > li')
li_tag = soup.select('.tang li')

4 – 数据提取

a_tag = soup.findAll('a',id='feng')[0]print(a_tag.string)     #取直系文本内容
print(a_tag.text) #取所有的文本内容
print(a_tag['href']) #取属性值
下一篇: redis存取数据Set
相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:8,893
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,422
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,240
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,054
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,683
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,720