首页技术正文

python爬虫学习过程记录

程序员俊江技术 2022年11月15日

0 收藏 411 点赞 4,788 浏览 967 个字

项目为爬取Python词条的信息。

项目代码在我的码云仓库。

https://gitee.com/libo-sober/learn-python/tree/master/baike_spider

1.开发轻量级爬虫

1.1爬虫简介

爬虫：一段自动抓取互联网信息的程序。

自动访问互联网并且提取数据。

价值：互联网数据为我所用。

1.2简单爬虫架构

运行流程：

1.3URL管理器

URL管理器：管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。

实现方式：

一般大公司都存在缓存数据库中。

1.4网页下载器

网页下载器：将互联网上URL对应的网页下载到本地的工具。

Python有哪几种网页下载器？

1.5 urllib2

urllib2下载网页方法1：最简洁方法

python3中把urllib2改为了urllib.request

对应到代码：

urllib2下载网页方法2：添加data、http header

urllib2下载网页方法3：添加特殊情景的处理器。

有些网页需要登录才能处理，需要添加Cookie的处理；

有些网页需要代理才能访问，使用ProxyHandler；

有些网页使用Https加密访问，使用HTTPSHandler；

有些网页url是相互自动跳转的关系，使用HTTPRedirectHandler。

对应到代码：

1.6网页解析器

网页解析器：从网页中提取出有价值的数据的工具。

python有哪几种网页解析器？

结构化解析-DOM（Document Object Model）树

1.7 Beautiful Soup

python第三方库，用于从HTML或XML中提取数据

安装并测试beautifulsoup4

安装：pip install beautifulsoup4

测试：import bs4

语法：

例如：

创建BeautifulSoup对象

搜索节点(find_all, find)

访问节点信息

1.8 实例爬虫

目标：百度百科python词条相关词条网页-标题和简介。

入口页：https://baike.baidu.com/item/Python/407313

词条页面URL:/item/opencv 这不是一个完整的URL，需要补全。

数据格式：

标题：

《dd class="lemmaWgt-lemmaTitle-title">

Python

简介：

《div class=”para”>

点赞 411

互联网方法爬虫网页词条

程序员俊江

贡献者

上一篇： ccflow_005.请假流程-傻瓜表单-审核组件模式

下一篇： Tomcat调整JVM大小，启动闪退

相关推荐

python开发_常用的python模块及安装方法

python开发_常用的python模块及安装方法

adodb：我们领导推荐的数据库连接组件bsddb3：BerkeleyDB的连接组件Cheetah-1.0：我比较喜欢这个版本的cheeta…

程序员润宾技术

日期：2022-11-24 点赞：878 阅读：8,893

Educational Codeforces Round 11 C. Hard Process 二分

Educational Codeforces Round 11 C. Hard Process 二分

C. Hard Process题目连接：http://www.codeforces.com/contest/660/problem/CDes…

程序员春广技术

日期：2022-11-24 点赞：807 阅读：5,422

下载Ubuntn 17.04 内核源代码

下载Ubuntn 17.04 内核源代码

zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…

程序员峰军技术

日期：2022-11-24 点赞：569 阅读：6,240

可用Active Desktop Calendar V7.86 注册码序列号

可用Active Desktop Calendar V7.86 注册码序列号

可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…

程序员天赐技术

日期：2022-11-24 点赞：733 阅读：6,054

Android调用系统相机、自定义相机、处理大图片

Android调用系统相机、自定义相机、处理大图片

Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式，并且由于涉及到要把拍到的照片显…

程序员爱鹏技术

日期：2022-11-24 点赞：512 阅读：7,683

Struts的使用

一、Struts2的获取　　Struts的官方网站为：http://struts.apache.org/　　下载完Struts2的jar包,…

程序员红卫技术

日期：2022-11-24 点赞：671 阅读：4,720