首页技术正文

【Python网络爬虫一】爬虫原理和URL基本构成

程序员晓爽技术 2022年11月23日

0 收藏 417 点赞 5,144 浏览 727 个字

1.爬虫定义

网络爬虫，即Web Spider，是一个很形象的名字。
把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，
然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

2.浏览网页的过程

爬虫爬取网页数据的过程和用户浏览网页的原理是一样的。

用户输入一个地址如“www.baidu.com”，客户端浏览器首先查询DNS服务器，查找IP地址（浏览器缓存->系统缓存->路由器缓存…）

浏览器向web服务器发送一个http请求。

服务器处理请求，根据http协议组建一个数据包，返回给客户端浏览器。

浏览器接受数据包，将HTML的内容渲染出来显示在浏览器中。

3.URL的概念和举例

简单的来讲，URL是Uniform Resource Locator的缩写，译为“统一资源定位符”。

就是在浏览器端输入的 http://www.baidu.com 这个字符串。

采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。

URL的格式由三部分组成：

①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址，如目录和文件名等。

第一部分和第二部分用“://”符号隔开，

第二部分和第三部分用“/”符号隔开。

第一部分和第二部分是不可缺少的，第三部分有时可以省略。

总结：

爬虫最主要的处理对象就是URL，它根据URL地址取得所需要的文件内容，然后对它进行进一步的处理。
因此，准确地理解URL对理解网络爬虫至关重要。

点赞 417

地址浏览器爬虫缓存网页

程序员晓爽

贡献者

上一篇： Wireshark抓包工具

下一篇： Python入门（一）

相关推荐

python开发_常用的python模块及安装方法

python开发_常用的python模块及安装方法

adodb：我们领导推荐的数据库连接组件bsddb3：BerkeleyDB的连接组件Cheetah-1.0：我比较喜欢这个版本的cheeta…

程序员润宾技术

日期：2022-11-24 点赞：878 阅读：9,291

Educational Codeforces Round 11 C. Hard Process 二分

Educational Codeforces Round 11 C. Hard Process 二分

C. Hard Process题目连接：http://www.codeforces.com/contest/660/problem/CDes…

程序员春广技术

日期：2022-11-24 点赞：807 阅读：5,718

下载Ubuntn 17.04 内核源代码

下载Ubuntn 17.04 内核源代码

zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…

程序员峰军技术

日期：2022-11-24 点赞：569 阅读：6,554

可用Active Desktop Calendar V7.86 注册码序列号

可用Active Desktop Calendar V7.86 注册码序列号

可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…

程序员天赐技术

日期：2022-11-24 点赞：733 阅读：6,325

Android调用系统相机、自定义相机、处理大图片

Android调用系统相机、自定义相机、处理大图片

Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式，并且由于涉及到要把拍到的照片显…

程序员爱鹏技术

日期：2022-11-24 点赞：512 阅读：7,963

Struts的使用

一、Struts2的获取　　Struts的官方网站为：http://struts.apache.org/　　下载完Struts2的jar包,…

程序员红卫技术

日期：2022-11-24 点赞：671 阅读：5,123