首页 技术 正文
技术 2022年11月15日
0 收藏 694 点赞 3,741 浏览 1837 个字

首先python的scrapy框架很好,功能强大,使用起来也很方便,省去了很多造轮子的时间。在学习的过程中也碰到了一些问题,在这里希望能分享与大家分享,做一个参考

1.安装(pip延时响应问题)

scrapy框架包含了很多包,理论上是通过pip install scrapy命令可直接安装。但实际上还是有很多的问题

问题1:

          在cmd直接输入pip install scrapy,可是网速会显示很慢,最后出现红字报错

          原因:这是网络连接的问题,pip命令会直接在python官网上下载包(官网的速度那就不敢恭维了)

          解决方法:输入 pip install -i  https://pypi.tuna.tsinghua.edu.cn/simple [module name]

( 这个网站是清华的资源网)

               注:如果网速更慢的小伙伴的话,可以在再加上时间元素

                 形如:pip –default-timeout=10000 install  package(与上面的方法可以综合使用)

2.所需要的知识储备

  python基础知识(if while for 继承 迭代器 异常处理 文件操作之类(现用现学也不迟))

  xpath相关知识,知道如何再xml网页中定位element(https://www.bilibili.com/video/av48794288?from=search&seid=14753612886237754814

  css选择器相关知识(https://www.w3school.com.cn/css/index.asp

           https://blog.csdn.net/lynnpaul/article/details/79884677

  正则表达式(B站上全都有)

  《数据通信与网络 第四版》第27章 万维网与超文本传输协议(了解web运行的基本原理)

  掌握上面这些可以基本开始scrapy框架的学习了,后面的知识用到再说

  *系统性的学习很重要,很重要,很重要。百度只能当作辅助,最好是去看书。好东西都在书里

3.教训

    vscode一定要搭建好环境

      推荐阅读:https://www.cnblogs.com/asce/p/11600904.html

          (还有一篇文章找不到了,大意就是配置好 环境变量,怎么配置可以自己搜)

4.当scrapy shell出故障时,推荐使用jupyter notebook进行网页分析(刚接触python编程时也推荐使用)

  补充:通过后续的学习,发现jupyter进行网页分析存在很大一部分局限性。

     实际上很多网站经典反爬虫机制之一就是会检查User-Agent。当我们直接通过爬虫程序发送请求时,会被网站服务器拒绝(such as经典爬虫练习网站:豆瓣)

     所以很多时候还是推荐直接使用scrapy框架(已经进行过User-Agent伪装或者模拟)直接分析,比如直接打印所需要的信息来检查xpath语法或者相关解析路径的正确

      如何设置随机User-Agent可参考我的另一篇博文:https://www.cnblogs.com/RosemaryJie/p/12336662.html

        

  安装:通过pip命令安装,jupyter(模块名)(如何安装详细细节可百度)

  通过cmd,输入jupyter notebook打开(在cmd中那个文件夹目录下输入命令,文件(file)便储存在哪个文件夹)

    在jupyter中可通过创建selector对象分析网页(selector对象包含了xpath和css方法)

      from scrapy.selector import Selector

      from scrapy.http import HemlResponse

      import requests

      Response = requests . get(“www.jer0.com”)

      response = HtmlResponse ( url=”www.jer0.com” , body = Response . text , encoding = ‘ utf-8’ )

      selector = Selector(response = response)

          

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,089
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,566
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,415
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,187
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,823
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,906