• 欢迎访问金笔头博客,本博客是一个关注网站建设、软件编程、商务智能、信息安全和Linux的独立博客,博文为个人学习笔记,记录学习历程,欢迎各位大牛指正。
  • Comments and suggestions from all readers are welcome. Email: jinbitou@126.com
  • 建议使用火狐和谷歌浏览器浏览本站.
  • 如果你喜欢本站,试试【Ctrl + D】 收藏吧!

Crawler

Scrapy学习笔记(8)-使用signals来监控spider的状态

Scrapy学习笔记(8)-使用signals来监控spider的状态
场景介绍有时候我们需要在spider启动或者结束的时候执行一些特定的操作,比如说记录日志之类的,在scrapy中我们可以使用signals来实现。主要实现代码如下:# -*- coding: utf-8 -*-from scrapy import signalsfrom scrapy.xlib.pydispatch import dispatc……继续阅读 »

1年前 (2016-12-19) 4624浏览

Scrapy学习笔记(7)-定制动态可配置爬虫

Scrapy学习笔记(7)-定制动态可配置爬虫
前言    最近一直想维护一个代理IP池,在网上找了三十多个免费提供代理IP的网站,想把这些代理都抓取下来存到本地数据库,再写一个守护进程定时去验证可用性和连接速度,剔除失效代理,以此来保证库里面始终都有特定数量的优质代理IP。那么问题来了,这么多网站每个网站的页面布局或者说网页源码都不一样,数据抓取规则也不一样,如果针对每个网站都硬编码一份spider代……继续阅读 »

1年前 (2016-12-04) 13949浏览

Scrapy学习笔记(6)-反爬虫与反反爬虫策略

Scrapy学习笔记(6)-反爬虫与反反爬虫策略
前言    到目前为止我们已经写了好几个爬虫,虽然已经可以实现数据采集,但是我们的爬虫其实是在”裸奔”,因为没有加任何的伪装,很容易就可以被远程服务器识别出来,这也就意味着我们的爬虫很可能在采集了十几页数据或者运行几分钟之后就出现问题,轻则出现验证码或暂时访问不了目标站点,重则本机IP直接被拉入黑名单。你可能会说无图无真相,好吧,上……继续阅读 »

1年前 (2016-11-30) 16419浏览

Scrapy学习笔记(5)-CrawlSpider+sqlalchemy实战

Scrapy学习笔记(5)-CrawlSpider+sqlalchemy实战
前言在之前的文章Scrapy学习笔记(2)-使用pycharm在虚拟环境中运行第一个spider中有提到在使用scrapy genspider命令生成spider的时候可以使用-t参数来指定生成spider的模板,前面几篇文章中我们没有指定模板,所以都是使用最基本的Spider类来爬取数据。Spider其实能做很多事情了,但是如果你想对某个网站进行全站爬取……继续阅读 »

1年前 (2016-11-26) 2112浏览

Scrapy学习笔记(4)-实现多级链接跟随爬取以及数据传递

Scrapy学习笔记(4)-实现多级链接跟随爬取以及数据传递
前言系统环境:CentOS7本文假设你已经安装了virtualenv,并且已经激活虚拟环境ENV1,如果没有,请参考这里:使用virtualenv创建python沙盒(虚拟)环境,在上一篇文章(Scrapy学习笔记(3)-循环爬取以及数据库操作)中我们已经能够跟踪next(下一页)链接循环爬取http://quotes.toscrape.com/中的ar……继续阅读 »

1年前 (2016-11-19) 2030浏览

Scrapy学习笔记(3)-循环爬取以及数据库操作

Scrapy学习笔记(3)-循环爬取以及数据库操作
前言系统环境:CentOS7本文假设你已经安装了virtualenv,并且已经激活虚拟环境ENV1,如果没有,请参考这里:使用virtualenv创建python沙盒(虚拟)环境,在上一篇文章(Scrapy学习笔记(2)-使用pycharm在虚拟环境中运行第一个spider)中我们已经能够使用scrapy的命令行工具创建项目以及spider、使用Pych……继续阅读 »

1年前 (2016-11-14) 1686浏览

Scrapy学习笔记(2)-使用pycharm在虚拟环境中运行第一个spider

Scrapy学习笔记(2)-使用pycharm在虚拟环境中运行第一个spider
前言系统环境:CentOS7本文假设你已经安装了virtualenv,并且已经激活虚拟环境ENV1,如果没有,请参考这里:使用virtualenv创建python沙盒(虚拟)环境目标使用scrapy的命令行工具创建项目以及spider,使用Pycharm编码并在虚拟环境中运行spider抓取http://quotes.toscrape.com/中的a……继续阅读 »

1年前 (2016-11-13) 3791浏览