• 欢迎访问金笔头博客,这是一个菜鸟(伪)程序员的自留地,欢迎访问我的github:点击进入

最新发布 第3页

金笔头博客Love Learning, Love Sharing

爬虫技术

Scrapy学习笔记(10)-重写start_requests方法实现动态入口

Scrapy学习笔记(10)-重写start_requests方法实现动态入口
前言通过之前的学习我们知道scrapy是将start_urls作为爬取入口,而且每次都是直接硬编码进去一个或多个固定的URL,现在假设有这么个需求:爬虫需要先从数据库里面读取目标URL再依次进行爬取,这时候固定的start_urls就显得不够灵活了,好在scrapy允许我们重写start_requests方法来满足这个需求。目标从库表scrapy.ta……继续阅读 »

7个月前 (01-28) 930浏览

爬虫技术

Scrapy学习笔记(9)-使用scrapy-deltafetch实现增量爬取

Scrapy学习笔记(9)-使用scrapy-deltafetch实现增量爬取
前言在之前的文章中我们都是对目标站点进行全量爬取,只要爬虫run起来就会对所有的链接都爬取一遍,这其实是很傻的做法,因为很多情况下我们并不需要爬取已经爬过的链接,除非你需要定期更新这个链接对应页面上的数据。好了,回归正题,本文介绍scrapy使用scrapy-deltafetch这个插件来实现增量爬取,这里以爬取【美食杰】上的菜谱信息为例。正文安装s……继续阅读 »

7个月前 (01-27) 2745浏览

Ubuntu

Ubuntu16.04安装Berkeley DB

Ubuntu16.04安装Berkeley DB
背景介绍今天折腾scrapy的时候想着怎么实现增量爬取,Google一番发现有个插件scrapy-deltafetch可以实现,于是开始安装,装到一半报错:Collecting scrapy-deltafetch Downloading scrapy_deltafetch-1.2.1-py2.py3-none-any.whlCollecting……继续阅读 »

7个月前 (01-27) 2289浏览

python

Sublime Text3配置运行python快捷键

Sublime Text3配置运行python快捷键
安装SublimeREPL插件ctrl+shift+p打开命令面板 输入install,选择Package Control:Install Package,在弹出的包安装窗口输入包名SublimeREPL,在下面的选择列表中选中回车就会开始安装。设置快捷键Preferences–>Key Bindings,输入如下内容绑定快捷键……继续阅读 »

10个月前 (10-31) 1018浏览

Ubuntu

Ubuntu16.04安装pip

Ubuntu16.04安装pip
$ sudo apt-get update && sudo apt-get -y upgrade$ sudo apt-get install python-pip$ pip -Vpip 8.1.1 from /usr/lib/python2.7/dist-packages (python 2.7)……继续阅读 »

10个月前 (10-30) 885浏览

python

Ubuntu16.04安装MySQLdb

Ubuntu16.04安装MySQLdb
$ sudo apt-get install libmysqlclient-dev$ sudo pip install mysql-python$ pythonPython 2.7.12 (default, Nov 19 2016, 06:48:10) [GCC 5.4.0 20160609] on linux2Type "help", "co……继续阅读 »

10个月前 (10-30) 814浏览