首页 公告 项目 RSS

百度云链接爬虫搭建记录

March 17, 2017 本文有 444 个字 需要花费 1 分钟阅读

需求

因为最近想找点学习资源,没错真的是学习资源,然后就去全球最大的基友社区找了下百度云链接的爬虫,没想到真的有,那就搭建一下。
我的要求很简单,就是爬出链接

安装环境

  • mysql
  • python27
  • mysql-python

创建数据库

create database pan default charset utf8

下载爬虫

git clone https://github.com/x-spiders/baiduyun-spider.git

设置连接数据库的账号密码

打开 bin/spider.py ,修改 DB_HOST、DB_PORT、DB_USER、DB_PASS

运行爬虫

如果你是第一次部署,需运行下面命令,完成做种
python bin/spider.py --seed-user
然后运行
python bin/spider.py

上面都来自https://github.com/x-spiders

问题:

我发现当这个爬虫爬了45分钟后便开始变慢

解决方法

我写了一个脚本让他30分钟结束进程然后继续开启

#!/bin/bash
# a为程序启动结束的计数变量
a=1
# 挂载数据盘
sudo mount /dev/sda1 /data
echo "mount ok"
# 开启mysql
sudo service mysql start
echo "mysql start"
# 爬虫开启结束的死循环
while (( 1==1 ))
do
# 开启爬虫并放入后台
	python /data/baiduyun-spider/bin/spider.py &
        echo "program is running"
# 30分钟后结束进程
	sleep 1800
        killall python
        sleep 1
        echo "program is kill"
        let a=a+1
# 写入文件
	echo $a >> bboysoul
done

问题

当关闭命令行后进程会结束

解决办法

用screen命令

后记

爬了一个星期吧平均一天10万条数据,数据库现在分享给大家
链接: https://pan.baidu.com/s/1bpeRH07 密码: mqvt