一些工具的配置方法

Posted by Leo on 2023-11-25
Estimated Reading Time 1 Minutes
Words 249 In Total

主机访问虚拟机中docker内的Mysql服务

1
2
3
4
5
6
7
1. docker pull mysql:5.7

2. docker run -d --name mysql5.7 -p 3306:3306 -e MYSQL_ROOT_PASSWORD=123456 mysql:5.7

3. docker update --restart=always mysql5.7 #开机自启

4. 本地主机:ssh -L 3306:172.17.0.1:3306 ubuntu@192.168.196.130

分布式爬虫实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
#分布式

#1. 指定使用scrapy_redis的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#2.指定使用scrapy_redis的去重机制
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#3.指定redis的IP地址和端口号
REDIS_HOST = "192.168.196.130" #redis服务器的IP地址
REDIS_PORT = 6379 #redis服务器的端口号
#REDIS_PARAMS = {'password': 'your_redis_password'}
#若redis有密码,则指定密码

#4. (可选)添加scrapy_redis管道 把数据存入redis数据库,只需开启管道即可将内容写进redis数据库
ITEM_PIPELINES = {
"scrapy_redis.pipelines.RedisPipeline": 310, #将item转换为Redis的pipeline,并将其存储到Redis中
}

#5.爬取完成后不清除指纹
SCHEDULER_PERSIST = True #默认为false,爬取完成清除指纹,设置为True,可以实现增量爬虫

本着互联网开源的性质,欢迎分享这篇文章,以帮助到更多的人,谢谢!