博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
第4章 URL管理器和实现方法
阅读量:6692 次
发布时间:2019-06-25

本文共 305 字,大约阅读时间需要 1 分钟。

URL管理器:管理待抓取URL集合和已抓取URL集合

 -- 防止重复抓取、防止循环抓取

URL需要支持哪些功能:

添加新URL到待爬取集合中、判断待添加URL是否在容器中,判断是否还有待爬取URL,获取待爬取URL,将URL从待爬取移动到已爬取。

URL管理器的实现方式:

1.内存  python内存  待爬取URL集合:set()            已爬取URL集合:set()

2.关系数据库  mysql  urls(url,is_crawled)

3.缓存数据库  redis 待爬取URL集合        已爬取URL集合

转载于:https://www.cnblogs.com/Worssmagee1002/p/7358434.html

你可能感兴趣的文章
Volley使用方法
查看>>
我的友情链接
查看>>
ASA防火墙的应用
查看>>
linux中telnet 带外管理服务器的设置
查看>>
用户登录认证
查看>>
Web版RSS阅读器(一)——dom4j读取xml(opml)文件
查看>>
百度UEditor编辑器ueditor.setContent总是报错
查看>>
属性化字符串问题集
查看>>
Windows 2012 下如何强制同步 AD SYSVOL
查看>>
Java AtomicInteger的用法
查看>>
利用公有云平台构建网站项目总结
查看>>
php 与 C# 之间的DES加解密
查看>>
NetApp DataONTAP 集群模式 学习笔记2
查看>>
网络营销的优势
查看>>
允许java运行不安全或不可信的应用程序
查看>>
Java为Hyperledger Fabric(超级账本)开发区块链链代码智能合约之环境部署
查看>>
思科三层网络设计公式
查看>>
Groovy基本类型与运算符
查看>>
rabbitmq java.util.concurrent.TimeoutException
查看>>
IPsec***
查看>>