博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
怎样入门python爬虫?
阅读量:7117 次
发布时间:2019-06-28

本文共 1044 字,大约阅读时间需要 3 分钟。

“入门”是良好的动机,但是可能作用缓慢。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习。

另外如果说知识体系里的每一个知识点是图里的点,依赖关系是边的话,那么这个图一定不是一个有向无环图。因为学习A的经验可以帮助你学习B。因此,你不需要学习怎么样“入门”,因为这样的“入门”点根本不存在!你需要学习的是怎么样做一个比较大的东西,在这个过程中,你会很快地学会需要学会的东西的。当然,你可以争论说需要先懂python,不然怎么学会python做爬虫呢?但是事实上,你完全可以在做这个爬虫的过程中学习ython :D
看到前面很多答案都讲的“术”——用什么软件怎么爬,那我就讲讲“道”和“术”吧——爬虫怎么工作以及怎么在python实现。先长话短说summarize一下:
你需要学习
1.基本的爬虫工作原理
2.基本的http抓取工具,scrapy
3.Bloom Filter: Bloom Filters by Example
4.如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq:
5.rq和Scrapy的结合:darkrho/scrapy-redis · GitHub
6.后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb)
那么源码时代小编来总结一下:
从爬虫基本要求来看:
1.抓取:抓取最基本就是拉网页回来,所以第一步就是拉网页回来,慢慢会发现各种问题待优化;
2.存储:抓回来一般会用一定策略存下来,可以选择存文件系统开始,然后以一定规则命名。
3.分析:对网页进行文本分析,可以用认为最快最优的办法,比如正则表达式;
4.展示:要是做了一堆事情,一点展示输出都没有,如何展现价值。
另外小编在这里推荐一本书《用Python写网络爬虫》,里面主要讲述的内容有:通过跟踪链接来爬取网站;使用lxml从页面中抽取数据;构建线程爬虫来并行爬取页面;将下载的内容进行缓存,以降低带宽消耗;解析依赖于JavaScript的网站;与表单和会话进行交互;解决受保护页面的验证码问题;对AJAX调用进行逆向工程;使用Scrapy创建高级爬虫。
风里雨里,在源码时代python爬虫课程等你。

转载于:https://blog.51cto.com/13917442/2161007

你可能感兴趣的文章
利用PHP实现常用的数据结构之写在前面(小白系列文章一)
查看>>
使用asprise进行图片验证码识别
查看>>
77% 的网站使用了至少有 1 个漏洞的 JavaScript 库
查看>>
一个可以提高开发效率的Git命令-- Cherry-Pick
查看>>
.NET Core 3.0中的数据库驱动框架System.Data
查看>>
数据库设计中的9大常见错误
查看>>
柔性自动化在物流的应用及探索
查看>>
微软最具价值技术专家:我的16年软件开发经验总结
查看>>
腾讯云+未来高峰对话:智能+时代的创新与探索
查看>>
C# 8中的默认接口方法
查看>>
实现TeX的算法:回首编程技术的过去三十年
查看>>
Facebook是如何缩短iOS应用启动时间的
查看>>
又拍云CDN再出力作,三驾马车为视频护航
查看>>
Java RESTful Web Service实战
查看>>
详解分布式系统本质:“分治”和“冗余”
查看>>
[译]Yarn:一个新的JavaScript包管理器
查看>>
实用的IT类网站及工具大集合
查看>>
tomcat的servlet读取请求参数
查看>>
yii2项目实战之配置
查看>>
SICP Python 描述 1.5 控制
查看>>