预约成功
按照网络爬虫的的思路:
页面下载 --> 页面解析 --> C数据存储
将工具按照以上分类说明,按照学习路线顺序给出参考文章
一、python爬虫工具——页面下载器
requests(必学)
scrapy
scrapy学习
mac下安装selenium+phantomjs+chromedriver
Python爬虫selenium模块
总结: 对于下载器而言,python自带的urllib就不要花时间去学了,学了就忘,直接requests能满足大部分测试+抓取需求,进阶工程化scrapy,动态网页优先找API接口,如果有简单加密就破解,实在困难就使用splash渲染
二、python爬虫工具——页面解析器
BeautifulSoup(入门级)
lxml
parsel
选择器(Selectors)
总结: 其实解析器学习一个就够了,其他都不用学,很多培训会教你从上到下的学习,我不是很推荐,直接学习scrapy的Selector 就行,简单、直接、高效
三、python爬虫工具——数据存储
txt文本
csv文件
sqlite3 (python自带)
MySQL
MongoDB
总结: 数据存储没有什么可深究的,按照业务需求来就行,一般快速测试使用MongoDB,业务使用MySQL
四、python爬虫工具——其他工具
execjs :执行js Python爬虫:execjs在python中运行javascript代码
pyv8: 执行js mac安装pyv8模块-JavaScript翻译成python
html5lib 1. Python爬虫:scrapy利用html5lib解析不规范的html文本
五、python爬虫工具——关于xpath练习
用于解析网页,最终实现6行代码写爬虫,可以贡献代码,顺便练习网页解析的能力。
以上就是python爬虫工具。可能在刚讲解完这一实际应用之后,大家的印象还很模糊,不如打开电脑,那正好现在就上手操作一下,试一试吧!也许你还会发现更多python应用为您带来的乐趣环球网校的小编在这里希望这些信息可以对您有所帮助。