学python，不会这些怎么行，常用的python爬虫工具汇总

环球青藤·2019-10-17 09:14:09浏览收藏

请输入下面的图形验证码

提交验证

预约成功

我知道了

摘要当今世界充满了各种数据，而python是其中一种的重要组成部分。然而，若想其有所应用，我们需要对这些python理论进行实践。其中包含很多有趣的的过程，然后将其用于某些方面。其中一种python爬虫工具的应用。今天环球网校的小编就来和大家讲讲python爬虫工具。

按照网络爬虫的的思路：

页面下载 --> 页面解析 --> C数据存储

将工具按照以上分类说明，按照学习路线顺序给出参考文章

一、python爬虫工具——页面下载器

requests(必学)

scrapy

scrapy学习

mac下安装selenium+phantomjs+chromedriver

Python爬虫selenium模块

总结：对于下载器而言，python自带的urllib就不要花时间去学了，学了就忘，直接requests能满足大部分测试+抓取需求，进阶工程化scrapy，动态网页优先找API接口，如果有简单加密就破解，实在困难就使用splash渲染

二、python爬虫工具——页面解析器

BeautifulSoup(入门级)

lxml

parsel

选择器(Selectors)

总结：其实解析器学习一个就够了，其他都不用学，很多培训会教你从上到下的学习，我不是很推荐，直接学习scrapy的Selector 就行，简单、直接、高效

三、python爬虫工具——数据存储

txt文本

csv文件

sqlite3 (python自带)

MySQL

MongoDB

总结：数据存储没有什么可深究的，按照业务需求来就行，一般快速测试使用MongoDB，业务使用MySQL

四、python爬虫工具——其他工具

execjs ：执行js Python爬虫：execjs在python中运行javascript代码

pyv8: 执行js mac安装pyv8模块-JavaScript翻译成python

html5lib 1. Python爬虫：scrapy利用html5lib解析不规范的html文本

五、python爬虫工具——关于xpath练习

用于解析网页，最终实现6行代码写爬虫，可以贡献代码，顺便练习网页解析的能力。

以上就是python爬虫工具。可能在刚讲解完这一实际应用之后，大家的印象还很模糊，不如打开电脑，那正好现在就上手操作一下，试一试吧!也许你还会发现更多python应用为您带来的乐趣环球网校的小编在这里希望这些信息可以对您有所帮助。

资料下载

历年真题

精选课程

老师直播

更多资料 >

更多试题 >

最新推荐