导航
  • 报考
  • 备考
  • 政策

报考

备考

复习资料

政策

行业动态

如何用python提取信息内容?这个爬虫技术才是核心

环球青藤·2020-07-09 13:30:31浏览51 收藏25

请输入下面的图形验证码

提交验证

预约成功

我知道了
摘要 对于那些真正想学好编程、用它工作、或走科学研究之路的人来说,一些人则认为Python是最容易学习的编程语言,python判断值的类型的方法是什么,那么如何用python提取信息内容?这个爬虫技术才是核心,所以你知道如何用python提取信息内容?这个爬虫技术才是核心。

1、如何用python提取信息内容——提取帖子标题

首先,让我们提取帖子的标题。

在浏览器中审查元素,或者按F12,查看页面源代码,我们找到标题所在的代码段,可以发现这个标题的HTML代码是:

纯原创我心中的

NBA2014-2015赛季现役50大所以我们想提取

标签中的内容,同时还要指定这个class确定唯一,因为h1标签实在太多啦。

正则表达式如下:

(.*?)

',re.S)

result = re.search(pattern,page)

if result:

#print result.group(1) #测试输出

return result.group(1).strip()

else:

return None

2、如何用python提取信息内容——提取帖子页数

同样地,帖子总页数我们也可以通过分析页面中的共?页来获取。所以我们的获取总页数的方法如下:

#获取帖子一共有多少页

def getPageNum(self):

page = self.getPage(1)

pattern = re.compile('

(.*?)

相应地,获取页面所有楼层数据的方法可以写成如下方法:

#获取每一层楼的内容,传入页面内容

def getContent(self,page):

pattern = re.compile('

以上就是《如何用python提取信息内容?这个爬虫技术才是核心》的全部内容,对于那些真正想学好编程、用它工作、或走科学研究之路的人来说,C是最好的第一语言;而另一些人则认为Python是最容易学习的编程语言,如果你想知道更多的python的相关方法,可以点击下方资料下载链接

资料下载
历年真题
精选课程
老师直播

注册电脑版

版权所有©环球青藤All Rights Reserved