预约成功
1、如何用python提取信息内容——提取帖子标题
首先,让我们提取帖子的标题。
在浏览器中审查元素,或者按F12,查看页面源代码,我们找到标题所在的代码段,可以发现这个标题的HTML代码是:
纯原创我心中的
NBA2014-2015赛季现役50大所以我们想提取
标签中的内容,同时还要指定这个class确定唯一,因为h1标签实在太多啦。
正则表达式如下:
(.*?)
',re.S)
result = re.search(pattern,page)
if result:
#print result.group(1) #测试输出
return result.group(1).strip()
else:
return None
2、如何用python提取信息内容——提取帖子页数
同样地,帖子总页数我们也可以通过分析页面中的共?页来获取。所以我们的获取总页数的方法如下:
#获取帖子一共有多少页
def getPageNum(self):
page = self.getPage(1)
pattern = re.compile('
(.*?)
相应地,获取页面所有楼层数据的方法可以写成如下方法:
#获取每一层楼的内容,传入页面内容
def getContent(self,page):
pattern = re.compile('
以上就是《如何用python提取信息内容?这个爬虫技术才是核心》的全部内容,对于那些真正想学好编程、用它工作、或走科学研究之路的人来说,C是最好的第一语言;而另一些人则认为Python是最容易学习的编程语言,如果你想知道更多的python的相关方法,可以点击下方资料下载链接。