Python 爬虫从入门到进阶之路(十五)

  • 时间:
  • 浏览:2

从里边的输出结果能够看出大伙儿 不可能 拿到了大伙儿 让你的数据,或者是另俩个列表类型,大伙儿 对列表进行操作扥别拿到糗事再存储到本地即可。

里边就能够实现另俩个获取 糗事百科 的糗事的简单爬虫,或者只有爬取单个页面的内容,通过分析 url 大伙儿 发现 https://www.qiushibaike.com/text/page/1/ 中最后的 1 即为页码,大伙儿 就能够根据你什儿 页码逐一爬取更多页面的内容,最终的代码如下:

大伙儿 要爬取的网站链接是 https://www.qiushibaike.com/text/page/1/ 。

输出结果为:

很久的文章大伙儿 介绍了一下 Python 的 json 模块,本章大伙儿 就介绍一下很久根据 Xpath 模块做的爬取《糗事百科》的糗事进行宽裕和完善。

tcp连接启动很久 在本地生成另俩个 city.json 的文件,结果如下:

在 Xpath 模块的爬取糗百的案例中大伙儿 可是爬取了其中的糗事,或者存储到本地,并只有作者姓名,头像等信息,所有大伙儿 通过很久介绍的 path 模块讲获取到的删改信息以 json 的形式存储到本地。

大伙儿 通过 Xpath Helper 的谷歌插件经过分析获取到大伙儿 让你的内容为: //div[contains(@id,"qiushi_tag")]