最新要闻

广告

手机

iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?

iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?

警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案

警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案

家电

【爬虫实战项目】Python爬取Top100电影榜单数据保存本地(附源码)

来源:博客园

前言

今天给大家介绍的是Python爬取Top100电影榜单数据保存csv文件,在这里给需要的小伙伴们代码,并且给出一点小心得。

首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取的人会很多,所以我们需要考虑更换代理IP和随机更换请求头的方式来对Top100电影榜单数据进行爬取。

在每次进行爬虫代码的编写之前,我们的第一步也是最重要的一步就是分析我们的网页。


(相关资料图)

通过分析我们发现在爬取过程中速度比较慢,所以我们还可以通过禁用谷歌浏览器图片、JavaScript等方式提升爬虫爬取速度。

开发工具

Python版本:3.6

相关模块:

requests模块

time模块

parsel模块

csv模块

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

文中完整代码及文件,评论留言获取

思路分析

浏览器中打开我们要爬取的页面按F12进入开发者工具,查看我们想要的Top100电影榜单数据在哪里这里我们需要页面数据就可以了

代码实现

for page in range(0, 101, 10):    time.sleep(2)    url = "https://maoyan.com/board/4?offset={}".format(page)    headers = {        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",        "Cookie": "__mta=20345351.1670903159717.1670903413872.1670903436333.5; uuid_n_v=v1; uuid=A8065B807A9811ED82C293D7E110319C9B09821067E1411AB6F4EC82889E1869; _csrf=916b8446658bd722f56f2c092eaae35ea3cd3689ef950542e202b39ddfe7c91e; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1670903160; _lxsdk_cuid=1850996db5dc8-07670e36da28-26021151-1fa400-1850996db5d67; _lxsdk=A8065B807A9811ED82C293D7E110319C9B09821067E1411AB6F4EC82889E1869; __mta=213622443.1670903327420.1670903417327.1670903424017.4; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1670903436; _lxsdk_s=1850996db5e-8b2-284-88a%7C%7C18",        "Host": "www.maoyan.com",        "Referer": "https://www.maoyan.com/films/1200486"    }    response = requests.get(url, headers=headers)    selector = parsel.Selector(response.text)    li_s = selector.css(".board-wrapper dd")    for li in li_s:        name = li.css(".name a::text").get()        star = li.css(".star::text").get()        star_string = star.strip()        releasetime = li.css(".releasetime::text").get()        data_time = releasetime.strip()        follow = li.css(".score i::text").getall()        score = "".join(follow)        dit = {            "电影名字": name,            "主演": star_string,            "上映时间": data_time,            "评分": score,        }        csv_write.writerow(dit)        print(dit)

Cookie获取

效果展示

最后

今天的分享到这里就结束了 ,感兴趣的朋友也可以去试试哈

对文章有问题的,或者有其他关于python的问题,可以在评论区留言或者私信我哦

觉得我分享的文章不错的话,可以关注一下我,或者给文章点赞(/≧▽≦)/

关键词: 相关模块 我们需要 就可以了