最新要闻
- 科大讯飞:类ChatGPT技术今年5月落地 AI学习机产品先用
- 天天速看:31.98万元!理想L7 Air发布:性能不变 无空气悬架
- 天天速读:三星S23 Ultra拍月亮100倍变焦的效果:把马斯克都惊艳到了
- 暴雪关停国服后 CEO发声:游戏行业被亚洲主宰 东西方竞争不平衡
- 累计交付27万台 李想:理想成为国内家庭消费者首选豪华SUV
- 世界最新:高通全球首发5G NR-Light基带:主打中端物联网、峰值速率220兆
- 城市行驶每公里仅1毛钱!理想L7出行成本不足宝马X5十分之一
- 宗申新款电动车闪电侠发布:续航超200公里 仪表盘可手机投屏
- 环球观速讯丨丢失两年的手机半夜仍被人试图解锁 被系统远程拍下照片
- 网友吐槽快递派送延误 韵达总部:人手紧张正调配
- 《狂飙》蜚声海外 英国小伙们沉迷剧集无法自拔:竟被打斗画面吸引
- 今日热文:大货车实线变道 女子科三被别停挂科当场发飙
- 全球热消息:土耳其一城市震后被海水倒灌:汽车泡在水里
- 环球观焦点:漂浮在数万米高空 你见到的“不明飞行物”:很可能就是一只气球
- 一加Ace 2支持双频GPS:发布会上没讲 结果被很多网友误伤
- 【天天播资讯】太火爆!ChatGPT多次因访问量激增而宕机
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
天天日报丨爬虫基础
- HTTP基本原理
- HTTP基本原理
- 请求方法主要分为get和post请求
- 请求头
- 请求体
- 响应
- 响应状态码
- 响应头
- 响应体
- 网页基础
- 网页的组成
- HTML:超文本标记语言(hyper text markup language)
- CSS:层叠样式表(cascading stytle sheets)
- JavaScript(JS)
- 网页的组成
- 爬虫基本原理
- 爬虫基本流程
- 抓什么数据
- JavaScript渲染页面
- cookies
- 爬虫代理
- 检查robots.txt
HTTP基本原理
URL
URL(Uniform Resource Locator),即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置 和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联 网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置 以及浏览器应该怎么处理它
(资料图片仅供参考)
hypertext
超文本:hypertext,浏览器里面看到的网页就是超文本解析而成, 其网页源代码是一系列html代码,如img表示图片,p指定段落
HTTP基本原理
http和https:访问资源需要的协议类型,还有其他的类型,ftp, sftp,smb等
http:hyper text transfer protocol,超文本传输协议,网络传 输超文本数据到本地浏览器的传送协议,保证高效而准确的传送超 文本文档
https : Hyper Text Transfer Protocol over Secure Socket Layer,以安全为目标的http通道,http下加入ssl层
作用:建立一个信息安全通道来保证数据传输的安全,确认网站的真实性
HTTP请求过程
- 浏览器中输入url后,浏览器向网站所在服务器发送了一个请求,网 站服务器接收请求,并对这个请求进行处理和解析,然后返回对应 的响应,传回给浏览器,再通过浏览器解析出来
请求:可分为四部分内容
- 请求的网站(request url)
- 请求方法(request method)
- 请求头(request headers)
- 请求体(request body)
请求方法主要分为get和post请求
- get请求
- 请求中的参数包含在url里面
- 请求提交的数据最多只有1024字节
- 百度中输入关键字,wd表示要搜索的关键字
- post请求
- 表单提交时候发起,用户登录
- 数据以表单的形式传输,不会体现在url中
- 请求提交的数据没有大小限制
- 数据传输更安全(参数不会体现在url中)
请求头
用来说明服务器要使用的附加信息,比较重要的 信息有cookie,user-agent
请求体
一般承载的内容是post请求中的表单数据,对于 get请求,请求体为空
响应
由服务器返回给客户端,可以分为三部分,响应状 态 码 ( response status code ) , 响应头 ( response headers),响应体(response body)
响应状态码
表示服务器的响应状态,200代表服务器正常 响应,404代表页面未找到,500代表服务器内部发生错误
https://blog.csdn.net/q1056843325/article/details/53147180
响应头
包含了服务器对请求的应答信息,如contenttype,server,set-cookis等
响应体
爬虫请求后解析的内容就是响应体,响应的正文数据,比如请求网页时,响应体是html代码;请求一张图片时, 响应体为图片的二进制数据;json数据等
网页基础
网页的组成
- HTML,CSS,JavaScript
- Html相当于骨架,Css相当于皮肤,JavaScript相当于肌肉
- 三者结合起来形成完善的网页
HTML:超文本标记语言(hyper text markup language)
HTML: 决定网页的结构和内容 (是什么),
元素标记头部文件,用