最新要闻
- 如何压缩图片大小?简单的图片压缩方法分享
- 世界视点!一降再降!一汽丰田首款纯电SUV大促:优惠6万到手13.98万起
- 祈福者放生2.5万斤鲇鱼被追责:属外来物种 危害极大
- 合资燃油车危险了!比亚迪秦PLUS DM-i冠军版上市7天订单超3.2万
- 当前动态:促销“狂飙”结束 特斯拉Model Y全系已上涨2000元
- 微软进一步拥抱AI:Win11新功能“记住”用户常用窗口布局
- 营收创6年最大跌幅!苹果被曝裁员外包员工 库克最后手段?
- 时隔3年半漫威重返内地!《蚁人与黄蜂女:量子狂潮》今日上映
- 天天热头条丨《星际争霸2》世界冠军李培楠回国:黄旭东等为其接风
- 当前视讯!三亚3米长搁浅抹香鲸救治无效不幸死亡:或被鲨鱼咬伤
- 全球看热讯:干货分享丨店长管理的五大核心你抓住了吗!
- 当前要闻:没买车的等等党们:赢了
- 每日看点!男子购买1200元年货32天快递仍未送达 邮政客服:车还在路上
- 每日动态!注意!特斯拉宣布召回超36万辆车 会突然停车发生车祸:马斯克火速回应
- 环球新动态:iPadOS 16:拖后腿了
- 【环球报资讯】2023开年火药味儿十足 “大内存”机型卷出了新高度
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
世界新动态:机器学习-集成学习GBDT
- 前言
- 一、原理
- 二、优缺点
- 三、实际应用
- 四、常见的GBDT 变体
- 五、代码
- 六、总结
前言
GBDT(Gradient Boosting Decision Trees)是一种基于决策树的集成学习算法,它通过逐步地训练多个决策树模型来提高预测性能。具体来说,GBDT采用加法模型(additive model)的思想,每次训练一个新的决策树来拟合残差(预测误差),然后将所有决策树的预测结果相加作为最终的预测值。
一、原理
具体来说,GBDT算法采用加法模型的思想,即将每个模型的预测结果相加来得到最终的预测结果。在每一轮迭代中,GBDT算法会根据当前模型的预测结果计算出残差,然后使用残差作为目标变量重新训练一个决策树。多轮迭代之后,所有的决策树的预测结果相加就可以得到最终的预测结果。
(相关资料图)
具体实现流程:
初始化模型:将所有样本的真实值作为初始预测值。
对于每一轮迭代:
a. 计算当前模型的预测值。
b. 计算当前模型的残差。
c. 根据残差训练一个新的决策树模型。
d. 计算新模型的预测结果,并将其与之前所有模型的预测结果相加得到最终的预测结果。
返回最终的预测结果。
二、优缺点
- 优点:
高准确性:GBDT能够得到非常高的准确性,在许多机器学习问题中表现良好。
鲁棒性:GBDT对于输入数据的异常值和噪声具有很强的鲁棒
处理缺失值和高维特征:GBDT算法能够很好地处理缺失值和高维特征,这是由于决策树可以根据特征的取值将样本分成不同的子集,从而避免了对缺失值的处理。
解释性:GBDT算法生成的决策树具有很好的可解释性,可以帮助我们理解模型的决策过程。
- 缺点:
- 计算时间长:GBDT需要训练多个决策树模型,并且每一轮迭代都需要计算梯度和Hessian矩阵,因此训练时间较长。
- 容易过拟合:GBDT容易过拟合,特别是在训练集的噪声较大或者数据量较小的情况下,需要进行一些正则化处理。
三、实际应用
- 排序:学习排序模型,比如搜索引擎中的网页排序、广告推荐系统中的广告排序等。
- 回归:回归问题,比如房价预测、股票价格预测等。
- 分类:分类问题,比如垃圾邮件分类、用户行为分析等。
- 推荐系统:用于推荐系统,比如基于用户历史行为数据和商品属性数据来预测用户对商品的偏好程度。
四、常见的GBDT 变体
- XGBoost:eXtreme Gradient Boosting(XGBoost)是GBDT算法的一种扩展,它在原始GBDT算法的基础上添加了正则化项和自定义损失函数,提高了模型的泛化性能和精度,特别适用于处理大规模数据集和高维特征。
- LightGBM:LightGBM是一种基于决策树的梯度提升框架,它采用基于直方图的决策树算法和多线程并行计算,具有更快的训练速度和更低的内存占用,特别适用于大规模数据集。
- CatBoost:CatBoost是一种基于决策树的梯度提升框架,它采用对称二叉树结构和分类变量特征处理技术,能够自适应地学习特征交互关系,提高模型的准确性和泛化性能,特别适用于处理具有大量分类特征的数据集
五、代码
使用 python 和 Scikit-learn库
from sklearn.ensemble import GradientBoostingClassifier# 创建GBDT分类器模型gbdt = GradientBoostingClassifier(loss="deviance", learning_rate=0.1, n_estimators=100, max_depth=3)# 训练模型gbdt.fit(X_train, y_train)# 使用模型进行预测y_pred = gbdt.predict(X_test)# 评估模型性能accuracy = gbdt.score(X_test, y_test)
注意:在实际应用中,我们需要对数据进行预处理、特征工程等步骤,并使用交叉验证等技术来评估模型性能,我们也可以使用其他GBDT库或自己实现GBDT算法,以满足不同的应用需求。
六、总结
GBDT算法虽然能够自适应地学习特征交互关系,但它仍然需要依赖人工选择或构造特征。在实际应用中,我们需要结合特征工程技术来提取更有用的特征,从而进一步提高模型的性能。后续文章我也会写到这几种变体。
世界新动态:机器学习-集成学习GBDT
如何压缩图片大小?简单的图片压缩方法分享
世界视点!一降再降!一汽丰田首款纯电SUV大促:优惠6万到手13.98万起
祈福者放生2.5万斤鲇鱼被追责:属外来物种 危害极大
合资燃油车危险了!比亚迪秦PLUS DM-i冠军版上市7天订单超3.2万
当前动态:促销“狂飙”结束 特斯拉Model Y全系已上涨2000元
微软进一步拥抱AI:Win11新功能“记住”用户常用窗口布局
世界热点!《分布式技术原理与算法解析》学习笔记Day14
环球最新:Django Cannot assign "A1": "B1" must be a "C1" instance.
把选择语句和重复语句视为块
营收创6年最大跌幅!苹果被曝裁员外包员工 库克最后手段?
时隔3年半漫威重返内地!《蚁人与黄蜂女:量子狂潮》今日上映
天天热头条丨《星际争霸2》世界冠军李培楠回国:黄旭东等为其接风
当前视讯!三亚3米长搁浅抹香鲸救治无效不幸死亡:或被鲨鱼咬伤
全球看热讯:干货分享丨店长管理的五大核心你抓住了吗!
当前要闻:没买车的等等党们:赢了
每日看点!男子购买1200元年货32天快递仍未送达 邮政客服:车还在路上
每日动态!注意!特斯拉宣布召回超36万辆车 会突然停车发生车祸:马斯克火速回应
环球新动态:iPadOS 16:拖后腿了
读Java实战(第二版)笔记12_重构、测试和调试
【环球报资讯】2023开年火药味儿十足 “大内存”机型卷出了新高度
今日播报!期末复习——同步、互斥、死锁
男子卖出游戏账号后3次恶意找回 为何被判盗窃而不是诈骗?
世界热推荐:一年节省185亿度电!中车研制复合材料“超级铜”登上央视
魔兽国服重开遥遥无期 消息称暴雪找不到接盘方:能谈的都试了
每日播报!我想知道知乎现在是怎么了?
女子询问换杯 却被奈雪店员辱骂:拒绝出面道歉
即时看!70城新房价格指数时隔12个月首次止跌
全球观天下!苹果7喇叭灰尘怎么清理 苹果7喇叭灰尘清理的方法
世界微资讯!汉诺塔
观察:真正“搞”懂HTTPS协议19之HTTPS优化
pnpm的基本原理及快速使用
环球焦点!Windows 环境下安装与配置 Node.js
fusion app远程公告(微云)
全球微动态丨北京多个地铁口有人扫码送“大鹅”:小心隐私泄露
游戏《如龙7外传》夜店真人女郎上新:一大波日本纯美小姐姐
二叉树中某一值的路径之 先序遍历 + 二叉搜索树转化为循环双向链表 之 中序遍历
全球快播:设计模式(八)----创建型模式之建造者模式与工厂模式区别
【全球热闻】真实项目开发中高并发实战经验总结
环球讯息:Python 爬虫方法总结
刘德华剧透《流浪地球3》:"数字生命"延续
重点聚焦!被苹果踢出果链后淡化手机业务?欧菲光回应:指纹识别还是龙头地位
天天微头条丨Vue急速入门-3
Python多任务教程
每日短讯:数据结构刷题2023.02.16小记
全球今日讯!Xcode Swift自动格式化
环球观天下!反结账的钱退到哪里_反结账快捷键
豪掷7500万!ChatGPT开发商OpenAI买下极品域名AI.com
环球聚焦:为了搞死《霍格沃茨之遗》“黑巫师”们用尽了魔法
每日动态!【2023.02.16】威佐夫博弈详解
今日热闻!女子丽江60元买2串烧烤仅6只虫2只蝎 景区回应其吐槽:特色小吃贵
精准发力“二次元”群体:盈通推出“樱瞳水着”RTX 4080显卡
当前快讯:女子吃饭后疯狂打嗝 医生:赶紧转急诊
环球热推荐:全球只有18块!极品飞车特别版RTX 4090现身海鲜市场:要价1.6万
python处理xml文件
天天时讯:因衣服长时间放购物车被客服嘲讽 还被拉黑:遭无数网友吐槽
【热闻】交个朋友公司被曝欠薪、恶意裁员 罗永浩回应:第一时间协调妥善解决
每日快看:1099元 微星PRO MP161便携式显示屏来了:15.6寸IPS屏 仅重0.75kg
高速路上一觉醒来车在冒烟无人驾驶:副驾小伙慌忙跳车逃生
世界时讯:联想拯救者Y9000P 2023游戏本性能狂飙:满血RTX 4090、240Hz高刷
江西芦溪:田园春意浓 乡村美如画
记录--TS类型写不好?一起来训练提升吧!
判断一个给定数组是否为二叉搜索树后序遍历
防患未然 | AIRIOT城市管廊智能运维解决方案
全球今亮点!xcodebuild命令行工具使用详解
今日热文:欧洲2035禁售燃油车!专家:电动车难完全取代燃油车
环球焦点!Wind11新预览版25300发布:实时字幕对中国用户更加友好!
当前时讯:新日登北京电动自行车不合格“黑榜”:多批电池管理系统有问题
新消息丨不愧是玩无人机的 大疆车载产品矩阵揭秘:高阶辅助只需摄像头
这合理吗?公厕免费取纸先关注微信公众号
快资讯丨pip设置镜像
天天头条:String详解
世界时讯:开心档之Swift 访问控制
计算机导论学习记录(二)
全球微头条丨8个让你收入翻倍的高质量免费网站
重点聚焦!大疆Inspire 3无人机来了:配全画幅X9相机、可录8K视频
全球速递!用了电信5G 浙大完成中国首例5G超远程机器人肝胆手术:跨越近万里
总投资389亿!2023年第一条高铁获批:沿海超级通道定了
全球速讯:消息称腾讯XR团队全线解散:成立不到1年!
鄱阳湖旗舰店麻辣小龙虾官方大促:1.4 斤29.9元到手
深交所向新亚制程发出关注函
全球看点:USRP-2974上安装Ubuntu20.04 + UHD 3.15 + GNU Radio 3.8 过程全记录
VOP 消息仓库演进之路|如何设计一个亿级企业消息平台
【热闻】【管理您的整个软件供应链】上海道宁与Sonatype助力您以更安全的开源更快地交付产品
快看点丨西部数据推出22TB/44TB My Book桌面硬盘 售价高达1500美元
曝光交个朋友欠薪 当事人最新回应:罗永浩正积极联系公司解决
果粉买不?苹果折叠屏会先拿iPad试水!折叠iPhone风险太高了
当前热讯:想要过目不忘?进来学两招、保证不后悔!
世界热资讯!12.4万买帕纳梅拉梦碎 首单车主:保时捷傲慢 100万都不卖
环球视讯!OpenYurt v1.2 亮点速览丨云边流量峰值相比原生 K8s 降低 90%
全球百事通!堆叠柱状图怎么用?速戳!
火山引擎数智平台的这款产品,正在帮助 APP 提升用户活跃度
模型预处理层介绍(3) - IntegerLookup
CC1打不通时的另外一条链CC3
天天通讯!襄阳市消防救援训练与战勤保障大队成立
吴刚谈儿子出演《狂飙》高晓晨:既然选择这条路就要自己走
世界即时:尼泊尔载72人客机失事坠毁 初步调查报告:螺旋桨顺桨失去推力
环球信息:2023年铁路春运圆满收官:累计发送旅客3.48亿人次 增长37.4%
【天天速看料】博主分享特斯拉Model 3P一年使用成本:每公里不到4毛
卖手机壳收入百万:300多元的壳十分畅销