最新要闻
- 快看点丨8个月宝宝像打冷颤一样头抖_婴儿偶尔腿打颤正常吗
- 被批恶俗烂梗 鸡你太美商标无一注册成功:超20枚被判无效
- 即时看!AMD Yes!FSR 2.2插件已适用于虚幻引擎
- 环球焦点!V12自吸发动机+三电机!兰博基尼旗舰跑车动力信息公布:超千匹
- 天天即时看!招不到人!新加坡软件工程师月薪基本都超4.6万 跑不赢房租
- 微动态丨今晚打老虎!周杰伦用《赌侠2》梗回应周星驰喊话
- 焦点消息!2999元起!五菱羚羊智能电动自行车发布:新国标 200km续航
- 天猫超级红包开抢:今晚抢30万个6.8元天猫红包 最高3888元
- 观速讯丨育碧“壮士断腕”:将对欧洲工作室实施战略重组
- 天天热资讯!人民网评论:别让恶俗网络烂梗毒害孩子 散发恶臭气息
- 观速讯丨Win11强制要求的金身告破 TPM 2.0漏洞影响数十亿设备
- 环球速递!任长霞电视剧剧情
- 世界要闻:「全国两会跨省联动报道」一生·一世·一群鸟——黑颈鹤与贵州保护者刘广惠的故事
- 16+512GB杀到2799元 一加Ace 2V颠覆友商:便宜1000多
- 观热点:摄影小白也能瞬间变大师!努比亚Z50 Ultra视频评测:最完美的无孔全面屏
- 当前快报:杭州亚运倒计时200天!首批亚运电竞特许商品上线:史上首次
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
世界消息!朴素贝叶斯与Laplace平滑
朴素贝叶斯与Laplace平滑
朴素贝叶斯(Naive Bayes)
基本理论
朴素贝叶斯模型是生成学习的一种,用于分类问题。作为生成学习,朴素贝叶斯针对每一个分类,生成一个该分类对应的数据的模型,然后判断一个数据最符合哪一个模型,从而分类。
其核心为贝叶斯公式:
【资料图】
\[P(y\mid x) = \frac{P(x\mid y)P(y)}{P(x)}\]目标是
\[\operatorname{argmax}_y\{P(y\mid x)\}=\operatorname{argmax}_y\{P(x\mid y)P(y)\}\]这里的 \(x\) 代表了一系列特征 \(x_1,\dots,x_n\),于是我们的目标也可以写作:
\[\operatorname{argmax}_y\{P(y)P(x_1\mid y)P(x_2\mid x_1, y)\dots P(x_n\mid x_1, \dots, x_{n-1}, y)\}\]这个式子非常复杂,如果考虑每个特征都是 \(0/1\) 变量,那么学习的参数为 \(O(2^n)\)(对于 \(x_{1},\dots,x_{i-1},y\) 的每种取值情况,都有 \(x_i\) 的分布)。
而朴素贝叶斯采取了一个非常强的假设——\(x_1,\dots,x_n\) 相互独立,于是上式立即化简为:
\[\operatorname{argmax}_y\{P(y)P(x_1\mid y)P(x_2\mid y)\dots P(x_n\mid y)\}\]参数数量 \(O(n\times \#\text{class})\),这样就具有可操作性了。
参数推导
以每个特征都为 \(0/1\) 变量,进行 \(0/1\) 分类为例,推导各个参数的取值。
参数有:
- \(\phi_y\):\(y=1\) 的先验概率;
- \(\phi_{j\mid y=0},\phi_{j\mid y=1}\):在 \(y=0\) 以及 \(y=1\) 时,\(x_j=1\) 的概率,根据假设,不同的特征之间的参数是无关的。
仍然采用最大似然估计,用联合概率定义似然函数(\([x]\) 表示 \(x\) 为真即 \(1\),假即 \(0\)):
\[\begin{aligned}\mathcal{L}(\phi_{y=0},\phi_{y=1},\phi_y)=&\prod_{i=1}^mP(x^{(i)},y^{(i)})\\=&\prod_{i=1}^mP(y^{(i)})\prod_{j=1}^nP(x^{(i)}_j\mid y^{(i)})\\=&\prod_{i=1}^m\phi_y^{[y^{(i)}=1]}(1-\phi_{y})^{[y^{(i)}=0]}\prod_{j=1}^n\Big[\phi_{j\mid y=0}^{[x^{(i)}_j=1]}(1-\phi_{j\mid y=0})^{[x_j^{(i)}=0]}\Big]^{[y^{(i)}=0]}\\&\Big[\phi_{j\mid y=1}^{[x^{(i)}_j=1]}(1-\phi_{j\mid y=1})^{[x_j^{(i)}=0]}\Big]^{[y^{(i)}=1]}\end{aligned}\]取对数似然(其中 “\(\dots\)” 对 \(y=1\) 的情况省略):
\[\begin{aligned}\mathcal{l}=&\sum_{i=1}^m[y^{(i)}=1]\ln\phi_y+[y^{(i)}=0]\ln(1-\phi_y)\\+&\sum_{i=1}^m\sum_{j=1}^n[y^{(i)}=0][x^{(i)}_j=1]\ln\phi_{j\mid y=0}+[x_j^{(i)}=0]\ln(1-\phi_{j\mid y=0})\dots\end{aligned}\]先对 \(\phi_y\) 求偏导并令其为零:
\[0=\frac{1}{\phi_y}\sum_{i=1}^{m}[y^{(i)}=1]-\frac{1}{1-\phi_y}\sum_{i=1}^m[y^{(i)}=0]\]从而
\[\phi_y=\frac{1}{m}\sum_{i=1}^m[y^{(i)}=1]\]再对 \(\phi_{j\mid y=0}\) 求偏导并令其为零:
\[0=\sum_{i=1}^m[y^{(i)}=0]\left(\frac{[x^{(i)}=1]}{\phi_{j\mid y=0}}-\frac{[x^{(i)}=0]}{1-\phi_{j\mid y=0}}\right)\]从而
\[\phi_{j\mid y=0}=\frac{\sum_{i}[y^{(i)}=0][x^{(i)}_j=1]}{\sum_{i}[y^{(i)}=0]}\]同理有
\[\phi_{j\mid y=1}=\frac{\sum_{i}[y^{(i)}=1][x^{(i)}_j=1]}{\sum_{i}[y^{(i)}=1]}\]实际上这些公式看起来非常显然,就是以频率估计概率,但是都是基于MLE推导而来的。
Laplace平滑
朴素贝叶斯模型非常依赖数据的“完整性”——假如训练集中没有 \(x^{(i)}_j=1,y^{(i)}=0\) 的数据,那么我们对 \(P(x_j=1\mid y=0)\) 的估计就是 \(0\),也即在统计上不可能发生,然而这是很不安全的,我们更倾向于说 \(P(x_j=1\mid y=0)\) 很小,而不是为 \(0\)。
以一个例子突出朴素贝叶斯模型的这一问题。
垃圾邮件分类
考虑给定一个纯文本邮件,判断其是否为垃圾邮件。
我们可以用一种很简单的方法处理数据——预设一个字典,假设邮件的所有单词都包含在内(如果没有包含就把它忽略)。设置特征为“某一个单词是否在邮件中出现”,出现即为 \(1\),不出现即为 \(0\)。是垃圾邮件,则目标值为 \(1\),否则为 \(0\)。
(其实可以注意到这种特征设置并不满足朴素贝叶斯的假设,比如 buy 和 price 这两个单词是否出现一般来说是不独立的。因此直接这样实现的效果很差,用 UCI 中的数据集 spambase,将其提供的“单词出现频次”改为“是否出现”,大概错误率为 10%。)
那么就可能会有一个问题——字典中的某个单词 \(j\) 没有在 training set 里出现,但是出现在了 test set 中。按照我们的方法,
\[P(x_j=1\mid y=1)=P(x_j=1\mid y=0)=0\]那么我们发现模型对 test set 中的这封邮件是垃圾邮件和不是垃圾邮件的概率都是 \(0\)。很有可能这一个单词与是否是垃圾邮件无关,但是它造成了我们根本无法判断这封邮件是否是垃圾邮件。
Laplace平滑
一个非常简单的处理,我们假设每种情况最初都包含有一个数据,也即
\[\phi_{j\mid y=0}=\frac{\sum_{i}[y^{(i)}=0][x^{(i)}_j=1]+1}{\sum_{i}[y^{(i)}=0]+1}\]同理
\[\begin{aligned}\phi_{j\mid y=1}&=\frac{\sum_{i}[y^{(i)}=1][x^{(i)}_j=1]+1}{\sum_{i}[y^{(i)}=1]+1}\\\phi_y&=\frac{\sum_{i=1}^m[y^{(i)}=1] +1}{m+1}\end{aligned}\]这样就直接避免了上述问题,但是同时也会造成一定程度的误差,在数据较多时造成的误差不明显。
关键词:
-
【环球速看料】生成你的自定义密码本Python
python生成一个自定义密码本importitertoolsasitsimportos 定义生成密码本的函数defgenerate_passwords(length,combi
来源: 世界消息!朴素贝叶斯与Laplace平滑
一篇搞懂cookie和session
【环球速看料】生成你的自定义密码本Python
快看点丨8个月宝宝像打冷颤一样头抖_婴儿偶尔腿打颤正常吗
被批恶俗烂梗 鸡你太美商标无一注册成功:超20枚被判无效
即时看!AMD Yes!FSR 2.2插件已适用于虚幻引擎
环球焦点!V12自吸发动机+三电机!兰博基尼旗舰跑车动力信息公布:超千匹
天天即时看!招不到人!新加坡软件工程师月薪基本都超4.6万 跑不赢房租
微动态丨今晚打老虎!周杰伦用《赌侠2》梗回应周星驰喊话
当前快播:记一次影视cms黑盒CSRF->RCE
OpenYurt 在龙源 CNStack 云边协同项目的应用
当前资讯!注解:@RequiredArgsConstructor、 @Validated、 @Valid、 @Lazy
全球微动态丨MP 代码生成器工具类
焦点消息!2999元起!五菱羚羊智能电动自行车发布:新国标 200km续航
天猫超级红包开抢:今晚抢30万个6.8元天猫红包 最高3888元
观速讯丨育碧“壮士断腕”:将对欧洲工作室实施战略重组
天天热资讯!人民网评论:别让恶俗网络烂梗毒害孩子 散发恶臭气息
观速讯丨Win11强制要求的金身告破 TPM 2.0漏洞影响数十亿设备
天天头条:60% 程序员大呼:我要远程办公!
世界热消息:一篇文章带你了解折线图
焦点短讯!创建型-单例模式
世界要闻:18位身份证校验Python
【世界热闻】百度统计快速实现网站访问量的统计
环球速递!任长霞电视剧剧情
世界要闻:「全国两会跨省联动报道」一生·一世·一群鸟——黑颈鹤与贵州保护者刘广惠的故事
16+512GB杀到2799元 一加Ace 2V颠覆友商:便宜1000多
观热点:摄影小白也能瞬间变大师!努比亚Z50 Ultra视频评测:最完美的无孔全面屏
当前快报:杭州亚运倒计时200天!首批亚运电竞特许商品上线:史上首次
当前报道:首发749元 一加Buds Pro 2轻享版发布:丹拿联合调音
即时焦点:蔚来丹麦首座换电站上线:老外“跪”在地上观看
Linux常用的20个命令(上)
天天速递!全景剖析阿里云容器网络数据链路(六):ASM Istio
全球聚焦:gitee突然无法访问
【天天时快讯】自从用了 Stream,代码更简洁优雅了!
每日观察!拍了10多年星星!努比亚Z50 Ultra升级11大星空算法
今日看点:AI免费设计LOGO效果惊艳 雷军200万花早了
1.6L自吸最大功率99kW 2023款日产轩逸本月上市
焦点日报:一加Ace 2V首发主动增强式超级Wi-Fi:穿墙能力提升30%
全球快报:一加Ace 2V触控体验碾压iPhone 14 Pro Max:在安卓阵营中表现最佳
全球微动态丨为什么99%的程序员都做不好SQL优化?
当前通讯!跟老杜从零入门MyBatis到架构思维(一)MyBatis概述
告别数据开发中的人工审核!火山引擎 DataLeap 落地“自动校验开发规范”能力
每日播报!Markdown语法学习
赞美翡翠的优美句子有哪些?
【世界速看料】“APP刺客”倒逼厂商升级大内存、大存储!8+128根本不够用了
天天微速讯:一人改代码搞崩推特 马斯克气疯:全部重写!
天天观察:出演《狂飙》爆红!雷军晒“大嫂”高叶人像照:小米13徕卡镜头
全球短讯!若依项目部署详解
最新:python奇葩反爬-你是故意的还是不小心的
全球观焦点:(数据库系统概论|王珊)第十章数据库恢复技术-第四、五、六、七节:数据库恢复技术和数据库镜像
全球百事通!以图搜图实现
每日播报!四步教会你如何画好流程图?
每日快播:华昌集团
全球聚焦:你几点睡?全国熬夜最狠城市揭晓:广东最牛 干这些行业的熬夜最多
金俊秀为什么叫细亚俊秀?金俊秀个人简介资料
已考上大学的简短四字祝福语有哪些?祝福前途似锦的古诗词有哪些?
强迫性动作属抑郁症吗?强迫性动作的自我疗法有哪些?
天天热点评!嫌弃之余,百度的这些搜索技巧真得会!
环球热议:EF7数据库提供者的自定义值生成器
全球热议:Use CMake notes
ArrayList和LinkedList的区别
咬甲癖是心理疾病吗?咬甲癖怎么治疗?
皮肤剥离强迫症是什么?皮肤剥离强迫症怎么治疗?
中移动董事长喊话中小学必学编程:还有委员喊话取消英语主科学了没用 你支持谁?
【世界快播报】最受欢迎的豪华中大型SUV 新款宝马X5实车亮相:国产必卖爆
湖北省“最强9万元补贴”蔓延 云南东风本田抄作业:直补6万
热点在线丨比Dev渠道更“快”!微软为Windows新增Canary测试渠道
全球观热点:砸130亿元 日本又失败!新主力火箭发射后自毁 日本专家谈落后中国多少年
焦点!【ES三周年】Elasticsearch安全配置详解
时讯:【MRTK】修改 HoloLens 应用的默认系统设置
新动态:开心档之Python3 面向对象
面试官要你介绍项目,怎么说?
每日速读!git的使用(一篇非常好的文章)
【快播报】老杜带你从零入门MyBatis,学MyBatis看这篇就够了!
bt种子是什么意思?bt种子怎么变成文件?
怎么查询手机号的号主姓名?怎么查询手机号用了多少年?
cpu怎么看性能参数?cpu检测软件哪个好?
车主称极氪001空调喷白粉末 官方回应:符合国标没有损害
世界今热点:育碧参与 巴黎圣母院加速修复:力争明年重新开放
世界速看:为什么小米手机不在美国卖?看完原因对雷军更有好感
天天快看:魅族20 Pro真机照出炉:“纽扣”四摄有意思
今日聚焦!《卧龙》超猛玩家穿着内裤打Boss 张梁吕布都无奈了
传真机是干什么用的?怎么发传真?
吉吉影音是什么?吉吉影音手机版离线缓存怎么用?
【世界播资讯】封装发送短信功能的封装过程
快报:什么是流程图?一篇文章就帮你搞定了
建立私人知识网站 cpolar轻松做到1 (部署DokuWiki)
热点!cad块属性定义及应用
叶辰是什么电视剧
环球观速讯丨迷惑行为!女司机给奥迪Q3加玻璃水:一股脑全倒进机油壶
天天热门:猪肉含量≥85% 一口全是肉:亚明猪肉烤肠2斤29.9元发车
全球最资讯丨看片、下载神器!四盘位NAS极空间Z4s史低价:2899元
世界即时:阿里影业总裁谈《长空之王》:展现了我们的意志力和信心
焦点!东风系疯狂补贴!雪铁龙、标致、本田大降价:12万能买C级轿车
天天简讯:长沙银行:向不特定对象发行可转债申请获上交所受理
全球百事通!tabby美观且实用的终端工具(windows/macos版 ,亲测有效!!!)
Spring6超全面教程,老杜带你玩转Spring6
更改windows桌面路径的教程
全球速读:亲测可用,ChatGPT 对话技巧
男子临时起意偷井盖 外卖小哥挺身而出上前制止