最新要闻
- 天天微动态丨业内人士:随着高估值隐忧基本出清 当前基础设施REITs具备较好的分红吸引力
- 【独家】神十六成功对接空间站组合体 太空中国人数量超越美国人
- 天天热讯:沙特、俄罗斯减产也没用?国际原油跌超4%:美国开始“耍赖”
- 世界通讯!林草碳汇政策划重点
- 抄底信号?基金公司出手自购!投研人士:市场迎来左侧布局较好时点
- 广东汕尾海滩突现大量生蚝!官方回应:建议尽量不要吃
- 互联网大厂学会“放弃”:风吹过 摔不死 全跑了 环球要闻
- 中国人2030年前登陆月球!美国真急了
- 比亚迪给国产大飞机C919当引航车:国产致敬国产 比肩同行
- 小米汽车又有大料!博主直接实拍MS11实车 造型帅呆
- 慎言笃行怎么读(慎言)
- 乙肝表面抗体阳性是什么意思呀_乙肝表面抗体阳性是什么意思_当前信息
- 揭秘新疆棉背后的硬核高科技
- 国家发展改革委:5月30日24时起国内汽、柴油价格每吨分别提高100元和95元
- 汽车报道:特斯拉人才流失严重电池工程总监或另起炉灶 世界观天下
- 因夜间跳闸导致养猪场内空气不流通 造成5000头猪在高温下被闷死
广告
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
读数据压缩入门笔记03_VLC
(资料图片)
1.概率、熵与码字长度
1.1.数据压缩的目的
1.1.1.给定一个数据集中的符号,将最短的编码分配给最可能出现的符号
1.2
1.2.1.当P(A)=P(B),也就是两个符号等可能出现时,数据集对应的熵取最大值LOG2(符号的个数),此时数据集很难压缩
1.2.2.其中一个符号出现的可能越大,数据集的熵值就越小,此时数据集也越容易压缩
1.2.3.对只包含两个符号的数据集来说,两个符号互换概率不影响其熵值
1.3.启示
1.3.1.随着数据集的冗余度下降,它的熵在变大,其最大值为数据集中不同符号个数的LOG2值
1.3.2.数据集中一个符号出现的概率越大,整个数据集的熵就越小,数据集也就越容易压缩
1.3.3.码字的长度与符号的出现概率密切相关,而与符号本身没有太大关系
2.VLC算法
2.1.在过去的40多年中,人们创造了数百种VLC算法
2.2.在为数据集选择一种VLC编码方法的考虑因素
2.2.1.数据集的整体大小
2.2.2.数据范围
2.2.3.计算各个符号的出现概率
2.2.4.如果不这样做,得到的结果可能就是,数据集的大小不但没有压缩,有可能反而比原来的数据集还大
2.3.存在的主要问题
2.3.1.它们不按字节 / 字 / 整型对齐
2.3.2.对于大的数值N,为了方便解码,其码字长度的增长速度一般会超过lb(N)个二进制位
2.3.3.解码的速度很慢(每次只能读取一个二进制位)
2.3.4.只能用于表示压缩数据流,没有其他应用
3.设计VLC集的码字原则
3.1.越频繁出现的符号,其对应的码字越短
3.2.码字需满足前缀性质
4.前缀性质
4.1.如果一个码字是另一个码字的前缀,那么用VLC解码二进制流就会很难
4.2.某个码字被分配给一个符号之后,其他的码字就不能用该码字作为前缀
4.2.1.每个符号都能通过其码字前缀唯一地确定
4.3.前缀性质是VLC能正常工作所必须具有的性质
4.3.1.与二进制表示相比,VLC要更长一些
5.唯一可译码
5.1.uniquely decodable codes
6.非奇异码
6.1.nonsingular codes
7.每一种前缀编码都是唯一可译的和非奇异的
8.VLC编码步骤
8.1.遍历数据集中的所有符号并计算每个符号的出现概率
8.1.1.画出数据集中所有符号的直方图
8.2.根据概率为每个符号分配码字,一个符号出现的概率越大,所分配的码字就越短
8.2.1.根据出现的频数对直方图进行排序
8.2.2.给每个符号分配一个VLC,从VLC集中码字最短的开始
8.3.再次遍历数据集,对每一个符号进行编码,并将对应的码字输出到压缩后的数据流中
9.VLC解码步骤
9.1.由于码字的长度并非是固定的,因此解码过程还是稍微有些复杂
9.2.解码的时候,我们会一二进制位一二进制位地读取数据,直到读取的二进制位流与其中的某个码字相匹配
9.3.一旦匹配,就会输出相应的符号,并继续读取下一个码字
10.摩尔斯码
10.1.1836年
10.1.1.画家Samuel F. B. Morse
10.1.2.物理学家Joseph Henry
10.1.3.机械师Alfred Vail
10.1.4.发明了第一套电报系统
10.2.克劳德•香农
10.2.1.摩尔斯码方面的专家
10.3.最简单的编码文本信息的方法
10.3.1.用数字126来编码AZ的英文字母
10.4.发送一次信息所需要的人工操作次数太多
10.4.1.物理硬件(发报机设备)和人工硬件(也就是操作人员的手腕)的磨损比预期的要快,解决方法则是使用统计来减少工作量
10.5.对符号分配变长编码(variable-length codes,VLC)的最初实现之一
10.6.为英语字母表中的每一个字符都分配了或长或短的脉冲,一个字母用得越频繁,其编码也就越短、越简单
10.6.1.目的则在于减少传输信息过程中所需要的总工作量
11.通用编码
11.1.universal codes
11.2.一种将整数转换为VLC的独特方法
11.3.一类特殊的前缀编码
11.4.为正整数赋上一个长度可变的二进制码字
11.5.数值越小,其对应的码字也越短
11.5.1.因为假定小整数比大整数出现得更频繁
12.二进制编码
12.1.不满足前缀性质
12.2.用B(n)来表示整数n的标准二进制表示
12.3.beta编码或二进制编码
12.4.给定0~N的任意整数,都能用1+floor(lb(n))个二进制位来表示
12.4.1.只要提前知道N的值,就能通过固定长度表示法来避开前缀问题
12.4.2.如果不能提前知道数据集中有多少个不同的整数,就不能用固定长度表示法
13.一元码
13.1.满足前缀性质
13.2.任意正整数N,它的一元码表示都是N-1个1后面跟着1个0
13.2.1.4的一元码表示为1110
13.3.整数N的一元码长度也是N个二进制位
13.4.将一元码应用在那些前一个符号的出现概率是后一个符号2倍的数据集上,效果最佳
13.5.如果每个整数N的出现概率P(N)服从指数分布2^(-N),即1/2、1/4、1/8、1/16、1/32,其他以此类推,就可以使用一元码进行编码
14.Peter Elias
14.1.1923年11月23日生
14.2.1955年,他就引入了卷积码(convolutional codes),作为分组码(block codes)的一种替代方法
14.3.建立了二进制删除信道(binary erasure channel),并提出了用纠错码的列表译码(list decoding of error-correcting codes)来代替唯一可译码(unique decoding)
14.4.Elias gamma编码
14.4.1.用于事先无法确定其上界的整数的编码
14.4.1.1.不知道最大的整数会是多大
14.4.2.对整数n的出现概率P(n)=1/(2n*n)的情形比较适用
14.4.3.最主要的思想是不再对整数直接编码,而是用其数量级作为前缀
14.4.3.1.相应的码字就由两部分组成,即与此整数相当的2的次幂再加上余数
14.4.4.工作原理
14.4.4.1.找出最大的整数N,使其满足2N<n<2(N+1),并且将n表示为n=2^N+L这样的形式
14.4.4.1.1.L=n-2^N
14.4.4.1.2.n=12,23=8,24=16,23<n<24,N=3
14.4.4.1.3.L=12-2^3=4
14.4.4.2.用一元码表示N
14.4.4.2.1.N=3,一元码110
14.4.4.3.将L表示为长为N的二进制编码,并加在步骤(2)中得出的一元码之后
14.4.4.3.1.有了这样的对称性,后面才能顺利解码
14.4.4.3.2.L=4,其对应的长度为3的二进制码为100
14.4.4.3.3.将前两个步骤得出的编码连接,就得到了最终的输出110100
14.5.Elias delta编码
14.5.1.对整数N的出现概率P(N)等于1/[2n(lb(2n)*lb(2n))的数据集来说是理想的选择
14.5.2.工作原理
14.5.2.1.将要编码的数N用二进制表示
14.5.2.1.1.将N=12表示为二进制1100
14.5.2.2.数一下N的二进制位数,并将这个位数转化为二进制,作为C
14.5.2.2.1.12的二进制表示共有4位,将4表示为二进制,即C = 100
14.5.2.3.去掉N的二进制表示的最左边一位,这个值肯定是1
14.5.2.3.1.去掉N=12的二进制表示的最左一位,得到100
14.5.2.4.将C的二进制表示加在去掉最左边一位后的N的二进制表示之前
14.5.2.4.1.将C = 100加到上一步骤所得的结果之前,得到100100
14.5.2.5.在上一步骤所得的结果前加上C的二进制位数减1个0作为最终的编码
14.5.2.5.1.将C的二进制位数减1,即3-1 = 2,在上一步骤所得的结果前加上2个0,由此得到12的最终编码为00100100
15.谷歌的Varint算法
15.1.最基本的概念早在1972年就提出
15.2.2010年作为“避免压缩整数”(escaping for compressed integers)而被重新引入
15.3.是一种表示整数的方法,它用一个或多个字节来表示一个整数,数值越小用的字节数越少,数值越大用的字节数越多
15.3.1.结合了VLC的灵活性和现代计算机体系结构的高效率,是一种很好的混合方法
15.3.2.既允许我们表示可变范围内的整数,同时还对自身的数据进行了对齐以提高解码的效率,达到了双赢
15.4.方法
15.4.1.将几个字节连接起来表示整数
15.4.2.并用每个字节的MSB作为布尔标志,来判断当前的字节是否为该整数的最后一个字节
15.4.3.每个字节的低7位则用来存储该数的二进制补码(two"s complement representation)
15.4.4.整数1可以用一个字节表示,因此它的MSB不需要设置,可表示为00000001
15.5.示例
15.5.1.10101100 00000010
15.5.1.1.10101100 00000010 → 0101100 0000010
15.5.1.1.1.删掉每个字节的MSB
15.5.1.1.1.1.它的作用只是判断当前字节是否是最后一个字节
15.5.1.1.1.2.第一个字节的MSB已经设置为1,因为用Varint方法来表示,该数需要多个字节
15.5.1.2.0101100 0000010
15.5.1.2.1.将剩下的两个7二进制位的数据顺序颠倒一下
15.5.1.2.1.1.用Varint方法表示时,低位的字节在前
15.5.1.3.0000010 0101100
15.5.1.3.1.将二进制表示转换为十进制数,就得到了最终的数值300
关键词:
-
天天微动态丨业内人士:随着高估值隐忧基本出清 当前基础设施REITs具备较好的分红吸引力
业内人士:随着高估值隐忧基本出清 当前基础设施REITs具备较好的分红吸引力 【业内人士:随着高估值隐
来源: 读数据压缩入门笔记03_VLC
天天微动态丨业内人士:随着高估值隐忧基本出清 当前基础设施REITs具备较好的分红吸引力
【独家】神十六成功对接空间站组合体 太空中国人数量超越美国人
天天热讯:沙特、俄罗斯减产也没用?国际原油跌超4%:美国开始“耍赖”
世界通讯!林草碳汇政策划重点
【世界速看料】流媒体协议之RTMP详解20230513
字节狂问1小时,小伙offer到手,太狠了!(字节面试真题) 全球速读
kali-linux运行python脚本时出现”word unexpected (expecting ")")“错误的解决 热点聚焦
抄底信号?基金公司出手自购!投研人士:市场迎来左侧布局较好时点
广东汕尾海滩突现大量生蚝!官方回应:建议尽量不要吃
互联网大厂学会“放弃”:风吹过 摔不死 全跑了 环球要闻
中国人2030年前登陆月球!美国真急了
比亚迪给国产大飞机C919当引航车:国产致敬国产 比肩同行
小米汽车又有大料!博主直接实拍MS11实车 造型帅呆
慎言笃行怎么读(慎言)
乙肝表面抗体阳性是什么意思呀_乙肝表面抗体阳性是什么意思_当前信息
揭秘新疆棉背后的硬核高科技
国家发展改革委:5月30日24时起国内汽、柴油价格每吨分别提高100元和95元
汽车报道:特斯拉人才流失严重电池工程总监或另起炉灶 世界观天下
因夜间跳闸导致养猪场内空气不流通 造成5000头猪在高温下被闷死
日本专家三年研究表明 中学生入学得到手机或将导致脑力直接停滞在小学
冰淇淋已成为茅台产业生态中最具代表性前沿产品 未来加大研发新产品
《英雄联盟》外服宣布将在13.7版本后 停止支持32位Windows操作系统
意大利威尼斯主河道部分水域水体颜色变成荧光绿 改变原因暂不明确
大熊猫“园润”遭一男子泼水 成都大熊猫繁育研究基地禁止其入内
荆州海事局持续优化营商环境助力港航企业健康发展_每日关注
君主立宪制国家是什么意思(君主立宪制)-今热点
SD协议-基本概念
计算画布内旋转元素的边界坐标|今日视点
世界观焦点:售15.29-20.39万元 奇瑞瑞虎9正式上市
79888元!大疆空中电影机DJI Inspire 3正式开售_滚动
仅1399元!米家净水器600G发布:双芯7级精滤 母婴可直饮_世界播报
全球快报:工信部发布无线充电新规:手机等不能超80W
iOS网络数据指标收集
Java 集合类详解(一)_全球焦点
Java并发(七)----线程sleep、yield、线程优先级
即时设计—小组项目原型示例(附AI功能)
周二银行间回购定盘利率涨跌互现(05-30)
荣耀90系列发布:两款机型详解-世界快报
玩家在《塞尔达传说:王国之泪》造出二极管!信息时代要来了 环球播资讯
商州一出村道路泥泞出行难,主管部门:将用卵石铺设
2023-05-30:Redis6.0为什么要引入多线程呢?
《小美人鱼》真人电影首映三天票房为9540万美元 低于业界预期
微软推出《扫雷》与《纸牌》系列游戏周边商品 为广大电脑玩家熟悉
米哈游举办首届“星辰嘉年华 小王子杯”海外赛事 总奖金高达27万美元
因存在极大的安全隐患 多地管理部门开始立法禁止“低头族”过马路玩手机
梅西加冕五大联赛历史射手王 个人冠军数量追平阿尔维斯
贵州省发展改革委到铜仁市调研峰谷分时电价政策
扎克伯格净资产达到923亿美元 Meta将削减优先级较低的项目
当前观点:茅台冰淇淋一年卖出近千万杯:将研发酒心巧克力、棒支
群联发布新主控E31T:PCIe 5.0 SSD终于要便宜了!
疑台风刮来遍地生蚝 广东居民捡200斤:画面震撼 网友羡慕_每日速递
首发7折 联想65W氮化镓插排明天开售:出差不用带电源了
全球唯一一只纯白色的大熊猫惊艳亮相 被网友戏称为“卸了妆”的国宝
经典漫画《水果篮子》将推出全新舞台剧 预定10月开演
宝可梦社联合NHK交响乐团举行交响音乐会2023 预定8月10日开演
全球快报:中国星辰 | 神舟十六号增强使用北斗导航信号可靠性
呈和科技:166.67万股限售股2023年6月7日解禁
CentOS通过yum安装Docker
环球今热点:4月银行间本币市场:流动性保持合理充裕 债券市场净融资同比大增
分析师称债务上限协议或拖累美国经济
【环球新要闻】论文摘要英文翻译app(论文摘要英文翻译器)
卷疯了!iPhone 14入手仅需4999元|当前要闻
世界即时:奖金高达191万元!米哈游即将推出《原神》首个国际赛事
世界微动态丨专家建议女儿随母姓:传承应该不止是传给儿子、孙子
摩尔线程国产显卡新品发布会官宣!这次会有什么惊喜?
神舟十六号成功发射 美媒纷纷报道:中国剑指登月 全球微速讯
神十六乘组进驻天宫空间站:6位中国航天员太空聚会拍了全家福 环球微头条
腾讯二面:有 40 亿个 QQ 号,限制 1G 内存,问如何去重?被问懵了!
14)系统函数|环球快播
数据的新时代:可交互大屏展现数字孪生的奇妙效果
进入聊天室是什么意思(进入聊天室)
聚焦:谈何和何谈有什么区别(谈何的意思)
昔日国内最强播放器!快播正式宣告破产 王欣早已放下:技术永远无罪
刘慈欣:未来科幻作家会被AI代替 说人有灵魂不过是自我安慰
219元鼠标卷王!达摩鲨M3三模无线鼠标图赏-天天时快讯
世界热议:四川省阿坝藏族羌族自治州黑水县2023-05-30 15:53发布雷电黄色预警
2023新一线城市名单官宣!具体有哪些?最新排名介绍! 天天关注
倒计时7天!AIRIOT新品发布会,6月6日北京见。 环球要闻
焦点简讯:MySQL之DQL数据查询操作
【环球新要闻】Kali渗透Windows服务器
⌈力扣⌋删除字符串中的所有相邻重复项|当前快播
canon(450d)-世界今头条
世界头条:乘联会:2023年4月乘用车新四化指数为78.7
离谱!宠物鳄鱼从20多层高楼坠落摔成重伤 科普:高空坠物有多危险|天天快看
新显卡摆烂 英伟达营收却大涨 老黄这是要抛弃玩家? 每日焦点
【环球聚看点】7699元 Intel蝰蛇峡谷迷你主机618大促:I7-12700H+A770M独显
焦点速递!高速上小孩拉了一下手刹 驾驶证直接被扣了
韩国批准微软收购动视暴雪:份额太小没威胁 环球快播
日照假期2日游,轻轻松松拿捏到位,攻略篇 世界热门
Python 实现 m3u8 视频下载_全球消息
AIGC下的低代码赛道,你我皆是拓荒人
天天观点:【智能软件安全】上海道宁为您带来智能软件安全平台——Veracode,帮助您全面地保护您构建和管理地应用程序
全球即时:商品日报(5月30日):沪锡续涨近3% 纯碱反弹驱动不足再度转跌
全球今头条!辽宁男篮队员韩德君籍贯(韩德君真实身高)
总投入8700多万元 南安一家医院预计年底前投用-最新消息
40年传奇落幕:《夺宝奇兵:命运转盘》国内定档6月30日 环球热头条
618遇上毕业季:这三款高性价比的华硕无畏轻薄本 你值得拥有
全球百事通!2023新一线城市名单官宣: 北方仅4城上榜 有你的家乡吗?
神舟十六号与空间站完成交会对接:3名航天员即将进入天和核心舱|每日看点