最新要闻
- 【环球新要闻】泡泡玛特4r出透卡什么意思 泡泡玛特几r出透什么意思
- 北京警方依法行政拘留冲入球场拥抱梅西的球迷
- 女子拆145个盲盒拒付款!父亲称其有精神病闹上法庭:结果出来了
- 每日观察!电影《消失的她》预售票房破千万:陈思诚监制 倪妮主演
- 广东暴雨积水成河:有人屋内钓鱼 有人"水上摩托"
- 每日播报!不再依赖进口 国产磁共振医疗装备重大突破:绰号“白胖子”
- 天天观点:未通过网络安全审查 禁止采购!美光宣布在中国投资超43亿元
- 6月16日基金净值:景顺长城远见成长混合A最新净值1.1679,涨2.43% 要闻速递
- 2023高考英语作文预测热门话题_2018热门话题新闻作文100字
- 每日看点!iso怎么转换为gho_怎样才能把ISO文件转换成GHO文件 1111
- 嵩山少林塔沟武校学费_嵩山少林塔沟武校
- 《云顶之弈》网页版云游戏上线:PC互通 手机点开就能玩
- 环球快资讯丨最美“小丑女”演女主!《芭比》真人电影国内定档:7月21日上映
- 环球今头条!玩家哭了!女子带100张《塞尔达传说:王国之泪》卡带入境被海关查获
- 一之濑拓实和小松奈奈第一次见面(一之濑拓实)_天天快消息
- 今日视点:美股盘初:Adobe涨约5%,维珍银河涨超45%
广告
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
读数据压缩入门笔记06_上下文转换_速看
(资料图)
1.压缩算法可归为两类
1.1.统计压缩(即VLC)
1.2.字典压缩(如LZ78)
1.3.从不同的角度利用了给定数据流中存在的统计冗余信息
2.上下文变换
2.1.contextual transform
2.2.给定一组相邻的符号集,对它们进行某种方式的变换使其更容易压缩
3.行程编码
3.1.run-length encoding,RLE
3.2.过去40多年来看似很简单、实则很高效的编码技术
3.3.单字符上下文模型
3.3.1.对任何给定的符号,在编码时我们都只考虑它的前一个符号
3.3.1.1.如果这两个符号是相同的,那么行程继续
3.3.1.2.如果不相同,那么当前行程终止
3.4.主要针对的是连续出现的相同符号聚类的现象,它会用包含符号值及其重复出现次数的元组,来替换某个符号一段连续的“行程”(run)
3.5.将最短码字分配给最大的值(因为它表示的是最长的行程)
3.5.1.如果我们从绝对值的角度理解每个行程的开始,那么长度值表示的是数据流中符号变化之间的距离
3.6.最适用于大多数符号都连续重复出现的数据集
3.6.1.如果要处理的数据集没有这样的性质,那么RLE算法并不适用
3.6.2.会将最短的编码分配给那些连续重复出现的符号
3.7.示例
3.7.1.AAAABBBBBBBBCCCCCCCC
3.7.2.[A,4][B,8][C,8]
3.8.编码工作就是找到一个符号并向前扫描看看其行程有多长
3.9.解码工作则相反,给定某个符号值及其长度值的二元组,只需要将正确个数的符号添加到输出流之后就行了
3.10.短行程是RLE作为一种算法面临的大问题
3.10.1.存储短行程的开销极大地影响了数据压缩后的大小
3.11.数据流中交错出现字面值是会出问题的
3.11.1.在数据集中增加一个二进制位流,来表示某个给定的符号流中各个符号是否连续重复出现
3.12.对干扰符号十分敏感
4.从压缩角度来说,数值型数据算是最令人讨厌的数据类型之一
4.1.GPS的坐标信息
4.2.搜索引擎的倒排索引信息
4.3.返回的用户ID
4.4.因为大多数时候,我们找不到可以利用的统计信息
5.增量编码
5.1.delta coding
5.2.将一组数据转换为各个相邻数据之间的相对差值(即增量)的过程
5.3.思想
5.3.1.给定一组数据,相关的或相似的数据往往会集中在一起。如果这样,有了两个相邻值之间的差,就可以用其中一个值以及该差值来表示另外一个值
5.3.2.它依靠的是相邻性
5.4.在数值型数据这样普遍而其熵值又如此偏高的情况下,增量编码提供了一种不依靠统计的转换
5.5.目的就是缩小数据集的变化范围
5.5.1.为了减少表示数据集中的每个值所需要的二进制位数
5.5.2.当相邻数值之间的差相对较小时,增量编码最有效
5.5.3.如果差值变大,情况就会变糟
5.6.最适用于处理时间序列数据以及音频和图像数据这类多媒体数据
5.6.1.比如每10秒检测一次温度的传感器所产生的数据
5.6.2.这类数据中邻近的数据之间存在着时间上的关联
5.7.减法增量编码算法的问题是,结果中可能会出现负数,进而产生各种问题
5.7.1.负数不仅在存储的时候需要额外的二进制位,此外还可能会增大数据的变化范围
5.8.如果增量编码能做到以下两点,那么我们就可以认为它生成的数据更容易压缩
5.8.1.将数据集中的最大值变小,因此缩小了数值的变化范围
5.8.2.生成了许多重复值,可以让统计压缩的效率更高
6.XOR增量编码
6.1.通过使用按位异或运算(bitwise exclusive OR,XOR)代替减法运算
6.2.完全绕开了负数出现的问题,因为整数之间的XOR根本不可能产生负数
7.参照系增量编码
7.1.参照系方法通过让其他数减去最小的数
7.2.“参照系”(frame of reference,FOR)中那个“参照数”(frame)的选取,与将转换恰当地应用到数据集上有关
7.2.1.因此需要将数据集细分为更小的数据组
7.3.FOR最初的设计目的是,尽可能地将更多数值匹配到单个整数的空间之内(通常是32位或者128位的整数
7.3.1.使数值在运行时更容易处理(因为计算机处理经过字节对齐,是 2的幂的那些数值会更容易),同时还可以将它当作一种漂亮的内存压缩表示
7.3.2.提供了一种非常简单的压缩方法。将 10个整数压缩到32个二进制位的空间内,这样的压缩效果可以说很好了,其结果是产生了一种性能很强的方法,可以在一秒内解码数十亿个整数值,代价则是那些没有充分利用空间的整数需要额外的开销
7.4.修正的参照系增量编码
7.4.1.Patched Frame of Reference Delta Coding,PFOR
7.4.2.Zukowski等人提出
8.前移编码
8.1.move-to-front coding,MTF
8.2.最简单的动态统计转换形式之一
8.3.数据的排列次序中包含着一些有助于编码未来符号的信息
8.4.MTF是局部自适应的
8.4.1.会根据输入流中局部区域符号的出现频次进行调整
8.4.2.符号在短时间内重复出现时,MTF会重新分配一个较小的值
8.5.对干扰符号这类问题不敏感
8.6.问题
8.6.1.一些捣乱的符号会打乱前面存在的符号流
8.6.1.1.真实数据中普遍存在
8.7.解决方法
8.7.1.不是一读到某个符号就将它移到最前面,而是采取一些探索式方法慢慢地将它移到最前面
9.伯罗斯–惠勒变换
9.1.Burrows-Wheeler transform,BWT
9.1.1.1994年
9.1.2.Burrows与Wheeler合作
9.2.工作原理
9.2.1.通过打乱数据流次序来让重复的子串聚集在一起
9.2.2.这一操作本身不能压缩数据,却可以为后续的压缩系统提供转换好的数据流,方便压缩
9.3.顺序很重要
9.3.1.熵作为度量单位,它的一个问题是没有考虑符号之间的顺序
9.3.1.1.事实上符号之间的顺序很重要
9.3.2.通过转换数据流中符号之间的顺序,可以让数据流更容易压缩
9.3.3.在对数据排序后,如果没有更多额外的信息指明它是如何变化的,我们无法让数据重新回到未排序的状态
9.3.4.字典序排列
9.3.4.1.lexicographical permutation
9.3.4.2.BWT会打乱数据流中符号的顺序,并试图让相同的符号簇彼此靠近
9.3.4.3.找出原始数据集的一种排列,根据其顺序,该排列可能更容易压缩
9.3.5.通过BWT,在编码与解码时无须增加太多的额外信息
9.4.示例
9.4.1.BANANA
9.4.2.在接下来的每一行,我们都会对该字符串进行一次循环右移一位操作
9.4.3.BANANA
ABANANNABANAANABANNANABAANANABBANANA
9.4.4.对表中的每一行按字典顺序排序
9.4.5.ABANAN
ANABANANANABBANANANABANANANABA
9.4.6.每个字符串的最后一个字符,从上到下
9.4.7.NNBAAA
9.4.7.1.与BANANA相比更好地将相同的字符聚集在了一起
9.4.8.0 ABANAN
1 ANABAN2 ANANAB3 BANANA4 NABANA5 NANABA
9.4.9.行索引3就是源字符串
9.5.最引人注目的特点在于只需要极小的数据开销,它所进行的变换操作就是可逆的(reversible)
9.6.对DNA来说是一种理想的变换,可以使其更容易压缩、查询和检索
9.7.具体实现
9.7.1.将整个文件分为许多1 MB大小的数据块,然后在每个数据块上分别应用该算法
9.8.最常见的用法
9.8.1.将BWT的输出作为MTF的输入,经过处理后接着用统计编码算法处理
9.8.1.1.BZIP2的内部工作原理
关键词:
读数据压缩入门笔记06_上下文转换_速看
【环球新要闻】泡泡玛特4r出透卡什么意思 泡泡玛特几r出透什么意思
天天观热点:Polly简单使用
go语言list表
北京警方依法行政拘留冲入球场拥抱梅西的球迷
女子拆145个盲盒拒付款!父亲称其有精神病闹上法庭:结果出来了
每日观察!电影《消失的她》预售票房破千万:陈思诚监制 倪妮主演
广东暴雨积水成河:有人屋内钓鱼 有人"水上摩托"
每日播报!不再依赖进口 国产磁共振医疗装备重大突破:绰号“白胖子”
天天观点:未通过网络安全审查 禁止采购!美光宣布在中国投资超43亿元
6月16日基金净值:景顺长城远见成长混合A最新净值1.1679,涨2.43% 要闻速递
2023高考英语作文预测热门话题_2018热门话题新闻作文100字
每日看点!iso怎么转换为gho_怎样才能把ISO文件转换成GHO文件 1111
Kotlin协程-从理论到实战
常见WebShell的流量特征
今日报丨01. 组建知识星球服务体系
嵩山少林塔沟武校学费_嵩山少林塔沟武校
《云顶之弈》网页版云游戏上线:PC互通 手机点开就能玩
环球快资讯丨最美“小丑女”演女主!《芭比》真人电影国内定档:7月21日上映
环球今头条!玩家哭了!女子带100张《塞尔达传说:王国之泪》卡带入境被海关查获
一之濑拓实和小松奈奈第一次见面(一之濑拓实)_天天快消息
今日视点:美股盘初:Adobe涨约5%,维珍银河涨超45%
普通人也能太空旅行 我国将推出商业航天项目:最快5年后|全球要闻
世界时讯:阿里总裁谈马云近况:他在东京教书 很开心
资讯:奥运冠军苏翊鸣获得清华大学保送资格 发文感谢:18岁三个愿望都实现了
法官曼司亚:一起离婚案件她跟踪回访了12年
当前关注:聊聊Flink必知必会(四)
【世界快播报】Kotlin协程-从一到多
金科地产8.8亿元债券本息未按期偿付 持有人会议仍在表决中 新动态
向佐晒儿子周岁宴,现场紧搂郭碧婷秀恩爱,儿女露正脸都是高颜值_快资讯
江淮钇为3上市:最长续航600公里、8.99万元起_天天资讯
酷睿Ultra来了!Intel史上最混乱一代 还有马甲
谨慎下载 Win10 ISO镜像被黑客下马:攻击手法罕见_环球热消息
报道:博尔特4x100
LGV引理
【世界新要闻】Docsify on VPS,搭建最简个人博客
先正达集团IPO过会 沪市主板即将迎来全球农业龙头企业
今日热文:手握手的承诺 心贴心的服务_手握手
男孩玩氢气球砸到吹风机爆燃 妈妈被严重烧伤:画面触目惊心
美国能源部资助Intel 1220万元:开发2000W散热技术-天天热资讯
狂喝红牛能抗老?
不忘挖井人!奔驰Vision One-Eleven概念车首发:致敬经典实验车|天天速读
刷新纪录!41颗卫星共乘一枚火箭座位怎么排:全靠它了
精选!蜂蜜的种类
结案了!in到底用不用索引,啥时候能用啥时候不能用-天天新消息
lua中 . 和 : 的区别
港人北上消费升温 香港零售业对人流量持乐观态度_世界新消息
前沿资讯!欧盟机构:6月初全球平均气温创纪录
世界百事通!理想MPV设计手稿曝光 李想:设计灵感不是和谐号 而是鲸鱼
女儿高考完提出3个要求妈妈崩溃:养了个祖宗|天天速看
土星卫星首次发现高浓度磷元素 地外生命真的存在?
美商海盗船发布新款DARKSTAR鼠标:15个可编程按键
2399元的RTX 4060即将开卖 专家称英伟达还得涨:显卡份额突破76%
[路演]金杨股份首次公开发行股票并在创业板上市网上路演今日在全景网成功举办
世界简讯:网易云心动模式为什么会播不是喜欢的音乐(网易云的心动模式在哪)
元数据在数字化时代中的应用与发展
记录--设计一个可选择不连续的时间范围的日期选择器
聊聊Flink的必知必会(三)
【活动访谈】发力数字基座 推动物联创新—航天科技控股集团AIRIOT4.0平台发布会活动专访 天天短讯
即时焦点:曝光!Apache SeaTunnel Catalog 功能设计为何能大大简化用户启用步骤?
财政部:1-5月全国一般公共预算收入同比增长14.9% 一般公共预算支出同比增长5.8%
新美男记_关于新美男记简介
当前资讯!高考考生们这些“套路”骗局要当心:千万别信
环球观热点:小哥十米高跳江救人!老家张家界奖励10万元外加一套房
16针显卡供电接口闯大祸!第一次把电源烧了
全球实时:HDD硬盘被垄断 倪光南院士:SSD取代的时机到了
iPhone 15 Pro Max影像这下拉满了!看不到短板
景区观光车这价格,吃相太难看了
环球热讯:两部门印发文件部署高校毕业生档案转递接收工作
Kubernetes 1.27.2集群安装|每日热讯
单体服务,微服务服务的演变 & 各自优缺点
世界观焦点:javaScript基础语法之正则表达式
国网集安市供电公司:开展端午节前作风建设监督检查
世界要闻:比法拉利更抢眼!理想设计师亲自“泄密” W01设计手稿公布
苦中作乐!广东暴雨积水成河:有人屋内钓鱼 外卖车成水上摩托-当前滚动
快报:顾客遇账单刺客8碗米饭要90元 餐厅反驳:为了拍段子蹭流量
热到怀疑人生!今年“烧烤模式”来得早
每日视讯:RTX 4080显卡杀到8399元 铭瑄618全程价保:硬核装备开抢
FOreverLove什么意思中文
全球热门:远程办公篇-vscode远程SSH开发
和必应对话之mysql分区分表
天天日报丨位运算与集合
镜像,容器,容器数据卷,DockerFile 相关命令 使用总结 全球资讯
今日视点:胸部怎样才算不下垂_胸部怎样才能变大
全球今日讯!Facebook首席AI专家表示, 大语言模型只是昙花一现
好多明星去看了梅西比赛:陈妍希、苏醒等人都在现场_全球快播
世界看热讯:余承东:比亚迪是未来能活下来的巨头之一 华为能帮车企活下来
余承东:问界M5智能驾驶能力全球第一 超越特斯拉、国内外所有同行 天天快播
李一男造车梦“复活”自由家NV换标大乘V07已通过工信部申报
全球要闻:一口降温夏日必备!迷你可爱多冰淇淋官旗发车:每支不到1块钱
【天天速看料】邓一杰:黄金破1962,保守调仓,激进持仓!
当前头条:冬天适合在室内养什么植物_冬天室内养什么植物好 冬天适合室内种植的植物介绍
梅西ins发文感谢中国粉丝:开场81秒就进球 打破职业生涯记录 快看点
离谱!代驾设套碰瓷13名代驾同行:故意选土路蹭底盘 世界快消息
梅西直播被吐槽广告多?回应来了:纯聊天 没有带货_每日热议
苹果iPhone为何只有27W充电?原因可能有三 焦点速读
韩媒:韩国年轻人迷上中国App无法自拔 实在太好用了-全球讯息
速看:液冷概念股震荡走高 飞龙股份拉升封板
天天微头条丨CHAT-GPT初使用
唐源电气6月16日盘中跌幅达5%