最新要闻
- 北汽极狐成立法务部:200万粉丝知名汽车博主收到“告知函” 快资讯
- 中国首位!科学家付巧妹获联合国阿勒福赞奖-全球快播
- 226元大额券:361板鞋运动鞋休闲鞋74元抄底|全球百事通
- 离大谱!男子偷马路卖钱:把路分成小块去卖 天天时讯
- 3岁女童患罕见病 肚大如石鼓随时会“爆炸”:医生科普 续命针1次上万-环球快播
- 硬件博主自费实测5大旗舰手机信号:iPhone各种被狂虐
- 焦点热文:载亿万富翁观光潜艇失联 被曝用游戏手柄操控 专家:生还希望渺茫
- 电动汽车也能无线充电了:像手机一样简单 超大充电板长这模样
- 全球热议:微软停止涨薪影响明显:员工跳槽意愿上涨23%
- 11499元 三星首款5K专业显示器上架:配可拆卸4K摄像头
- 班主任和家长扮恐龙接中考生 现场让网友看笑:可爱的显眼包 全球信息
- 史上最深深海救援!观光潜艇失联:搜救无进展 氧气剩不多、或卡残骸中|全球讯息
- 俄妹COS《塞尔达》公主火了 性感美艳:欧美曾呼吁塞尔达公主应黑人|时快讯
- 环球热文:破75%了!理想汽车家用交流充电桩安装率遥遥领先
- 比亚迪赵长江:腾势N7领先两代 将成为家用和年轻人首选大五座标杆SUV
- 全球短讯!年轻人第一辆车!“小米汽车”非官方渲染图又来了:质感拉满 你会买吗
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
环球即时看!ClickHouse(14)ClickHouse合并树MergeTree家族表引擎之VersionedCollapsingMergeTree详细解析
- 建表语法
- 使用场景
- 合并算法
- 使用例子、
- 资料分享
- 参考文章
VersionedCollapsingMergeTree引擎继承自MergeTree并将折叠行的逻辑添加到合并数据部分的算法中。VersionedCollapsingMergeTree用于相同的目的折叠树但使用不同的折叠算法,允许以多个线程的任何顺序插入数据。特别是,Version列有助于正确折叠行,即使它们以错误的顺序插入。相比之下,CollapsingMergeTree只允许严格连续插入。
VersionedCollapsingMergeTree引擎的作用如下:
- 允许快速写入不断变化的对象状态。
- 删除后台中的旧对象状态。 这显著降低了存储体积。
建表语法
CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]( name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1], name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2], ...) ENGINE = VersionedCollapsingMergeTree(sign, version)[PARTITION BY expr][ORDER BY expr][SAMPLE BY expr][SETTINGS name=value, ...]
针对于VersionedCollapsingMergeTree(sign, version)两个特殊的参数。
(相关资料图)
sign — 指定行类型的列名:1是一个“state”行,-1是一个“cancel”行列数据类型应为Int8.version — 指定对象状态版本的列名。列数据类型应为UInt*.
使用场景
考虑一种情况,您需要为某个对象保存不断变化的数据。对于一个对象有一行,并在发生更改时更新该行是合理的。但是,对于数据库管理系统来说,更新操作非常昂贵且速度很慢,因为它需要重写存储中的数据。如果需要快速写入数据,则不能接受更新,但可以按如下顺序将更改写入对象。使用 Sign 列写入行时。如果Sign=1这意味着该行是一个对象的状态(让我们把它称为“state”行)。如果Sign=-1它指示具有相同属性的对象的状态的取消(让我们称之为“cancel”行)。 还可以使用 Version 列,它应该用单独的数字标识对象的每个状态。
例如,我们要计算用户在某个网站上访问了多少页面以及他们在那里的时间。在某个时间点,我们用用户活动的状态写下面的行:
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┐│ 4324182021466249494 │ 5 │ 146 │ 1 │└─────────────────────┴───────────┴──────────┴──────┘
在稍后的某个时候,我们注册用户活动的变化,并用以下两行写入它。
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┐│ 4324182021466249494 │ 5 │ 146 │ -1 ││ 4324182021466249494 │ 6 │ 185 │ 1 │└─────────────────────┴───────────┴──────────┴──────┘
第一行取消对象(用户)的先前状态。它应该复制已取消状态的所有字段,除了Sign。
第二行包含当前状态。
因为我们只需要用户活动的最后一个状态,所以需要删除,折叠对象的无效(旧)状态。VersionedCollapsingMergeTree会在在合并数据部分时执行此操作。
最终折叠之后的结果如下。
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐│ 4324182021466249494 │ 5 │ 146 │ 1 │ 1 |│ 4324182021466249494 │ 5 │ 146 │ -1 │ 1 |└─────────────────────┴───────────┴──────────┴──────┴─────────┘
对于使用VersionedCollapsingMergeTree有下面三个需要注意的点。
- 写入数据的程序应该记住对象的状态以取消它。该“cancel”字符串应该是“state”与相反的字符串Sign。这增加了存储的初始大小,但允许快速写入数据。
- 列中长时间增长的数组由于写入负载而降低了引擎的效率。数据越简单,效率就越高。
- SELECT结果很大程度上取决于对象变化历史的一致性。准备插入数据时要准确。不一致的数据将导致不可预测的结果,例如会话深度等非负指标的负值。
合并算法
合并算法主要是下面两个。
- 当ClickHouse合并数据部分时,它会删除具有相同主键和版本但Sign值不同的一对行.行的顺序并不重要。
- 当ClickHouse插入数据时,它会按主键对行进行排序。如果Version列不在主键中,ClickHouse将其隐式添加到主键作为最后一个字段并使用它进行排序。
ClickHouse不保证具有相同主键的所有行都将位于相同的结果数据部分中,甚至位于相同的物理服务器上。对于写入数据和随后合并数据部分都是如此。此外,ClickHouse流程SELECT具有多个线程的查询,并且无法预测结果中的行顺序。这意味着,如果有必要从VersionedCollapsingMergeTree表中得到完全“collapsed”的数据,聚合是必需的。
也就是说ClickHouse并不保证查询出来的数据一定是经过合并折叠的。如果要保证一定经过折叠合并,需要查询的时候使用GROUP BY和聚合函数。
要计算数量,使用sum(Sign)而不是count()。要计算的东西的总和,使用sum(Sign * x)而不是sum(x),并添加HAVING sum(Sign) > 0。可以在一定程度上避免数据未折叠导致的数据问题。
如果您需要手动折叠合并,但是,如果没有聚合(例如,要检查是否存在其最新值与某些条件匹配的行),则可以使用FINAL修饰FROM条件这种方法效率低下,不应与大型表一起使用。
使用例子、
示例数据:
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐│ 4324182021466249494 │ 5 │ 146 │ 1 │ 1 |│ 4324182021466249494 │ 5 │ 146 │ -1 │ 1 |│ 4324182021466249494 │ 6 │ 185 │ 1 │ 2 |└─────────────────────┴───────────┴──────────┴──────┴─────────┘
创建表:
CREATE TABLE UAct( UserID UInt64, PageViews UInt8, Duration UInt8, Sign Int8, Version UInt8)ENGINE = VersionedCollapsingMergeTree(Sign, Version)ORDER BY UserID
插入数据:
INSERT INTO UAct VALUES (4324182021466249494, 5, 146, 1, 1)INSERT INTO UAct VALUES (4324182021466249494, 5, 146, -1, 1),(4324182021466249494, 6, 185, 1, 2)
我们用两个INSERT查询以创建两个不同的数据部分。如果我们使用单个查询插入数据,ClickHouse将创建一个数据部分,并且永远不会执行任何合并。
获取数据:
SELECT * FROM UAct┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐│ 4324182021466249494 │ 5 │ 146 │ 1 │ 1 │└─────────────────────┴───────────┴──────────┴──────┴─────────┘┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐│ 4324182021466249494 │ 5 │ 146 │ -1 │ 1 ││ 4324182021466249494 │ 6 │ 185 │ 1 │ 2 │└─────────────────────┴───────────┴──────────┴──────┴─────────┘
我们在这里看到了什么,折叠的合并部分在哪里?我们使用两个创建了两个数据部分INSERT查询。该SELECT查询是在两个线程中执行的,结果是行的随机顺序。由于数据部分尚未合并,因此未发生折叠合并。 ClickHouse在我们无法预测的未知时间点合并数据部分。
这就是为什么我们需要聚合:
SELECT UserID, sum(PageViews * Sign) AS PageViews, sum(Duration * Sign) AS Duration, VersionFROM UActGROUP BY UserID, VersionHAVING sum(Sign) > 0┌──────────────UserID─┬─PageViews─┬─Duration─┬─Version─┐│ 4324182021466249494 │ 6 │ 185 │ 2 │└─────────────────────┴───────────┴──────────┴─────────┘
如果我们不需要聚合,并希望强制折叠,我们可以使用 FINAL 修饰符 FROM 条款
SELECT * FROM UAct FINAL┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐│ 4324182021466249494 │ 6 │ 185 │ 1 │ 2 │└─────────────────────┴───────────┴──────────┴──────┴─────────┘
资料分享
ClickHouse经典中文文档分享
参考文章
- ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景
- ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计
- ClickHouse(03)ClickHouse怎么安装和部署
- ClickHouse(04)如何搭建ClickHouse集群
- ClickHouse(05)ClickHouse数据类型详解
- ClickHouse(06)ClickHouse建表语句DDL详细解析
- ClickHouse(07)ClickHouse数据库引擎解析
- ClickHouse(08)ClickHouse表引擎概况
- ClickHouse(09)ClickHouse合并树MergeTree家族表引擎之MergeTree详细解析
- ClickHouse(10)ClickHouse合并树MergeTree家族表引擎之ReplacingMergeTree详细解析
- ClickHouse(11)ClickHouse合并树MergeTree家族表引擎之SummingMergeTree详细解析
关键词:
-
环球即时看!ClickHouse(14)ClickHouse合并树MergeTree家族表引擎之VersionedCollapsingMergeTree详细解析
[toc]>VersionedCollapsingMergeTree引擎继承自MergeTree并将折叠行的
来源: 环球即时看!ClickHouse(14)ClickHouse合并树MergeTree家族表引擎之VersionedCollapsingMergeTree详细解析
北汽极狐成立法务部:200万粉丝知名汽车博主收到“告知函” 快资讯
中国首位!科学家付巧妹获联合国阿勒福赞奖-全球快播
226元大额券:361板鞋运动鞋休闲鞋74元抄底|全球百事通
离大谱!男子偷马路卖钱:把路分成小块去卖 天天时讯
3岁女童患罕见病 肚大如石鼓随时会“爆炸”:医生科普 续命针1次上万-环球快播
当前滚动:【后端面经-java】java线程池满的处理策略
Rust语言 - 接口设计的建议之受约束(Constrained)_天天最资讯
java~理解可重入锁 焦点速读
硬件博主自费实测5大旗舰手机信号:iPhone各种被狂虐
焦点热文:载亿万富翁观光潜艇失联 被曝用游戏手柄操控 专家:生还希望渺茫
电动汽车也能无线充电了:像手机一样简单 超大充电板长这模样
全球热议:微软停止涨薪影响明显:员工跳槽意愿上涨23%
11499元 三星首款5K专业显示器上架:配可拆卸4K摄像头
环球今日讯!java~字节码操作ASM
班主任和家长扮恐龙接中考生 现场让网友看笑:可爱的显眼包 全球信息
史上最深深海救援!观光潜艇失联:搜救无进展 氧气剩不多、或卡残骸中|全球讯息
公募基金派发约八百亿元“红包雨” 债基占比超八成
俄妹COS《塞尔达》公主火了 性感美艳:欧美曾呼吁塞尔达公主应黑人|时快讯
环球热文:破75%了!理想汽车家用交流充电桩安装率遥遥领先
比亚迪赵长江:腾势N7领先两代 将成为家用和年轻人首选大五座标杆SUV
全球短讯!年轻人第一辆车!“小米汽车”非官方渲染图又来了:质感拉满 你会买吗
读发布!设计与部署稳定的分布式系统(第2版)笔记07_线程阻塞_每日速递
每日看点!从0开始,手写MySQL事务
MySQL事务基础知识 世界快资讯
世界即时:AMD Zen4c 128核心偷跑:只要4万元 不到官价一半
游客新疆旅游拍下雪崩全过程:壮观至极 众人尖叫_世界热文
【环球新视野】孟晚舟亲自站台!华为新杀手锏能否打破国际垄断?
耶鲁大学华裔学生驾车身亡:父母获赔2.5亿元_世界通讯
全球快看点丨观光泰坦尼克号潜艇失联:将是史上最深深海救援 将近4000米
手机可拆卸电池即将回归 利大于弊?
霍启刚患上睡眠窒息症:会被自己打鼾声惊醒 医生称严重会猝死-全球快看
今日报丨北京市下周一通过柜台市场发行20亿元3年期地方债券
每日热闻!5人宿舍热3年用掉水费5275元 高校回应:还算正常 个人习惯不同
世界快讯:618全网销售总额增速降至近3年最低:总销售额7987亿元创新高
ARP与dns缓存攻击 --中间人攻击
文心一言 VS 讯飞星火 VS chatgpt (43)-- 算法导论5.4 7题
用Python写了一个「拥抱梅西」的小游戏
天天时讯:证监会:券商应规范开立综合账户 加强异常交易监测
女子称网购八喜冰淇淋发现少10g:客服赔付了500元
腾讯视频VIP年卡+京东PLUS年卡 双会员仅138元
17万买纯电7座 2024款AION V Plus上市:更有AI的家庭SUV 每日资讯
环球速看:百公里油耗仅需6.1L !全新问界m5曝光:或售价25万起
期望误差和经验误差的关系——期望误差上界
【焦点热闻】使用python对AWS-CloudTrail-Json-日志文件key字段名称的提取
天天日报丨决战暑期档!国产航空大片《长空之王》密钥再次延期:王一博主演
超越姚明!16岁女篮小将身高已达2米27 山东女篮主力 单场曾砍62分
国产显卡第一次!摩尔线程发布DX11社区版驱动 能玩5款游戏_世界聚焦
全球观焦点:价格跌倒iPhone吃饱!被群嘲的苹果竟成为618销冠
不再依赖进口锂矿 两款钠离子电池电动车来了:成本便宜30%
天天快消息!记录--前端实现文件预览(pdf、excel、word、图片)
InnoDB 内存结构之更改缓冲区 环球新消息
Springboot web,三层架构, IOC&DI 使用总结2023 关注
快讯 | ShowMeBug入选人力资源智享会《TPG红宝书》 观热点
精彩看点:中消协出手:反对扫码强制关注公众号 全国范围可举报
学生自掏30万拍作品:因获三等奖嫌低拒绝领奖_热文
号称性能最强轻薄掌机:AYANEO预热新AMD 7840U处理器掌机_天天即时看
210元大额券:礼盒装红蜻蜓男士真皮自动皮带49元大促_环球新资讯
还买啥RTX 3060 英特尔A770 16GB显卡1779元
热推荐:史上最全Hadoop面试题:尼恩大数据面试宝典专题1
kafka的学习之一_带SASL鉴权的集群安装与启动
全球今日讯!债市日报:6月20日
科学家警告:用AI生成内容训练AI 几代内将产生“垃圾”
《暗黑破坏神4》官方晒自定义RTX4080显卡 莉莉丝雕塑逼真吗?
微头条丨毕业典礼上学生帽穗丢了:老师无实物拨穗
环球热门:高考后考生特种兵式出游有多拼?准大学生凌晨2点坐飞机五天游五城
采用模块化可拆卸设计:Fairphone 5手机承诺提供5年保修
Python工具箱系列(三十六) 全球资讯
华为云GaussDB为MetaERP“成本核算”产品“保驾护航” 天天观热点
【经验贴】多项目并行,如何解决资源管理这个难点? 热闻
这里的工业为何跑出“加速度”?——福建宁德工业企业一线观察|每日焦点
世界观焦点:被曝脏乱粽子厂曾中标学校配餐项目 卫生脏乱粽子厂抽检曾发现问题
环球今日讯!高考生们看过来!“2023年高考网上咨询周”时间安排公布
当前视点!高速停车致三车追尾自己却溜了 驾驶员称跟自己没关系 被判全责
无毒无污染、更完美!长征六号火箭第11次成功发射|焦点速读
今日热文:手机为何不再使用可拆卸电池?原因揭开
天涯社区苦等“救命钱”!重启天涯宣布再开直播:筹款还是300万|快消息
LPR利率下调10个基点,如何影响你的房贷利率? 播报
世界速讯:以梦为码 自主创新 | 华为云开发者日成都站圆满举行!
ElasticSearch安装与使用-每日视点
天天信息:全国铁路7月1日起实行新的列车运行图 客、货列车分别增加46列和394列
每日消息!中方在世贸组织提交贸易与环境政策相关提案
家居巨头宜家引入AI:下一代沙发将由人工智能设计
华硕Zenfone 10外观首曝:二代骁龙8小屏旗舰
地表最强RTX 4090!索泰RTX 4090 PGF显卡图赏 世界简讯
广州新规:快递入柜需收件人同意 虚假签收最高可罚三万!
天天信息:长虹发布全球首款多模态交互电视:不管说什么都能听懂
天天速读:南方强降雨频繁有致灾风险 北方高温明起再登场
微动态丨标准IO使用复习
视讯!ABAQUS 模拟过盈配合解决材料选择及公差带设计等问题
全球观察:maven 使用总结2023
人民银行合肥中心支行联合交易商协会举办债务融资工具业务培训|环球滚动
货币宽松抬升经济复苏放缓预期 日债收益率曲线延续趋陡-快讯
每日热闻!英亿万富翁探索泰坦尼克号残骸 现已失联超24小时!
售价超20万元 AMD最贵显卡MI300X诞生:192GB显存史无前例
今日聚焦!雷军武汉大学演讲:36年前教授这句话打通我任督二脉
一天两瓶喝不够:认养一头牛酸/纯奶30盒79.9元抄底(50元立减券)_今日热文
原装进口!雀巢黑咖啡官旗大促:券后每杯仅需0.6元|天天热点
最新快讯!新干县气象台发布雷电黄色预警信号【III级/较重】【2023-06-20】
Apache Superset 身份认证绕过漏洞(CVE-2023-27524)