最新要闻
- 最新快讯!腾讯游戏AI能帮医生看片了:超大尺寸扫描病理图像诊断成功验证
- 【天天报资讯】号称可以火星上穿的衣服全网首开:胸前一个大洞 自带呕吐袋
- 环球讯息:管好右手 摩托车弯道狂飙超车撞上护栏:骑手生死未卜
- 【全球聚看点】2022第三季度耳机手环出货量都跌了!因为苹果 手表逆势增长
- 国产龙鳞甲电池2023年装车量产:续航可达1000公里 安全没问题
- NVIDIA CES新品发布会官宣:RTX 4070 Ti、RTX 40笔记本显卡要来了
- 当前关注:美国侧目:俄罗斯生产首颗百分百国产通信卫星
- 观点:226MB你用吗?微信键盘正式版上线 张小龙:更好保护用户隐私
- 快报:新的全球制造中心越南、印度正崛起:想取代我们为时尚早
- 环球微资讯!30万级美系大SUV 福特探险者混动版曝光:电池来自比亚迪
- 半夜是指什么时间?半夜是指什么生肖?
- 三浴是什么意思?三浴锻炼是指哪三浴?
- 45号钢抗拉强度极限是多少?45号钢抗拉强度极限一览
- 教材是什么意思?教材的作用有哪些?
- 受权人是什么意思?被授权人与受权人的区别是什么?
- 春风十里不如你结局是什么?春风十里不如你演员表
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
天天观点:大数据 - DWD&DIM 业务数据
业务数据的变化,我们可以通过 FlinkCDC 采集到,但是 FlinkCDC 是把全部数据统一写入一个 Topic 中, 这些数据包括事实数据,也包含维度数据,这样显然不利于日后的数据处理,所以这个功能是从 Kafka 的业务数据 ODS 层读取数据,经过处理后,将维度数据保存到 HBase,将事实数据写回 Kafka 作为业务数据的 DWD 层
实现动态分流功能
由于 FlinkCDC 是把全部数据统一写入一个 Topic 中, 这样显然不利于日后的数据处理。所以需要把各个表拆开处理。但是由于每个表有不同的特点,有些表是维度表,有些表是事实表。
在实时计算中一般把维度数据写入存储容器,一般是方便通过主键查询的数据库比如HBase,Redis,MySQL 等。一般把事实数据写入流中,进行进一步处理,最终形成宽表。
(资料图片仅供参考)
维度数据不放 Redis 的原因:User 用户维度数据量很大,其它维度还行。为什么不放 MySQL: 并发压力大
这样的配置不适合写在配置文件中,因为这样的话,业务端随着需求变化每增加一张表,就要修改配置重启计算程序。所以这里需要一种动态配置方案,把这种配置长期保存起来,一旦配置有变化,实时计算可以自动感知。
这种可以有两个方案实现
一种是用 Zookeeper 存储,通过 Watch 感知数据变化;
另一种是用 mysql 数据库存储,周期性的同步;(有配置表,指定哪些表的数据发给哪些主题)
另一种是用 mysql 数据库存储,使用广播流。这里选择第二种方案,主要是 MySQL 对于配置数据初始化和维护管理,使用 FlinkCDC 读取配置信息表,将配置流作为广播流与主流进行连接。
获取执行环境
消费Kafka ods_base_db 主题数据创建流
将每行数据转换为JSON对象并过滤(delete) 主流
使用FlinkCDC消费配置表并处理成 广播流
连接主流和广播流
分流 处理数据 广播流数据,主流数据(根据广播流数据进行处理)
提取Kafka流数据和HBase流数据
将Kafka数据写入Kafka主题,将HBase数据写入Phoenix表
启动任务
table_process
table_process | 主健:sourceTable + type |
---|---|
sourceTable | 根据表名分流 |
type | 用来区分新增、变更的数据,不同类型的数据放到不同主题表不 |
sinkType | 放Kafka还是其它地方 |
sinkTable | 如果是维度表,就是Phoenix表名,如果是 kafka 就是 主题 |
sinkColumns | 提供字段,为了自动建表 |
pk | Phoenix 建表必须有主健 |
extend | 指定要不要做分区表,等等 |
Demo
sourceTable | type | sinkType | sinkTable |
---|---|---|---|
base_trademark | insert | hbase | dim_xxx(Phoenix 表名) |
order_info | insert | kafka | dwd_xxx(主题名) |
CREATE TABLE `table_process` (`source_table` varchar(200) NOT NULL COMMENT "来源表",`operate_type` varchar(200) NOT NULL COMMENT "操作类型 insert,update,delete",`sink_type` varchar(200) DEFAULT NULL COMMENT "输出类型 hbase kafka",`sink_table` varchar(200) DEFAULT NULL COMMENT "输出表(主题)",`sink_columns` varchar(2000) DEFAULT NULL COMMENT "输出字段",`sink_pk` varchar(200) DEFAULT NULL COMMENT "主键字段",`sink_extend` varchar(200) DEFAULT NULL COMMENT "建表扩展",PRIMARY KEY (`source_table`,`operate_type`)) ENGINE=InnoDB DEFAULT CHARSET=utf8
1.读取状态2.过滤数据3.分流
ODS:
- 数据源:行为数据,业务数据
- 架构分析:FlinkCDC: DataStream/FlinkSOIFlinkCDC/Maxwell/Canal保持数据原貌,不做任何修改! ods_base_log,ods_base_db
DWD-DIM:
行为数据:DWD(Kafka)
1.过滤脏数据 --> 侧输出流 脏数据率2.新老用户校验 --> 前台校验不准3.分流 --> 侧输出流 页面、启动、曝光、动作、错误4.写入Kafka
业务数据:DWD (Kafka)-DIM(Phoenix)
1.过滤数据-->删除数据2.读取配置表创建广播流3.连接主流和广播流并处理1)广播流数据:
- 解析数据
- Phoenix 建表(HBase)
- 写入状态广播
2)主流数据
- 读取状态
- 过滤字段
- 分流(添加 SinkTable 字段)
4.提取Kafka和 HBase 流,分别对应的位置5.HBase流:自定义 Sink6.Kafka流:自定义序列化方式
-
环球热点!springboot通过Referer防止跨站点请求伪造
原文链接:https: blog csdn net qq_44154912 article details 127439461防止跨站点请求伪造验...
来源: 天天观点:大数据 - DWD&DIM 业务数据
环球热点!springboot通过Referer防止跨站点请求伪造
天天微动态丨Tarjan算法求割点
最新快讯!腾讯游戏AI能帮医生看片了:超大尺寸扫描病理图像诊断成功验证
【天天报资讯】号称可以火星上穿的衣服全网首开:胸前一个大洞 自带呕吐袋
环球讯息:管好右手 摩托车弯道狂飙超车撞上护栏:骑手生死未卜
【全球聚看点】2022第三季度耳机手环出货量都跌了!因为苹果 手表逆势增长
国产龙鳞甲电池2023年装车量产:续航可达1000公里 安全没问题
环球最新:零基础入门 Java 后端开发,有哪些值得看的视频?
NVIDIA CES新品发布会官宣:RTX 4070 Ti、RTX 40笔记本显卡要来了
当前关注:美国侧目:俄罗斯生产首颗百分百国产通信卫星
观点:226MB你用吗?微信键盘正式版上线 张小龙:更好保护用户隐私
快报:新的全球制造中心越南、印度正崛起:想取代我们为时尚早
环球微资讯!30万级美系大SUV 福特探险者混动版曝光:电池来自比亚迪
天天热资讯!SIT-board 远程交互式白板的实现
洛谷 P6580 [Ynoi 2019] 美好的每一天~ 不连续的存在 题解
热头条丨火山引擎 DataTester 科普:A/B 实验常见名词解释
世界报道:Shell 变量知多少?
全球今头条!在Windows Linux中 安装 anaconda
讯息:无线投屏(智慧教室)
天天看热讯:二分的边界问题
Controller 层代码就该这么写,简洁又优雅!
SAP根据excel表格数据将数据导入表中
全球快看:JS中的相等性判断
半夜是指什么时间?半夜是指什么生肖?
三浴是什么意思?三浴锻炼是指哪三浴?
45号钢抗拉强度极限是多少?45号钢抗拉强度极限一览
今日看点:Redis——01 学习
每日看点!基于 Dubbo Admin 临时踢除问题服务实例
教材是什么意思?教材的作用有哪些?
受权人是什么意思?被授权人与受权人的区别是什么?
春风十里不如你结局是什么?春风十里不如你演员表
什么是环保型材料?环保型材料有哪些?
美团外卖超时怎么赔付?美团外卖超时了骑手会扣钱吗?
市政协委员相当于什么官?市政协委员有什么用?
顺丰速运公众号怎么修改手机号?顺丰速运公众号运费支付在哪里?
每日资讯:【算法训练营day22】LeetCode235. 二叉搜索树的最近公共祖先 LeetCode701. 二叉搜索树中的插入操作 LeetCode450.
【全球新视野】教你用JavaScript实现表情评级
环球要闻:基于 Dubbo Admin 动态调整服务超时时间
每日报道:JNPF实操│来,一起体验一流程多表单到底有多便捷
环球看点!DOM 之 Node和Element的区别
用户认为4G够用?全国5G现状感受下:基站密度翻倍 后续你不得不升
天天实时:《阿凡达2》内地首周末报收3.96亿 表现不佳:预测票房缩水至10亿!
天天热点!加冕球王夺冠后 梅西宣布不会退出国家队:继续以世界杯冠军身份出战
当前视讯!是否辞去推特总裁?马斯克发公开投票:目前情况不妙
全球看热讯:你达标了吗?我国成年人均纸质书阅读4.76本 仅小学生的1/3
【环球时快讯】原生JS的节点操作 与 JQuey的节点操作 对比
天天信息:MyBatis实现增删改查
今晚执行!国内成品油价将迎三连跌:今年国内油价最后一调
小米13 Pro为何不用直屏?雷军解释原因
睡不好为何昏昏沉沉?大脑:怪我咯
圆梦卡塔尔球迷狂祝福!阿根廷夺世界杯冠军:梅西再拿金球奖、点球破门创纪录
苹果新一代显示器来了:屏幕升级为mini LED
直接用CPU主频判断性能 靠谱吗?
环球速看:你的MacBook Pro蝶式键盘可安好?苹果翻车了 赔偿了事
全球微速讯:Axios异步通信
今日热文:第一百一十五篇: JS集合引用类型Map
AMD Zen4锐龙三款新U终于敲定:价格已毫无优势!
快看:一个躁郁症的游戏:我想推荐给每一个玩家
今日报丨2.23亿度!三峡能源单日发电量创纪录
即时看!教你轻松用上ChatGPT
威海海边护栏冻满冰凌 仿佛一夜进入“冰河世纪”
分享几个网上比较好的开源项目
环球看点!什么是计算机网络
焦点要闻:服务器集群使用过程中遇到的一些问题
世界微速讯:前端炫酷特效合集
全球今日讯!不服不行!贾跃亭的账上:又有人往里打钱了
热讯:义乌商人在世界杯赚翻了:有企业订单激增200%!但接下来怎么办?
焦点!阿根廷法国谁捧起大力神杯?无论是梅西姆巴佩 都逃不了这一伤害!
Pycharm异常处理
【世界报资讯】Python中String模块
中国空间站第一次成功部署卫星!日本爱好者已收到信号
每日快讯!送外卖走上人生巅峰 饿了么发布“骑士成长体系”:骑手到总裁需7步
小岛秀夫追看国产机甲科幻大片《明日战记》:找灵感
【新视野】微软出品自动化神器【Playwright+Java】系列(八) 之 使用 Playwright进行API接口测试
当前速讯:初探富文本之编辑器引擎
微动态丨Codeforces Polynomial Round 2022 (Div.1 + Div.2) CF 1774 题解
阿根廷vs法国今晚开打:梅西即将独享世界杯出场纪录
【全球新要闻】《阿凡达2》坐骑仿生扑翼鸟开售:可遥控飞行 359元
卡梅隆透露《阿凡达3》已拍完 《阿凡达5》也写好了
当前讯息:Blazor和Vue对比学习(进阶.请求WebAPI):通讯协议和HTTP协议
环球播报:windows10 netsh wlan命令连接新wifi
重学c#系列——什么是性能[外篇性能篇一]
天天日报丨魅族未来产品规划曝光:3年打造“全家桶”、不止手机和汽车
天天快消息!路边轿车挡道 SUV司机故意撞开 网友:很爽但应先联系114
焦点热议:核心面试题:MVCC、间隙锁、Undo Log链、表级锁、行级锁、页级锁、共享锁、排它锁、记录锁等等
微信iOS版拍照“大升级”:终于支持微距拍摄
当前快看:支付宝新增“极速模式”:自动收起首页推荐 更清爽了
当前关注:连花清瘟可致肝损伤肝衰竭?药企回应:严重误导
腾讯:2022年游戏盗号量上涨300% DDoS攻击全行业最高
花费13亿、飞了540万公里:韩国探测器终于进入月球轨道
北航计算机网络实验复习——设计性实验汇总
天天观察:6GHz就这?!Intel i9-13900KS跑分勉强提升5%
微速讯:油管上最爆火的恐怖游戏:被托马斯小火车追杀
电池供电不插线:世界首款真无线电视将在CES亮相
快看:3D领域大神约翰·卡马克宣布彻底离开Meta:称其效率低到无法忍受
男子按导航开车到冰冻江面 一头栽入松花江
当前最新:概念、场景技术方案选择的理解
hive配置Tez引擎,并安装Tez-ui
天天要闻:超级好看的 Edge 浏览器新标签页插件:好用、好看、免费浏览器必备