最新要闻
- 灵感来自中国:俄罗斯电视台首次推出AI女主播
- 全球关注:“大嫂”高叶代言!《原始征途》手游公测:史玉柱亲自研发
- 每日快看:碳酸锂价格暴跌一半!特斯拉还会再降价?
- 环球要闻:支付宝首页能直接刷短视频了 新增“看一看”入口
- 票房全球第三 《阿凡达2》4K高清资源偷跑:容量13GB
- 2023江苏连云港市考试录用公安机关特殊专技职位公务员(人民警察)入围技能测试人选公告
- 世界微头条丨高铁餐食又上新了:星级酒店烹饪 30分钟极速送达 还是热的
- 世界观天下!半价大促:五芳斋豆沙青团6枚9.9元到手 清甜绵软
- 快消息!特斯拉Model 3标准续航版或失7500美元税收优惠:只因用了中国电池
- 全球观天下!本田大法还香吗?全新紧凑型SUV车型HR-V量产下线:或16万起售
- 当前短讯!索赔近2万维修费!老人故意推倒摩托车案今日开庭:车主起诉继承人
- 浙江铁塔为结对帮扶村送医送药暖民心
- 世界今头条!ChatGPT王炸更新!能联网获取新知识、可与5000+个应用交互:太疯狂了
- 国产科幻FPS大作来了!《边境》官宣4月14日正式发售
- 全球热资讯!深圳一兰博基尼车头被教练车撞瘪 驾校:车上有一学员
- 国光电器:计划年内推出搭载类GPT硬件产品
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
全球视点!保姆级教程!玩转 ChunJun 详细指南
ChunJun 是一款稳定、易用、高效、批流一体的数据集成框架,⽀持海量数据的同步与计算。ChunJun 既可以采集静态的数据,比如 MySQL,HDFS 等,也可以采集实时变化的数据,比如 binlog,Kafka 等。同时 ChunJun 也是一个支持原生 FlinkSQL 所有语法和特性的计算框架。
【资料图】
经过5年的迭代和开发,ChunJun 已经帮助很多公司快速进行数据整合,并解决数据开发人员需要过多进行繁琐的数据抽取工作的问题,可以专注在企业业务场景的构建。
之前的内容当中,我们已经介绍过 ChunJun 的技术力、优势,及如何提交 pr、Issue 的方法。作为「chunJun 新手入门」系列的第三篇,本文将为大家介绍如何配置一个 ChunJun 任务以及通过 ChunJun Client 端提交任务的流程等内容,教会大家更好地玩转 ChunJun。
ChunJun 新手入门
• Hi,我是ChunJun,一个有趣好用的开源项目
• Ding!您有一份ChunJun实用指南,请查收
ChunJun 地址
官网:
https://dtstack.github.io/chunjun/
GitHub:
https://github.com/DTStack/chunjun
Gitee:
https://gitee.com/dtstack_dev_0/chunjun
配置一个 ChunJun 任务
ChunJun 的任务脚本⽀持两种模式:Sync(Json) 和 SQL,前者配置更加丰富,底层使⽤的是 StreamAPI,在同步场景使⽤的较多;后者借助 Flink SQL 本身的能⼒,利⽤ SQL 实现对数据的聚合等计算操作,底层使⽤的是 TableAPI。
Sync
同步任务使⽤的 Json 格式的配置⽂件,通过配置 Source/Sink 来完成数据的 EL 流程。⼀个同步任务的基本结构如下:
{"job": {"content": [{"nameMapping": {},"reader": {"parameter": {},"name": "reader"},"writer": {"parameter": {},"name": "writer"},"restoration": {"cache": {"properties": {}},"workerMax": 3,"workerSize": 3,"workerNum": 2,"ddl": {"properties": {}}}}],"setting": {"restore": {},
● Job 整个任务的参数配置
1)同步任务的算⼦配置,如 Reader/Writer/Restoration 等。
• nameMapping:表名映射配置,⽤在 CDC 场景
• reader:同步任务 reader 的配置
• writer:同步任务writer的配置
• restoration:数据还原相关配置
2)setting 系统的⼀些参数配置,如增量同步(restore)、流控(speed)等。
SQL
ChunJun 的 SQL 任务直接沿⽤了 FlinkSQL 的引擎。详细⽂档请看:
https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/dev/table/overview/
● DDL
CREATE TABLE xx(xxx) WITH(xxx); CREATE VIEW xxx
● DML
INSERT INTO xxx;
获取 ChunJun
前置准备
· Java(JDK8);
· Maven(3.6.3,版本太低会找不到对应的 jar,另外,⾼版本的 Maven 对仓库地址强制要求是 HTTPS,会存在仓库地址访问失败的情况)
ChunJun 下载
● release 下载
ChunJun release 下载地址:
https://github.com/DTStack/chunjun/releases
● 源码编译
源码下载:
https://github.com/DTStack/chunjun.git
ChunJun 是通过 Maven 来进⾏代码依赖管理,对应的打包命令是:
mvn clean package -Dmaven.test.skip
ChunJun 使⽤的是 spotless 插件来进⾏代码⻛格管理,在修改源码之后打包,需要对源码先执⾏下 mvn spotless:apply 命令来进⾏代码格式化,否则会出现格式化不合规问题。
● 目录结构
chunjun-dist├── chunjun-core.jar├── connector├── ddl├── dirty-data-collector├── docker-build├── metrics└── restore-plugins
通过 ChunJun Client 端提交任务
通过 LocalTest、Standalone、Yarn Session、Yarn Perjob 四种模式为大家介绍如何通过ChunJun Client 端提交任务。
LocalTest 模式(适⽤于本地调试)
Local Test 模式是针对开发者同学⽤来进行本地测试验证的模块,只需要修改 main() 中的 jobPath 路径即可,需要注意,同步任务的脚本请以 json ⽂件结尾,计算任务的脚本请以 sql ⽂件结尾。
Standalone 模式
● 环境准备
下载 Flink 并解压
wget "http://archive.apache.org/dist/flink/flink-/flink--bin-scala_.tgz" tar -zxvf flink--bin-scala_.tgz
● 配置 ChunJun
1)下载 ChunJun 并解压
wget "https://github.com/DTStack/chunjun/releases/download//chunjun-dist.tar.gz" tar -zxvf chunjun-dist.tar.gz
2)将 ChunJun-Dist 内容复制到 Flink Lib ⽬录下并启动 Flink Standalone 集群
# copy the chunjun-dist to the flink_libcp -r chunjun-dist $FLINK_HOME/lib# start flink standalone clustersh $FLINK_HOME/bin/start-cluster.sh
3)在 Flink classpath 中可以看到 ChunJun 相关 jar,表示启动成功;
● 提交任务
sh $CHUNJUN_DIST/bin/chunjun-standalone.sh
命令执⾏成功之后,即可在 Flink WEB UI 中看到对应的任务。
Yarn Session 模式
● 环境准备
1)下载 ChunJun 并解压
wget "https://github.com/DTStack/chunjun/releases/download//chunjun-dist.tar.gz" tar -zxvf chunjun-dist.tar.gz
2)下载 ChunJun 并提交到 Yarn Session 集群中
sh $FLINK_HOME/bin?yarn-session.sh -t $CHUNJUN_DIST -d
· 执⾏命令成功之后,即可在Yarn Session ⽇志,对应Classpath 部分中看到 ChunJun 相关的jar, 表示启动成功;
· 记录当前 Yarn Session 的,并将任务提交到指定 Session中;
sh ./bin/chunjun-yarn-session.sh -job -confProp {\"yarn.application.id\":\"\"}
之后就可以在 Yarn Session 中看到对应的任务,注意以下两点:
• 如果将 yarn.application.id 配置到 flink-conf.yaml,那么使⽤这份配置⽂件的任务都会提交到这个 id 的 session 中;
• 如果将 yarn.application.id 配置到 confProp,那么仅有当前任务会提交到这个 id 的 session 中。
Yarn Perjob 模式
后续会废弃这种模式,改⽤ Application 模式。
● 环境准备
下载 Flink 并解压
wget "http://archive.apache.org/dist/flink/flink-/flink--bin-scala_.tgz" tar -zxvf flink--bin-scala_.tgz
● 配置 ChunJun
下载 ChunJun 并解压
wget "https://github.com/DTStack/chunjun/releases/download//chunjun-dist.tar.gz" tar -zxvf chunjun-dist.tar.gz
● 提交任务
sh ./bin/chunjun-yarn-perjob.sh -job
执⾏成功之后,可以在 Yarn Web UI 中看到相关任务。
调试 ChunJun 代码
调试代码能够更好地定位问题,并解决问题。下⾯将为开发者介绍如何快速调试 ChunJun 代码:
本地调试
ChunJun 为开发者准备了⼀个 local-test 模块,替换 main ⽅法中的 jobPath 即可。需要提前将相关插件配置在 local-test 模块的 pom 中,部分插件相互存在依赖冲突,需要开发者关注下。
远程调试
在 flink-conf.yaml 中配置 debug 端⼝即可(端⼝号可以⾃⼰定义)。
# debug jobmanagerenv.java.opts.jobmanager: -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005# debug taskmanagerenv.java.opts.taskmanager: -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5006
《数据治理行业实践白皮书》下载地址:https://fs80.cn/380a4b
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack
关键词:
环球快资讯:SaaS 营销,如何利用 RPA 实现自动化获客?
全球视点!保姆级教程!玩转 ChunJun 详细指南
python入门语法
灵感来自中国:俄罗斯电视台首次推出AI女主播
全球关注:“大嫂”高叶代言!《原始征途》手游公测:史玉柱亲自研发
每日快看:碳酸锂价格暴跌一半!特斯拉还会再降价?
环球要闻:支付宝首页能直接刷短视频了 新增“看一看”入口
票房全球第三 《阿凡达2》4K高清资源偷跑:容量13GB
2023江苏连云港市考试录用公安机关特殊专技职位公务员(人民警察)入围技能测试人选公告
热头条丨Lunabot让你在任何网站都能使用ChatGPT(亲测有效!!!)
世界微头条丨高铁餐食又上新了:星级酒店烹饪 30分钟极速送达 还是热的
世界观天下!半价大促:五芳斋豆沙青团6枚9.9元到手 清甜绵软
快消息!特斯拉Model 3标准续航版或失7500美元税收优惠:只因用了中国电池
全球观天下!本田大法还香吗?全新紧凑型SUV车型HR-V量产下线:或16万起售
当前短讯!索赔近2万维修费!老人故意推倒摩托车案今日开庭:车主起诉继承人
浙江铁塔为结对帮扶村送医送药暖民心
数据库系统原理之数据库设计
世界时讯:安全高效 | AIRIOT智慧工地管理解决方案
世界今头条!ChatGPT王炸更新!能联网获取新知识、可与5000+个应用交互:太疯狂了
国产科幻FPS大作来了!《边境》官宣4月14日正式发售
全球热资讯!深圳一兰博基尼车头被教练车撞瘪 驾校:车上有一学员
国光电器:计划年内推出搭载类GPT硬件产品
【报资讯】读C#代码整洁之道笔记05_使用工具改善代码和单元测试
SaaS 营销怎么做?几点思考
Bitmap、RoaringBitmap原理分析
焦点快播:【金融街发布】人民银行上海总部:2月长三角地区人民币贷款增加6039亿元
大V实测百度AI画图:输入“刘慈欣” 打死也想不出画的是啥
每日时讯!海底捞回应孕妇可以插队:目前仅黑海会员有排队优先权益
当前滚动:中国移动:2023年营收将突破1万亿 利润或有史以来最高
当前观点:【新华财经调查】大全能源“逆势”扩产近两倍 坦陈今年终端需求不确定性较大
全球实时:德媒:纳格尔斯曼昨天还在与女友一起度假,今天就面临下课
ChatGPT又一个重磅功能插件系统上线 胡说八道的毛病治好了
焦点短讯!电影《铃芽之旅》预售票房破亿:3月24日上映
不速之约电视剧剧情
当前要闻:读Java性能权威指南(第2版)笔记26_性能测试方法下
前沿资讯!美国智库:25%美成年人吃不饱饭 很多人应急储蓄不足500美元
快播:crackme002-abexcm5
理想MPV预告图泄露 李想微博回应 还有5款纯电车型
微星发布第二款不用风扇的PCIe 5.0 SSD:又是尴尬的残血
贾跃亭真成了 法拉第未来宣布:FF 91将于3月30日开始生产
《CS》终于迎来一波超级大更新:有倒爷一晚上赚了几十万!
【天天聚看点】又吵上了热搜:网友称海底捞水果仅限打包一份
今年又有多少让人扶额的青团?
世界最资讯丨商务部:美方应尽早取消对华加征的301关税
每日时讯!5 Why 分析法,一种用于归纳抽象出解决方案的好方法
环球视点!day11-2-内置Tomcat的配置和切换
微服务实用篇--学习笔记
全球今日报丨C++ 标准库 sort() / stable_sort() / partial_sort() 对比
天天快讯:Docker 开始清退开源组织,不付费就删除所有私镜像怎么看
《暗黑破坏神4》B测神优化!N多RTX 3080 Ti惨遭黑屏变砖 暴雪:概不负责
天天新消息丨737 Max客机空难致346人丧生 波音最新表态:速度过快 乘客毫无痛苦地死去
海外爆发迄今最严峻禽流感疫情:专家详解
世界热点评!AMD终于能享受192GB内存了!连跑2小时0错误
当前热文:72.标准库类型vector
React的生命周期
关于使用AWS的CDN-CloudFront的费用计算及说明
全球即时:【财经分析】美联储连续第九次加息 抗通胀仍是主旋律
特斯拉一“咳嗽”:国内汽车行业加速洗牌了
《艾尔登法环》更新上线 终于加入了光追功能
如何知道自己怀的是男孩女孩?(如何知道自己怀的是男孩女孩)
全球最新:Styled Components 备忘清单_开发速查表分享
观热点:《艾尔登法环》光追配置需求公布:最低需RTX 3060 Ti
世界热门:48岁林志玲晒素颜近照:网友点赞笑容甜美状态好
天天日报丨DLL注入-Windows消息钩取
动态焦点:网络安全(中职组)-B模块:Web渗透测试
微信小程序原生AI运动(动作)检测识别解决方案
每日热闻!美联储表态已现温和迹象 市场仍存下半年降息“奢望”
天天最资讯丨中国人民大学苏州校区专业有哪些专业_中国人民大学苏州校区怎么样
焦点热讯:净利润翻倍超18亿元 爱玛电动车业绩大增送出股权激励
天天热点!1799元一台顶三台!小米米家无线洗地机2 Lite预售:吸拖洗都行
每日快看:蔚来CFO评价中国车企价格战:中国车企太多了
【快播报】私拉线路充电致17辆电动自行车被烧毁:科普飞线充电危害
今日要闻!华硕ROG新款XG Mobile显卡坞上市:搭载RTX 4090移动版 售价超2万
Vue 核心(一)
从零开始搞一个androidApp,实现h5自动更新、jsbridge
快资讯:“星月童话”来了!月掩金星天象明晚亮相:错过要等3年
天天百事通!女生疑在奶茶中喝出10余颗玻璃珠:店家回应
视点!黄金定价模式生变背后:央行们正失去对货币环境的控制
泉水煮蛋怎么做
记录--你还在傻傻的npm run serve吗?快来尝尝这个!
CloudQuery 社区重启 | 愿归来仍是少年
ChatGPT为我们带来了什么?
.net core 关于对swagger的UI(Index.html)或接口的权限验证;
每日头条!oracle学习之路(5)Navicat连接Oracle数据库:Oracle library is not loaded 解决方案
世界快资讯丨美联储鸽派声明缓解日本央行政策压力 日债收益率多数下跌
瑞士央行加息50个基点至1.50% 不排除进一步加息可能
全球短讯!常用消毒剂无效 致命真菌在美国蔓延:近半感染者90天内死亡
《龙马精神》推广曲《真心英雄》MV出炉:成龙郭麒麟重唱经典
环球聚焦:二手路虎变法拉利!男子80万买到泡水路虎 车商被判退一赔三
天天播报:CSAPP-Bomb Lab
全球快资讯丨Python工具箱系列(二十九)
视焦点讯!让业务容器化更安全便捷,阿里云容器镜像服务 ACR 推出免费制品中心
环球热点评!云服务器部署AI绘图记录
全球热资讯!pdf.js 使用
今日要闻!尿道结石怎么治疗才能除病根_尿道结石该怎么治疗
虚幻引擎5推出重磅新功能MetaHuman Animator:实现真人面部动作高速模拟
焦点速看:开放世界元宇宙游戏《仙剑世界》来了:万物皆可交互
焦点短讯!中华老字号!西安饭庄糕点礼盒19.9元冲量大促:一次买16枚
两女子高速上突然跳车:闻到汽油味、以为要爆炸
环球实时:阿里又开源一款数据同步工具 DataX,稳定又高效,好用到爆!