最新要闻
- 女篮狂怒黎巴嫩!收视率全国第一,央视重提差距,球队状态成隐患 每日头条
- 看!博物馆里的慢直播|当前速递
- 特奥再次更新社交媒体动态致敬马尔蒂尼:祝你一切顺利,传奇_环球资讯
- 三星手机bixby什么意思_bixby什么意思
- 北京拟推荐23家“中华老字号”,惠丰堂、萃华楼等7家餐企在内|要闻速递
- 热点聚焦:福建省卫生健康委员会党组成员、副主任陈辉接受审查调查
- 极兔速递增聘瑞银、建银、招银为香港IPO上市整体协调人_全球热讯
- 昆明至漠河旅游专列开行
- Reddit被黑市勒索窃取80GB数据 官方回应
- 恰特草在中国属不属于毒品_恰特草是兴奋剂|焦点速讯
- 爱好者用HD-2D技术重制SFC经典《时空之轮》
- 端午假期铁路累计发送旅客7037.9万人次 较2019年同期增长11.3%
- 深圳宝安:福海莱福工业园综合整治提升改造工程正式启动
- 澧县县委组织部举行“组工之星”荣誉墙揭幕仪式暨评选表彰活动
- 布鲁盟设计|广州·粤海置地壹桂府:鎏金羽翼,让艺术翱于生活 焦点速看
- 【受权发布】北京26日发布雷电黄色预警
手机
出行、旅游、消费里看活力 端午假期各项数据亮眼
今日财经头条|坚定不移扩内需促消费 端午文旅消费市场亮点纷呈
- 出行、旅游、消费里看活力 端午假期各项数据亮眼
- 今日财经头条|坚定不移扩内需促消费 端午文旅消费市场亮点纷呈
- 海口市龙华区金宇街道办开展系列禁毒宣传活动
- 天天快资讯丨专项整治为亲友牟利,湖南已有26名厅级干部主动报告问题
- 紧急提醒!今起,角美这些路段施工,请绕行!|世界快讯
- 购房合同没写老婆名字能加上吗(夫妻可以一个人签购房合同吗) 每日速递
家电
全球信息:ByteHouse+Apache Airflow:高效简化数据管理流程
Apache Airflow 与 ByteHouse 相结合,为管理和执行数据流程提供了强大而高效的解决方案。本文突出了使用 Apache Airflow 与 ByteHouse 的主要优势和特点,展示如何简化数据工作流程并推动业务成功。
(相关资料图)
主要优势
可扩展可靠的数据流程:Apache Airflow 提供了一个强大的平台,用于设计和编排数据流程,让您轻松处理复杂的工作流程。搭配 ByteHouse,一款云原生的数据仓库解决方案,您可以高效地存储和处理大量数据,确保可扩展性和可靠性。
自动化工作流管理:Airflow 的直观界面通过可视化的 DAG(有向无环图)编辑器,使得创建和调度数据工作流程变得容易。通过与 ByteHouse 集成,您可以自动化提取、转换和加载(ETL)过程,减少手动工作量,实现更高效的数据管理。
简单的部署和管理:Apache Airflow 和 ByteHouse 均设计为简单的部署和管理。Airflow 可以部署在本地或云端,而 ByteHouse 提供完全托管的云原生数据仓库解决方案。这种组合使得数据基础设施的设置和维护变得无缝化。
客户场景
业务场景
在这个客户场景中,一家名为“数据洞察有限公司(假名)”的分析公司,他们将 Apache Airflow 作为数据管道编排工具。他们选择 ByteHouse 作为数据仓库解决方案,以利用其强大的分析和机器学习功能。
数据洞察有限公司在电子商务行业运营,并收集存储在 AWS S3 中的大量客户和交易数据。他们需要定期将这些数据加载到 ByteHouse,并执行各种分析任务,以获得对业务运营的洞察。
数据链路
使用 Apache Airflow,数据洞察有限公司设置了一个基于特定事件或时间表的数据加载管道。例如,他们可以配置 Airflow 在每天的特定时间触发数据加载过程,或者当新的数据文件添加到指定的 AWS S3 存储桶时触发。当触发事件发生时,Airflow 通过从 AWS S3 中检索相关数据文件来启动数据加载过程。它使用适当的凭据和 API 集成确保与 S3 存储桶的安全身份验证和连接。一旦数据从 AWS S3 中获取,Airflow 会协调数据的转换和加载到 ByteHouse 中。它利用 ByteHouse 的集成能力,根据预定义的模式和数据模型高效地存储和组织数据。
成功将数据加载到 ByteHouse 后,数据洞察有限公司可以利用 ByteHouse 的功能进行分析和机器学习任务。他们可以使用 ByteHouse 的类 SQL 语言查询数据,进行复杂的分析,生成报告,并揭示有关客户、销售趋势和产品性能的有意义洞察。
此外,数据洞察有限公司还利用 ByteHouse 的功能创建交互式仪表板和可视化。他们可以构建动态仪表板,显示实时指标,监控关键绩效指标,并与组织中的利益相关者共享可操作的洞察。
最后,数据洞察有限公司利用 ByteHouse 的机器学习功能来开发预测模型、推荐系统或客户细分算法。ByteHouse 提供了必要的计算能力和存储基础设施,用于训练和部署机器学习模型,使数据洞察有限公司能够获得有价值的预测性和规定性洞察。
总结
通过使用 Apache Airflow 作为数据管道编排工具,并将其与 ByteHouse 集成,数据洞察有限公司实现了从 AWS S3 加载数据到 ByteHouse 的流畅自动化流程。他们充分利用 ByteHouse 的强大分析、机器学习和仪表板功能,获得有价值的洞察,并推动组织内的数据驱动。
ByteHouse<>AirFlow 快速入门
先决条件
在您的虚拟/本地环境中安装 pip。在您的虚拟/本地环境中安装 ByteHouse CLI 并登录到 ByteHouse 账户。参考 ByteHouse CLI 以获取安装帮助。macOS 上使用 Homebrew 的示例brew install bytehouse-cli
安装 Apache Airflow
在本教程中,我们使用 pip 在您的本地或虚拟环境中安装 Apache Airflow。了解更多信息,请参阅官方 Airflow 文档。
# airflow需要一个目录,~/airflow是默认目录,# 但如果您喜欢,可以选择其他位置#(可选)export AIRFLOW_HOME=~/airflowAIRFLOW_VERSION=2.1.3PYTHON_VERSION="$(python --version | cut -d " " -f 2 | cut -d "." -f 1-2)"# 例如:3.6CONSTRAINT_URL="https://raw.githubusercontent.com/apache/airflow/constraints-${AIRFLOW_VERSION}/constraints-${PYTHON_VERSION}.txt"pip install "apache-airflow==${AIRFLOW_VERSION}" --constraint "${CONSTRAINT_URL}"
如果使用 pip 无法安装,请尝试使用 pip3 install 进行安装。安装完成后,运行命令 airflow info 以获取有关 Airflow 的更多信息。
Airflow 初始化
通过执行以下命令来初始化 Airflow 的 Web 服务器
# 初始化数据库airflow db initairflow users create \--username admin \--firstname admin \--lastname admin \--role Admin \--email admin# 启动Web服务器,默认端口是8080# 或修改airflow.cfg设置web_server_portairflow webserver --port 8080
设置好 Web 服务器后,您可以访问 http://localhost:8080/使用先前设置的用户名和密码登录 Airflow 控制台。
在新的终端中,使用以下命令设置 Airflow 调度器。然后,刷新 http://localhost:8080/。
YAML 配置
使用 cd ~/airflow 命令进入 Airflow 文件夹。打开名为 airflow.cfg 的配置文件。添加配置并连接到数据库。默认情况下,您可以使用 SQLite,但也可以连接到 MySQL。
# 默认情况下是SQLite,也可以连接到MySQLsql_alchemy_conn = mysql+pymysql://airflow:airflow@xxx.xx.xx.xx:8080/airflow# authenticate = False# 禁用Alchemy连接池以防止设置Airflow调度器时出现故障 https://github.com/apache/airflow/issues/10055sql_alchemy_pool_enabled = False# 存放Airflow流水线的文件夹,通常是代码库中的子文件夹。该路径必须是绝对路径。dags_folder = /home/admin/airflow/dags
创建有向无环图(DAG)作业
在 Airflow 路径下创建一个名为 dags 的文件夹,然后创建 test_bytehouse.py 以启动一个新的 DAG 作业。
~/airflowmkdir dagscd dagsnano test_bytehouse.py
在 test_bytehouse.py 中添加以下代码。该作业可以连接到 ByteHouse CLI,并使用 BashOperator 运行任务、查询或将数据加载到 ByteHouse 中。
from datetime import timedeltafrom textwrap import dedentfrom airflow import DAGfrom airflow.operators.bash import BashOperatorfrom airflow.utils.dates import days_agodefault_args = { "owner": "airflow", "depends_on_past": False, "email": ["airflow@example.com"], "email_on_failure": False, "email_on_retry": False, "retries": 1, "retry_delay": timedelta(minutes=5),}with DAG( "test_bytehouse", default_args=default_args, description="A simple tutorial DAG", schedule_interval=timedelta(days=1), start_date=days_ago(1), tags=["example"],) as dag: tImport = BashOperator( task_id="ch_import", depends_on_past=False, bash_command="$Bytehouse_HOME/bytehouse-cli -cf /root/bytehouse-cli/conf.toml "INSERT INTO korver.cell_towers_1 FORMAT csv INFILE \"/opt/bytehousecli/data.csv\" "", ) tSelect = BashOperator( task_id="ch_select", depends_on_past=False, bash_command="$Bytehouse_HOME/bytehouse-cli -cf /root/bytehouse-cli/conf.toml -q "select * from korver.cell_towers_1 limit 10 into outfile \"/opt/bytehousecli/dataout.csv\" format csv "" ) tSelect >> tImport
在当前文件路径下运行 python test_bytehouse.py 以在 Airflow 中创建 DAG。在浏览器中刷新网页。您可以在 DAG 列表中看到新创建的名为 test_bytehouse 的 DAG。
执行 DAG
在终端中运行以下 Airflow 命令来查看 DAG 列表和 test_bytehouse DAG 中的子任务。您可以分别测试查询执行和数据导入任务。
#打印"test_bytehouse" DAG中的任务列表[root@VM-64-47-centos dags]# airflow tasks list test_bytehousech_importch_select#打印"test_bytehouse" DAG中任务的层次结构[root@VM-64-47-centos dags]# airflow tasks list test_bytehouse --tree
运行完 DAG 后,查看您的 ByteHouse 账户中的查询历史页面和数据库模块。您应该能够看到查询/加载数据成功执行的结果。
关键词:
全球信息:ByteHouse+Apache Airflow:高效简化数据管理流程
世界滚动:打造全新悦己体验,阿维塔“有”设计生活节来了!
石景山区举办“6·26国际禁毒日”宣传活动
红薯是怎么长出来的?这群娃娃们用笔画出来_世界聚焦
应聘软件测试,差点栽在了...这5道S级的测试用例设计题上... ...
How to understand matrix(Primary)
外卖小哥骑车摔倒被雨棚刺脖身亡:擅自加装极其危险 北京已禁止|每日精选
环球最资讯丨文心一言 VS 讯飞星火 VS chatgpt (48)-- 算法导论6.1 6题
匡超人思维导图(匡超人) 热议
林致远 林致远的小说叫什么名字
环球看热讯:复仇者联盟3无限战争国语_复仇者联盟3无限战争
澳门国际银行拟发行10NC5美元次级资本债券,今日起召开投资者电话会议
AI换脸诈骗怎么罚?全国人大法制工作委员会发言人在这场记者会上给出明确答复_世界观焦点
女篮狂怒黎巴嫩!收视率全国第一,央视重提差距,球队状态成隐患 每日头条
看!博物馆里的慢直播|当前速递
塔罗占卜他目前的想法和感觉_塔罗占卜他目前的想法
如何给qq空间设置密码_qq空间怎么设置密码_每日速讯
上面三个火下面一个木怎么读_上面三个火下面一个木
幕府2全面战争武士之殇_幕府2全面战争win10
晅在名字怎么读出来(晅) 当前热议
特奥再次更新社交媒体动态致敬马尔蒂尼:祝你一切顺利,传奇_环球资讯
三星手机bixby什么意思_bixby什么意思
快播:美白面膜几天敷一次最好_美白面膜的做法
出行、旅游、消费里看活力 端午假期各项数据亮眼
天天快报!嫌疑人x的献身 苏有朋(关于嫌疑人x的献身 苏有朋的基本详情介绍)
北京拟推荐23家“中华老字号”,惠丰堂、萃华楼等7家餐企在内|要闻速递
驻美国使馆发言人就美方以涉芬太尼问题逮捕和起诉中国公民和企业答记者问_每日热议
衡水老白干1915酒52度多少钱一瓶_衡水老白干1915_要闻速递
3000余人被问责!第二轮中央生态环保督察紧盯哪些问题?
广州:抓紧抓实抓好安全生产工作,坚决防范重特大事故发生 世界今亮点
热点聚焦:福建省卫生健康委员会党组成员、副主任陈辉接受审查调查
强降雨+大风+冰雹!北京门头沟发布双预警
环球焦点!明知寄的是毒品,收了好处费,对不起你犯法了 “6·26国际禁毒日”省高院发布6起典型案例
极兔速递增聘瑞银、建银、招银为香港IPO上市整体协调人_全球热讯
上海华谊锂电正极材料实现小批量生产 并获得客户认证
焦点精选!《FF16》官方确认:《尼尔:机械纪元》团队参与战斗设计
比尔盖茨:世界上只有一个人比我富有
天天资讯:共青团通山县委联合市场监管局开展食品安全科普活动
观速讯丨我绑架了我的前女友她最好的朋友
蔡徐坤演唱会惹粉丝不满,被请上台亲密互动的女网红,是玩梗黑粉
全球报道:“贵阳贵安,经济大有作为”
昆明至漠河旅游专列开行
今日财经头条|坚定不移扩内需促消费 端午文旅消费市场亮点纷呈
比亚迪DM-o平台曝光,方程豹率先搭载 每日观点
领先!看他们如何保障水质安全
推进“拓岗增量”攻坚行动,这场应届毕业生招聘会举行 焦点关注
【天天播资讯】海南周刊 | 引航员:海上“引路人”
热资讯!精心呵护“城市微细胞” 《北外滩街道开店指南》上线发布
月均增长达“百亿级” 六问快递业如何实现提速发展
宿州哪里有治疗牛皮癣的地方_宿州医院哪家治疗银屑病专业|每日观察
全球要闻:{预约挂号}同房多久后能测出有没有怀孕|厦门市做人流的地方
中国加快培育发展太空经济新业态
全球通讯!2023天津津南区生源地助学贷款首贷申贷材料
海口市龙华区金宇街道办开展系列禁毒宣传活动
天天快资讯丨专项整治为亲友牟利,湖南已有26名厅级干部主动报告问题
湖南省高院召开打击毒品犯罪新闻通气会 通报全省法院毒品犯罪案件审判工作情况-当前速读
插件容器可执行程序的扩展名
紧急提醒!今起,角美这些路段施工,请绕行!|世界快讯
购房合同没写老婆名字能加上吗(夫妻可以一个人签购房合同吗) 每日速递
宜昌夷陵城市发展11.75亿元竞得夷陵东城片区4宗地块 环球观热点
收深交所关注函后,城发环境终止收购北京新易100%股权|全球聚焦
Reddit被黑市勒索窃取80GB数据 官方回应
木卫四协议DLC曝光:新武器、怪物及boss战
国道317线西藏段大美如画
微资讯!苹果iPadOS 17曝光:新增翻盖模式
你愿意向品牌方透露哪些个人信息?1.1 万人调查报告公布-快讯
当前关注:月均增长达“百亿级” 六问快递业如何实现提速发展
返乡不是“镀金” 如何让更多青年留乡干事|独家
世界百事通!印鸽定制怎么投诉 操作方法介绍
天天快看:暗区突围国际服下载方法一览 超详细图文教程来了
LG新能源二季度营业利润预计超过5.6亿美元 同比环比均大增 报道
盛世清北-北京大学马克思主义哲学考研辅导一对一_天天新视野
【全球播资讯】与迷迭香的幸福生活 二 (摩天轮上的表白)
世界速看:中国数字经济发展和治理学术年会(2023) ——数据要素治理、数据价值释放、数字经济创新
恰特草在中国属不属于毒品_恰特草是兴奋剂|焦点速讯
独生子女补助纳入养老金真的吗?补发多少钱? 全球热点评
尼山论“见”丨汪寿阳:构建数据要素大市场,山东至少具备六大优势_天天播报
“6·25反美斗争日”朝鲜外务省发文:半岛紧张加剧根源在美国
市国资委开展安全生产及消防安全专项培训
高温回归!本周江苏将有两次明显降水过程-世界关注
焦点速递!注册会计师报考缴费入口2023
当前简讯:大连东软信息学院智电学院举办第七届集成电路“版图设计”大赛
进口“五联疫苗”突破600元/支,国产替代还有多远?-天天热点评
爱好者用HD-2D技术重制SFC经典《时空之轮》
第十三届中国国际动漫博览会将在东莞举办 共享国漫国潮盛会-环球热讯
端午假期铁路累计发送旅客7037.9万人次 较2019年同期增长11.3%
韩国“萨德”部署地民众持续抗议 强烈谴责执政党代表团访问
记者调查:为何部分医院家属不能陪护病人?
绽放指间的工艺,在一錾一刻中传承畲族银器之美
皖能电力:积极利用深度调峰资源在安徽省内寻找风电资源 每日精选
亿纬锂能发布46系列轻型电池包:采用车规级电芯_环球微动态
天天热议:6月26日擒牛姐午后提示
要闻:Linux 6.4 内核发布:初步支持苹果 M2 芯片
周期中的高瓴资本,张磊的“价值”失效了吗?
日本初创企业FLUX为无代码AI平台完成3200万美元B轮融资 环球聚看点
549元!Switch全新“淡雅”配色Joy-Con上架
长沙雷公寻子22年终圆梦,做足准备却仍未见到孩子
美国8岁移民女童拘留期间死亡 报告:美边境拘留设施缺乏安全保障 世界微资讯
热点聚焦:甘肃一女学生遭老师强奸,老师出狱后,女学生下跪:对不起我错了
法新社:B-门迪周一返回英国,出席对他两项性犯罪指控的重审