最新要闻

广告

手机

iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?

iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?

警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案

警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案

家电

【独家焦点】Python工具箱系列(二十六)

来源:博客园

ClickHouse(Click Stream,Data WareHouse)是俄罗斯的 Yandex于2016年开源的用于在线分析处理查询(OLAP:Online Analytical Processing)MPP架构的列式存储数据库(DBMS:Database Management System),能够使用 SQL 查询实时生成分析数据报告。特别值得称道的是Clickhouse没有走hadoop生态,采用 Local attached storage 作为存储,而hadoop目前已经发展的臃肿不堪了。

Clickhouse的特点有:


(相关资料图)

  • 列式存储,在特定场景下,能够获得很高的访问效率,并且节省空间

  • DBMS功能。几乎覆盖了标准SQL的大部分语法,为传统数据库使用者提供熟悉的操控体验

  • 多样化引擎

  • 高吞吐写入能力

  • 数据分区分片

  • 单表查询性能优异,多表JOIN查询较差

  • 适合于OLAP应用场景

  • Clickhouse社区活跃度高、版本迭代非常快,几乎几天到十几天更新一个小版本,我们非常看好它以后的发展。

Clickhouse之所以速度超快,在于其优良的系统架构设计,以及多个方向的优化。

主要包括:

  • 底层C++可以充分利用硬件优势

  • 摒弃了hadoop生态

  • 数据底层以列式存储

  • 利用单节点的多核并行处理

  • 为数据建立索引一级、二级、稀疏索引

  • 使用大量的算法处理数据

  • 支持向量化处理

  • 预先设计运算模型-预先计算

  • 分布式处理数据

一、安装

Clickhouse能够运行在linux/macos上,对于windows仍然支持不够,不建议在windows上尝试安装,但可以在windows上安装它的客户端。与Clickhouse官网提供的安装方式不同,我们选择使用apt安装。

主要原因是:

  • 虽然可以一键安装,但对于网络连接的要求高,稍有错误则前功尽弃

  • 大规模安装时,无法控制进度与验证

  • 无法利用缓冲机制,因此不可能在离线环境下完成安装

在ubuntu bionic上的安装过程如下所示:

sudo apt-get updatesudo apt-get -y install apt-transport-https ca-certificates dirmngrsudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv E0C56BD4echo "deb https://repo.clickhouse.tech/deb/stable/ main/" | sudo tee /etc/apt/sources.list.d/clickhouse.listsudo apt-get updatesudo apt-get install -y clickhouse-server clickhouse-client# 安装成功后以服务方式启动sudo service clickhouse-server start# 使用客户端连接clickhouse-client --password

服务器配置文件位于/etc/clickhouse-server/config.xml。默认绑定在回环地址(127.0.0.1)上,可以使用下述方式改变为远程访问支持。

vi /etc/clickhouse-server/config.xml# ::sed -i "s/127.0.0.1/::/g" /etc/clickhouse-server/config.xmlcat /etc/clickhouse-server/config.xml |grep listen_host

二、Python访问

Clickhouse官网列出了python对应的库:

  • infi.clickhouse_orm

  • clickhouse-driver

  • clickhouse-client

  • aiochclient

  • asynch

国内应用较为广泛的是Clickhouse-driver,安装过程如下:

pip install clickhouse-driver

访问的示范代码如下:

from clickhouse_driver import Clientch_host = "192.168.0.66"user = "default"password = "8848is8848"dbname = "default"tbname = "pm25"# 连接并且查询client = Client(host=ch_host,user=user,password=password)def query(sqlstr):    result = client.execute(sqlstr)    print(result)query("show databases")query(f"DROP TABLE IF EXISTS {tbname}")query(f"CREATE TABLE {tbname} (x Int32) ENGINE = Memory")query("show tables")client.execute(f"insert into {tbname} values",((x,) for x in range(100)))query(f"SELECT * FROM {tbname} where x > 49 LIMIT 5")

以上代码与普通的数据库操作类似,还没有体现出Clickhouse的优势。后续文章将以海量测量数据为例,对Clickhouse与正宗的关系数据库进行比较。

关键词: 关系数据库 臃肿不堪 配置文件