《Presto技术内幕》(4)
生成查询执行计划(下) 执行计划的生成 执行计划节点 执行计划树中的节点分为以下几种类型 AggregationNode 用于聚合操作的节点,在执行计划优化前所有的聚合节点都是单点聚合,优化后拆分为为其他两种 FINAL…
Simple And Naive
生成查询执行计划(下) 执行计划的生成 执行计划节点 执行计划树中的节点分为以下几种类型 AggregationNode 用于聚合操作的节点,在执行计划优化前所有的聚合节点都是单点聚合,优化后拆分为为其他两种 FINAL…
生成查询执行计划(上) 基本概念 Node 语法解析后生成AST(抽象语法树),其中的每一个节点都是一个Node(抽象类),包含的子类如下: Approximate:近似查询 ExplainOption:表示Explai…
RESTful框架解析 Presto几乎所有操作都依赖AirLift框架构建的RESTful服务来完成(数据传输,节点通信,心跳感应,计算调度,计算分布等)。包括4类RESTful接口,包括Statement,Query…
Presto Presto是专为大数据实时查询计算而设计开发的产品,拥有如下特点: – 多数据源:通过自定义Connector能支持Mysql,Hive,Kafka等多种数据源 – 支持SQL:完…
这次的需求是解析一个用表格布局的word的文件内的信息;word模板采用了两层表格的样式,因此采用python-docx包来进行解析,打算先把表格的内容按行列先读取出来。最早版本的代码如下: def table_nest…
数据摄入 方式 流式数据:指不断产生数据的数据源,如消息队列,日志等;Druid提供了Push和Pull两种方式 Pull方式需要启动一个实时节点,通过不同的Firehose摄入 Push方式需要启动索引服务,提供一个H…
数据结构 DataSource(类似于表) 时间列:表明每行数据的时间,默认使用UTC并精确到毫秒 维度列:来自于OLAP概念,标识类别信息 指标列:用于聚合和计算的列,通常是一些数字 支持对任意指标列进行聚合(Roll…
Druid Druid是一个分布式支持实时分析的数据存储系统,为分析而生,在处理数据的规模和数据处理实时性方面比传统OLAP系统有显著的性能改进。与阿里的druid无关 Druid的三个设计原则 快速查询:数据预聚合+内…
概念&定义 数据:在系统中以电子形式存储且共享的事实,可以是测量值,被编码的信息,或者对现实的描述 数据仅表示对象,事件和概念被选取的特征 数据是形式化的并具有上下文,其含义取决于他的构成方式 创建数据的过程是透…
SparkSQL 通过提供存放Row对象(一条记录)的SchemaRDD ,使用Spark+SQL来操作结构化和半结构化的数据,并支持透过JDBC、ODBC链接;支持与Py等代码融合。推荐使用HiveQL作为默认语言 在…