Log - Simple And Naive

生成查询执行计划(下) 执行计划的生成执行计划节点执行计划树中的节点分为以下几种类型 AggregationNode 用于聚合操作的节点，在执行计划优化前所有的聚合节点都是单点聚合，优化后拆分为为其他两种 FINAL…

生成查询执行计划(上) 基本概念 Node 语法解析后生成AST（抽象语法树），其中的每一个节点都是一个Node（抽象类），包含的子类如下： Approximate：近似查询 ExplainOption：表示Explai…

RESTful框架解析 Presto几乎所有操作都依赖AirLift框架构建的RESTful服务来完成（数据传输，节点通信，心跳感应，计算调度，计算分布等）。包括4类RESTful接口，包括Statement，Query…

Presto Presto是专为大数据实时查询计算而设计开发的产品，拥有如下特点： – 多数据源：通过自定义Connector能支持Mysql，Hive，Kafka等多种数据源 – 支持SQL：完…

这次的需求是解析一个用表格布局的word的文件内的信息；word模板采用了两层表格的样式，因此采用python-docx包来进行解析，打算先把表格的内容按行列先读取出来。最早版本的代码如下： def table_nest…

数据摄入方式流式数据：指不断产生数据的数据源，如消息队列，日志等；Druid提供了Push和Pull两种方式 Pull方式需要启动一个实时节点，通过不同的Firehose摄入 Push方式需要启动索引服务，提供一个H…

数据结构 DataSource（类似于表）时间列：表明每行数据的时间，默认使用UTC并精确到毫秒维度列：来自于OLAP概念，标识类别信息指标列：用于聚合和计算的列，通常是一些数字支持对任意指标列进行聚合（Roll…

Druid Druid是一个分布式支持实时分析的数据存储系统，为分析而生，在处理数据的规模和数据处理实时性方面比传统OLAP系统有显著的性能改进。与阿里的druid无关 Druid的三个设计原则快速查询：数据预聚合+内…

概念&定义数据：在系统中以电子形式存储且共享的事实，可以是测量值，被编码的信息，或者对现实的描述数据仅表示对象，事件和概念被选取的特征数据是形式化的并具有上下文，其含义取决于他的构成方式创建数据的过程是透…

SparkSQL 通过提供存放Row对象（一条记录）的SchemaRDD ，使用Spark+SQL来操作结构化和半结构化的数据，并支持透过JDBC、ODBC链接；支持与Py等代码融合。推荐使用HiveQL作为默认语言在…