Log

Simple And Naive

  • 首页
  • 未分类
  • Mac日常
  • 机器学习
  • 数据挖掘
  • 标哥强啊
  • 曾哥棒啊
Log

《Presto技术内幕》(3)

2019年11月13日 大数据 694人浏览

生成查询执行计划(上) 基本概念 Node 语法解析后生成AST(抽象语法树),其中的每一个节点都是一个Node(抽象类),包含的子类如下: Approximate:近似查询 ExplainOption:表示Explai…

《Presto技术内幕》(2)

2019年11月12日 大数据 381人浏览

RESTful框架解析 Presto几乎所有操作都依赖AirLift框架构建的RESTful服务来完成(数据传输,节点通信,心跳感应,计算调度,计算分布等)。包括4类RESTful接口,包括Statement,Query…

《Presto技术内幕》(1)

2019年11月11日 大数据 611人浏览

Presto Presto是专为大数据实时查询计算而设计开发的产品,拥有如下特点: – 多数据源:通过自定义Connector能支持Mysql,Hive,Kafka等多种数据源 – 支持SQL:完…

使用line_profile优化python-docx实战

2019年11月8日 数据挖掘 431人浏览

这次的需求是解析一个用表格布局的word的文件内的信息;word模板采用了两层表格的样式,因此采用python-docx包来进行解析,打算先把表格的内容按行列先读取出来。最早版本的代码如下: def table_nest…

《Druid实时大数据分析原理》(3)

2019年11月7日 大数据 526人浏览

数据摄入 方式 流式数据:指不断产生数据的数据源,如消息队列,日志等;Druid提供了Push和Pull两种方式 Pull方式需要启动一个实时节点,通过不同的Firehose摄入 Push方式需要启动索引服务,提供一个H…

《Druid实时大数据分析原理》(2)

2019年11月5日 大数据 295人浏览

数据结构 DataSource(类似于表) 时间列:表明每行数据的时间,默认使用UTC并精确到毫秒 维度列:来自于OLAP概念,标识类别信息 指标列:用于聚合和计算的列,通常是一些数字 支持对任意指标列进行聚合(Roll…

《Druid实时大数据分析原理》(1)

2019年11月4日 大数据 1,007人浏览

Druid Druid是一个分布式支持实时分析的数据存储系统,为分析而生,在处理数据的规模和数据处理实时性方面比传统OLAP系统有显著的性能改进。与阿里的druid无关 Druid的三个设计原则 快速查询:数据预聚合+内…

《数据质量策略的持续改进》笔记(1)

2019年10月31日 大数据 338人浏览

概念&定义 数据:在系统中以电子形式存储且共享的事实,可以是测量值,被编码的信息,或者对现实的描述 数据仅表示对象,事件和概念被选取的特征 数据是形式化的并具有上下文,其含义取决于他的构成方式 创建数据的过程是透…

Spark 快速大数据分析 笔记(五)

2019年10月31日 大数据 241人浏览

SparkSQL 通过提供存放Row对象(一条记录)的SchemaRDD ,使用Spark+SQL来操作结构化和半结构化的数据,并支持透过JDBC、ODBC链接;支持与Py等代码融合。推荐使用HiveQL作为默认语言 在…

Hive配合Dr-elephant优化方法

2019年7月23日 大数据 344人浏览

Mapper Skew Map端倾斜 输入文件分片尺寸差距太大 开启小文件合并 限制单Map最大最小输入 set mapred.max.split.size=32000000; set mapred.min.split.…

  • «
  • <
  • 1
  • 2
  • 3
  • 4
  • >
  • »
  • © 2021 Log All Rights Reserved.
  • Theme Sirius Made by Vtrois