Hive配合Dr-elephant优化方法
Mapper Skew Map端倾斜 输入文件分片尺寸差距太大 开启小文件合并 限制单Map最大最小输入 set mapred.max.split.size=32000000; set mapred.min.split.…
Simple And Naive
Mapper Skew Map端倾斜 输入文件分片尺寸差距太大 开启小文件合并 限制单Map最大最小输入 set mapred.max.split.size=32000000; set mapred.min.split.…
Spark 运行时架构 一个节点负责中央调度,即驱动器节点,其他节点称为执行器节点。驱动器节点和执行器节点一起被称为一个Spark应用 驱动器节点 驱动器是执行驱动程序中main()方法的进程,执行用户编写的代码。他的职…
累加器 提供将工作节点中的值聚合到驱动器城区的语法。累加器的常见用途是调试时对时间进行技术。累加器用法如下: – 调用SparkContext.accumulator(initialValue)创造一个初始值…
键值对 Spark为键值对RDD提供一些转有方法如join(),reduceByKey()等。因此需要将数据转换成为键值对RDD才能应用上述方法。 创建 部分数据格式在读取时会直接返回为键值对,否则使用map()函数传入…
Spark 分析导论 Spark 软件栈 Spark Core 实现基本功能: – 任务调度 – 内存管理 – 错误恢复 – 存储交互 – 对 弹性分布式数据集…
多线程 创建线程的3种方式? 继承Thread类创建线程类 定义Thread类的子类,并重写run方法。创建Thread子类的实例。调用start()方法。 通过Runnable接口创建线程类 同上,只是改为定义runn…
算法 时间复杂度 空间复杂度 最佳 平均 最差 最差 快速排序 Ω(n log(n)) Θ(n log(n)) O(n^2) O(log(n)) 归并排序 Ω(n log(n)) Θ(n log(n)) O(n log(…
数据结构 时间复杂度 空间复杂度 平均 最差 最差 访问 搜索 插入 删除 访问 搜索 插入 删除 数组 Θ(1) O(n) O(n) O(n) Θ(1) O(n) O(n) O(n) O(n) 堆栈 O(n) O(n)…
强化学习 任务与奖赏 在状态之间通过不同的操作使目标保持好的状态则能得到奖赏,否则惩罚(奖赏值为负) 机器通过在环境中不断尝试以获得策略,而好的策略会得到较大的奖赏值 与监督学习的区别是在这里样本没有标记,机器没有被直接…
规则学习 “规则” 指语意明确,能描述数据分布所隐含的客观规律或领域概念;规则学习指从训练数据中学习出一组能用于未见实例进行判别的规则 命题规则:由原子命题【与,或,非,蕴含】组成的简单陈述句 一阶规则、关系型规则:在1…