Log - Simple And Naive

Mapper Skew Map端倾斜输入文件分片尺寸差距太大开启小文件合并限制单Map最大最小输入 set mapred.max.split.size=32000000; set mapred.min.split.…

Spark 运行时架构一个节点负责中央调度，即驱动器节点，其他节点称为执行器节点。驱动器节点和执行器节点一起被称为一个Spark应用驱动器节点驱动器是执行驱动程序中main()方法的进程，执行用户编写的代码。他的职…

累加器提供将工作节点中的值聚合到驱动器城区的语法。累加器的常见用途是调试时对时间进行技术。累加器用法如下： – 调用SparkContext.accumulator(initialValue)创造一个初始值…

键值对 Spark为键值对RDD提供一些转有方法如join(),reduceByKey()等。因此需要将数据转换成为键值对RDD才能应用上述方法。创建部分数据格式在读取时会直接返回为键值对，否则使用map()函数传入…

Spark 分析导论 Spark 软件栈 Spark Core 实现基本功能： – 任务调度 – 内存管理 – 错误恢复 – 存储交互 – 对弹性分布式数据集…

多线程创建线程的3种方式？继承Thread类创建线程类定义Thread类的子类，并重写run方法。创建Thread子类的实例。调用start()方法。通过Runnable接口创建线程类同上，只是改为定义runn…

算法时间复杂度空间复杂度最佳平均最差最差快速排序 Ω(n log(n)) Θ(n log(n)) O(n^2) O(log(n)) 归并排序 Ω(n log(n)) Θ(n log(n)) O(n log(…

数据结构时间复杂度空间复杂度平均最差最差访问搜索插入删除访问搜索插入删除数组 Θ(1) O(n) O(n) O(n) Θ(1) O(n) O(n) O(n) O(n) 堆栈 O(n) O(n)…

强化学习任务与奖赏在状态之间通过不同的操作使目标保持好的状态则能得到奖赏，否则惩罚（奖赏值为负）机器通过在环境中不断尝试以获得策略，而好的策略会得到较大的奖赏值与监督学习的区别是在这里样本没有标记，机器没有被直接…

规则学习 “规则” 指语意明确，能描述数据分布所隐含的客观规律或领域概念；规则学习指从训练数据中学习出一组能用于未见实例进行判别的规则命题规则：由原子命题【与，或，非，蕴含】组成的简单陈述句一阶规则、关系型规则：在1…