Spark核心原理与实战MLPipLine:如何通过SparkMLPipLine模式实现模型训练? SparkConnecter:Cassandra SparkConnecter:ElasticSearch SparkConnecter:HDFS及HBase SparkConnecter:MongoDB SparkConnecter:MySQL及Kafka SparkOnYARN:Client模式与Cluster模式 SparkOnYARN:FIFOScheduler、CapacityScheduler原理和使用 SparkOnYARN:YARNFairScheduler原理、使用及特点 SparkRDD实战:Action原理和实战、Spark广播变量原理和使用 SparkRDD实战:Transformation和Action概念、LazyLoad及SparkFunction的3种实现方式 SparkRDD实战:常用Transformation原理及实战 SparkRDD实战:如何利用外部数据集生成RDD? SparkRDD原理:RDD抽象及相关概念 SparkRDD原理:RDD依赖关系、Stage、RDD持久化、SparkPreferredLocation及CheckPoint原理和使用 SparkSQL、DataFrame、DataSet原理和使用 SparkSQLJoin操作及SparkSQLFunction SparkSQL调优和SparkStreaming调优 SparkSQL原理和执行过程 SparkStearming原理及实战:DStream操作、数据持久化及性能优化 SparkStearming原理及实战:创建一个SparkStreaming应用 SparkStructuredStearming原理及实战:StreamJoin操作、重复数据处理、多Watermark处理策略、StructuredStearming结果输出 SparkStructuredStearming原理及实战:StructuredStearming时间窗口操作、水位线和数据更新模式 SparkStructuredStearming原理及实战:StructuredStearming事件时间、延迟数据处理策略、容错语义和编程模型 SparkStructuredStearming原理及实战:StructuredStreaming概念、特点、数据模型和应用实战 Spark常用统计方法:基础统计、相关性分析、数据抽样 Spark的运行环境安装:Standalone入门实战 Spark的运行环境安装:YARN入门实战 Spark机器学习概述:机器学习应用场景、分类和常用算法 Spark流处理做作业入门Demo Spark批处理做作业入门Demo Spark数据倾斜问题处理 Spark文件读写原理 Spark原理及特点:Spark作业运行流程 Spark原理及特点:模块概述+特点 Spark原理及特点:运行模式+集群组角色 常用数据格式原理和使用:ORC、AVRO在Spark中的使用 常用数据格式原理和使用:TEXT、CSV、JSON、PARQUET在Spark中的使用 分类模型:概念与种类、线性回归及逻辑回归原理实现 分类模型:朴素贝叶斯原理实现、决策树原理实现及协同过滤原理 机器学习流程:模型训练、模型测试、模型部署与整合、模型监控与反馈及数据探索和可视化 机器学习流程:数据收集与存储、数据清理与转换 聚类模型:基于K-Means的聚类算法原理实现 内存调优:JVM内存调优、堆外内存设置及storageFraction设置 任务调优:Executor数量内存及CPU配置、设置合理的并行度、Task等待时长调优、Blacklisting调优 失败重试与黑名单机制、推测式执行、资源申请机制 数据调优:数据本地性、复用RDD、BroadCast、Kryo序列化和CheckPoint
声明:本站大部分资源来源于网络,除本站组织的资源外,版权归原作者所有,如有侵犯版权,请立刻和本站联系并提供证据,本站将在三个工作日内改正。 本站仅提供学习的平台,将不对任何资源负法律责任,只作为购买原版的参考,并无法代替原版,所有资源请在下载后24小时内删除;资源版权归作者所有,如果您觉得满意,请购买正版。您若发现本站侵犯了你的版权利益,请来信本站将立即予以删除!