技术阶段 | 核心技术要点 | 实战项目 |
---|---|---|
编程基础模块 | Java面向对象编程、集合框架操作、IO流处理 | 可视化数据管理平台开发 |
分布式计算框架 | HDFS存储原理、MapReduce编程模型、Zookeeper协调服务 | PB级日志分析系统构建 |
掌握Spark SQL进行结构化数据处理,通过Spark MLlib实现机器学习模型部署。在实时计算领域,重点学习Flink的窗口机制与状态管理,完成流式数据异常检测系统开发。
在《千亿级实时数据仓库》项目中,学员将运用Kylin进行OLAP分析,结合Druid实现实时数据摄入。通过Hive进行数据清洗,最终在Superset完成多维数据可视化展示。
课程完整覆盖大数据技术栈,从数据采集(Flume/Sqoop)、存储(HDFS/HBase)、计算(Spark/Flink)到可视化(Kibana/Grafana),构建完整数据处理流水线。