本课程立足大数据技术生态发展现状,采用模块化教学架构,重点解析Hadoop框架与Spark实时计算两大技术体系。课程内容覆盖分布式文件系统HDFS工作原理、MapReduce并行计算模型设计,以及新一代计算引擎Flink的流批一体处理方案。
技术组件 | 处理类型 | 延迟级别 | 典型应用 |
---|---|---|---|
Hadoop MapReduce | 批处理 | 分钟级 | 日志分析 |
Spark Streaming | 准实时 | 秒级 | 实时监控 |
Flink | 流处理 | 毫秒级 | 金融风控 |
分布式文件系统HDFS架构深度解析,重点讲解NameNode元数据管理机制与DataNode数据块存储策略。通过Yarn资源调度实战,演示如何优化MapReduce任务的执行效率。
详细拆解RDD弹性分布式数据集原理,结合电商用户行为分析案例,演示Spark SQL进行结构化数据处理的全流程。对比Spark Streaming与Flink在实时计算领域的异同。
运用Flink处理实时交通流量数据,结合ElasticSearch实现快速地理信息检索,通过Kafka构建数据缓冲层,最终使用Redis缓存热点数据。项目涵盖从数据采集到可视化展示的全流程实现。