在Hadoop生态中，HDFS和YARN分别承担什么核心职责？在大规模算力集群运维中，如何通过监控工具（如Ganglia、Prometheus）实时监控HDFS的存储健康度（如数据副本完整性、块损坏率）和YARN的资源利用率（如CPU、内存、磁盘I/O），确保算力资源的稳定运行？

湖北大数据集团算力运营岗难度：中等

答案

1) 【一句话结论】HDFS是Hadoop的分布式存储系统，核心职责是持久化存储大规模数据（通过多副本保证可靠性）；YARN是资源调度框架，负责统一管理集群计算资源（CPU、内存等），为应用分配资源。运维中通过Ganglia/Prometheus等工具采集存储健康指标（如副本完整性、块损坏率）和资源利用率指标（如CPU、内存、磁盘I/O），实时监控确保算力稳定。

2) 【原理/概念讲解】HDFS（Hadoop Distributed File System）是Hadoop的分布式文件系统，采用主从架构：NameNode作为元数据管理节点，维护文件系统目录树和块位置信息；DataNode是数据存储节点，负责存储实际数据块，每个数据块默认有3个副本，分布在不同DataNode上，通过副本实现容错。类比：就像大型图书馆，NameNode是总目录（记录每本书的位置和副本），DataNode是各个书架（存储书籍副本），副本保证即使某个书架损坏，还能从其他书架借到书。
YARN（Yet Another Resource Negotiator）是资源调度框架，负责统一管理集群所有计算资源。核心组件：ResourceManager（全局资源管理器，负责资源分配和调度）、NodeManager（每个节点上的代理，监控节点资源使用情况并上报）、ApplicationMaster（每个应用的管理者，向ResourceManager申请资源，管理任务执行）。类比：就像大型工厂的调度中心，ResourceManager是总调度（分配机器资源），NodeManager是每个工位的监控（报告机器状态），ApplicationMaster是每个生产线的负责人（管理任务分配）。

3) 【对比与适用场景】

对比项	HDFS（存储层）	YARN（资源调度层）
核心职责	分布式数据存储与持久化	统一管理集群计算资源（CPU、内存等）
架构	NameNode（元数据）+多个DataNode（数据块）	ResourceManager（全局）+NodeManager（节点）+ApplicationMaster（应用）
关键特性	数据分块（默认128MB/256MB），多副本（容错）	资源抽象（容器，如vCPU、内存），按需分配
使用场景	存储大规模日志、数据集（如Hive表、HBase数据）	运行MapReduce、Spark等计算任务，支持多应用共享资源
注意点	副本数量影响存储空间和读取性能，需平衡	资源分配策略（如Fair Scheduler、Capacity Scheduler）影响任务调度公平性

4) 【示例】

监控HDFS存储健康度（数据副本完整性、块损坏率）：
通过Ganglia采集DataNode的block_repair_rate（块修复率，高值表示损坏率高）、block_repair_time（修复耗时），或Prometheus查询hdfs_datanode_block_repair_rate指标。例如，Prometheus查询：
```
sum(rate(hdfs_datanode_block_repair_rate[5m])) > 0.1
```
若指标异常，触发告警。
监控YARN资源利用率（CPU、内存、磁盘I/O）：
通过Ganglia采集NodeManager的cpu_usage_percent（CPU使用率）、memory_usage_bytes（内存使用量）、disk_io_bytes（磁盘I/O速率），或Prometheus查询yarn_node_manager_cpu_usage_percent、yarn_node_manager_memory_usage_bytes等指标。例如，Prometheus查询：
```
avg by(node)(yarn_node_manager_cpu_usage_percent) > 80
```
若CPU利用率过高，触发告警，提示资源紧张。

5) 【面试口播版答案】
“HDFS主要负责分布式存储，通过NameNode和DataNode架构，数据分块并多副本存储，保证数据可靠；YARN负责资源调度，统一管理集群CPU、内存等资源，为计算任务分配资源。运维中，我们用Ganglia或Prometheus采集指标：比如HDFS的块损坏率、副本修复情况，YARN的CPU、内存、磁盘I/O利用率。通过这些指标实时监控，确保存储健康和资源稳定。具体来说，比如监控DataNode的block_repair_rate，如果过高就检查数据损坏；监控NodeManager的CPU使用率，若超过80%就调整任务调度或扩容资源，保证算力集群稳定运行。”

6) 【追问清单】

问：HDFS的副本策略如何选择？
答：默认3副本，可根据数据重要性调整，比如核心数据设为5副本，非核心数据设为2副本，平衡存储空间和可靠性。
问：监控工具中，Ganglia和Prometheus的优缺点？
答：Ganglia适合大规模集群，分布式采集，但配置复杂；Prometheus适合微服务化监控，支持PromQL查询，但集群规模较小时可能资源消耗大。
问：YARN的资源调度策略（如Fair Scheduler vs Capacity Scheduler）如何选择？
答：Fair Scheduler按需公平分配资源，适合多用户共享；Capacity Scheduler按队列分配资源，适合不同部门或项目隔离。
问：如何处理HDFS数据块损坏？
答：通过DataNode的自动修复机制，或手动触发修复，检查损坏原因（如磁盘故障），并更换故障磁盘。
问：监控指标中，哪些是关键告警阈值？
答：HDFS：块损坏率超过1%或修复时间超过10分钟；YARN：CPU利用率超过90%或内存使用率超过80%。

7) 【常见坑/雷区】

坑1：混淆HDFS和YARN的职责，比如认为HDFS负责任务调度。
坑2：错误理解监控指标，比如将“块损坏率”与“数据丢失率”混淆，导致误判。
坑3：忽略副本策略对存储的影响，比如设置过多副本导致存储空间浪费。
坑4：监控工具配置不当，比如Ganglia采集节点数过多导致数据延迟。
坑5：YARN资源调度策略选择错误，导致任务调度不公平，影响应用性能。