
1) 【一句话结论】从硬件、网络、系统、应用、监控五个维度分层排查,按“先外后内、先易后难”顺序逐步检查,先网络连通性,再服务器状态,再网络设备,最后监控数据。
2) 【原理/概念讲解】老师口吻解释分层检查逻辑:基础设施维护需像“搭积木”一样逐层排查,从底层硬件到上层应用逐级验证。硬件层是物理设备(服务器、交换机等),网络层是连接这些设备的网络(路由、交换机端口),系统层是操作系统(Linux/Windows),应用层是招聘平台服务(如推荐算法服务),监控层是实时监控工具(如Zabbix、Prometheus)。每个层的问题会导致上层服务异常,因此需从外到内排查。
3) 【对比与适用场景】
| 检查维度 | 定义 | 常见问题 | 排查优先级 | 适用场景 |
|---|---|---|---|---|
| 硬件层 | 物理设备状态(电源、风扇、硬盘) | 电源故障、硬盘坏道 | 高 | 硬件明显异常时 |
| 网络层 | 网络连接状态(ping、traceroute) | 网络不通、端口关闭 | 中 | 服务无法访问时 |
| 系统层 | 操作系统状态(进程、日志) | 进程崩溃、系统日志错误 | 中 | 网络通但服务不响应时 |
| 应用层 | 应用服务状态(服务进程、配置) | 服务未启动、配置错误 | 低 | 系统正常但应用异常时 |
| 监控层 | 实时监控数据(CPU、内存、流量) | 资源耗尽、流量异常 | 高 | 作为辅助,实时监控 |
4) 【示例】
假设招聘信息推荐平台无法访问,检查步骤:
ping 192.168.1.100测试服务器IP是否可达,若不通则先排查本地网络(如路由器、网线);top查看CPU/内存使用情况,用ps -ef | grep 推荐服务检查服务进程是否运行;show interfaces),确认服务器端口是否开启;5) 【面试口播版答案】
面试官您好,如果需要维护招聘信息推荐平台的基础设施,我会从硬件、网络、系统、应用、监控五个维度分层排查,按“先外后内、先易后难”的顺序逐步检查。首先检查网络连通性,比如用ping命令测试服务器IP是否可达,若不通则先排查本地网络问题(如路由器、网线);若网络通但服务器无法访问,接着检查服务器状态,登录服务器用top查看资源占用,用ps -ef | grep 推荐服务 检查服务进程是否运行;然后检查网络设备,查看交换机端口状态,确认服务器端口是否正常;最后查看监控数据,比如Prometheus的CPU、内存指标,判断是否资源耗尽。通过这五个步骤,能系统排查基础设施问题。
6) 【追问清单】
7) 【常见坑/雷区】