GPU服务器集群运维与架构工程师

工作职责

1.负责GPU服务器集群的架构设计、部署、维护与优化，支撑图像算法训练与AI工作负载；

2.管理GPU、CPU、内存、存储等硬件资源的调配与使用，满足多部门研发需求；

3.优化系统性能与作业调度策略，提升资源利用率（如使用SLURM、Kubernetes、Docker等）；

4.建立系统监控、数据安全、自动备份与故障恢复机制，保障服务稳定运行；

5.与算法团队深度协作，理解模型训练需求，提供定制化基础设施支持方案；

6.编写系统文档和操作指南，为用户提供技术培训与支持；

7.排查并处理服务器、网络、存储等软硬件问题，必要时对接外部供应商。

工作要求

1.学历要求：计算机、信息系统或相关专业本科及以上学历；

2.工作经验：3年以上GPU服务器或AI基础设施管理经验，有支持AI训练平台经验者优先；

3.技术能力：熟悉Linux系统运维、服务器网络配置、基础设施自动化部署等；

4.熟练掌握GPU集群部署与管理工具（如NVIDIA Docker、CUDA、SLURM、Kubernetes等）；

5.了解磁盘/存储系统（如RAID、NFS）与系统监控工具（如Prometheus、Grafana等）；

6.了解主流深度学习框架（如PyTorch、TensorFlow）及其对训练环境的依赖；

/