工作职责
1.负责GPU服务器集群的架构设计、部署、维护与优化,支撑图像算法训练与AI工作负载;
2.管理GPU、CPU、内存、存储等硬件资源的调配与使用,满足多部门研发需求;
3.优化系统性能与作业调度策略,提升资源利用率(如使用SLURM、Kubernetes、Docker等);
4.建立系统监控、数据安全、自动备份与故障恢复机制,保障服务稳定运行;
5.与算法团队深度协作,理解模型训练需求,提供定制化基础设施支持方案;
6.编写系统文档和操作指南,为用户提供技术培训与支持;
7.排查并处理服务器、网络、存储等软硬件问题,必要时对接外部供应商。
工作要求
1.学历要求:计算机、信息系统或相关专业本科及以上学历;
2.工作经验:3年以上GPU服务器或AI基础设施管理经验,有支持AI训练平台经验者优先;
3.技术能力:熟悉Linux系统运维、服务器网络配置、基础设施自动化部署等;
4.熟练掌握GPU集群部署与管理工具(如NVIDIA Docker、CUDA、SLURM、Kubernetes等);
5.了解磁盘/存储系统(如RAID、NFS)与系统监控工具(如Prometheus、Grafana等);
6.了解主流深度学习框架(如PyTorch、TensorFlow)及其对训练环境的依赖;
7.具备良好的沟通协调与文档编写能力,能与算法、硬件、软件团队协同工作。