GPU服务器集群运维与架构工程师

中国深圳

GPU服务器集群运维与架构工程师

/

研发-IT运维

工作职责

1.负责GPU服务器集群的架构设计、部署、维护与优化,支撑图像算法训练与AI工作负载;

2.管理GPU、CPU、内存、存储等硬件资源的调配与使用,满足多部门研发需求;

3.优化系统性能与作业调度策略,提升资源利用率(如使用SLURM、Kubernetes、Docker等);

4.建立系统监控、数据安全、自动备份与故障恢复机制,保障服务稳定运行;

5.与算法团队深度协作,理解模型训练需求,提供定制化基础设施支持方案;

6.编写系统文档和操作指南,为用户提供技术培训与支持;

7.排查并处理服务器、网络、存储等软硬件问题,必要时对接外部供应商。

工作要求

1.学历要求:计算机、信息系统或相关专业本科及以上学历;

2.工作经验:3年以上GPU服务器或AI基础设施管理经验,有支持AI训练平台经验者优先;

3.技术能力:熟悉Linux系统运维、服务器网络配置、基础设施自动化部署等;

4.熟练掌握GPU集群部署与管理工具(如NVIDIA Docker、CUDA、SLURM、Kubernetes等);

5.了解磁盘/存储系统(如RAID、NFS)与系统监控工具(如Prometheus、Grafana等);

6.了解主流深度学习框架(如PyTorch、TensorFlow)及其对训练环境的依赖;

7.具备良好的沟通协调与文档编写能力,能与算法、硬件、软件团队协同工作。

投递方式

请将职位名称/编号、姓名作为邮件标题,投递简历至我司招聘邮箱。

最近搜索

微信搜一搜

AlpsenTek锐思智芯