職位描述

職位描述
負責阿里云ai服務器軟硬件平臺的規劃、定義和技術架構設計。ai服務器軟硬件平臺,包括服務器硬件和軟硬件結合軟件,服務于ai訓練和ai推理業務場景。
具體職責包括:業務需求分析、行業競品分析、技術可行性分析、關鍵技術原型驗證、可靠性/穩定性設計、性能優化、技術方案設計、軟硬件平臺交付等,為ai服務器的核心競爭力負責。
職位要求
1、碩士以上學歷,計算機/電子/通信/電氣等相關專業,10年以上工作經驗;
2、熟悉gpgpu芯片架構及服務器架構,熟悉gpu軟硬件設計,gpu虛擬化,gpu性能分析和優化,有gpu driver/opencl開發/cuda編程/gpu編譯器/gpu服務器性能優化/gpu性能調優工作經驗者優先;
3、熟悉多gpu分布式并行計算、熟悉nccl通信機制,熟悉分布式機器學習,熟悉熱門llm框架者優先,包括但不限于:megatron、deepspeed、pytorch、ft、trt-llm、vllm等;
4、熟悉k8s,有gpu資源管控或作業調度工作經驗者優先;
5、有良好的團隊合作精神和積極主動的學習和溝通能力,對新技術保持熱情;
工作地點
地址:北京北京文一西路969號


職位發布者
HR
阿里巴巴(中國)有限公司


-
IT服務·系統集成
-
1000人以上
-
中外合資(合資·合作)
-
杭州濱江區阿里巴巴濱江園區699