聯想近日宣布推出旗下首款基于AMD技術的AI服務器——聯想問天WA7785a G3。該服務器在單機部署671B(滿血版)DeepSeek大模型時,?實測最高吞吐量達到6708 token/s,刷新了大模型推理性能的行業標準。
這一突破得益于聯想萬全異構智算平臺的創新設計。通過訪存優化、顯存優化、PCIe 5.0全互聯架構以及SGLang框架中性能最優算子的精選,聯想對DeepSeek大模型從預訓練、后訓練到推理的全流程進行了深度優化。
在模擬問題對話場景(上下文序列長度128/1K)中,聯想問天WA7785a G3最高支持并發數158,TPOT(每次輸出時間)為93毫秒,TTFT(首次輸出時間)為2.01秒。而在模擬代碼生成場景(上下文序列長度512/4K)中,并發數可達140,TPOT為100毫秒,TTFT為5.53秒。
這一性能表現意味著單臺聯想問天WA7785a G3可支撐1500人規模企業的日常需求,相比此前聯想問天WA7780 G3服務器單機部署DeepSeek大模型時2500 token/s的吞吐量,實現了顯著提升。
聯想表示,此次突破是聯想中國基礎設施業務群、聯想研究院ICI實驗室與AMD聯合設計、協同調優的成果。目前,雙方仍在探索深度調優的新方法,以進一步提升性能。
此外,聯想問天WA7785a G3的推出也標志著聯想在AI服務器領域的技術積累進一步深化。隨著大模型應用場景的不斷擴展,高性能、低延遲的AI服務器將成為企業數字化轉型的關鍵基礎設施。