認識AI硬體的開放架構 - OAI (Open Accelerator Infrastructure )

16 May 2024

認識AI硬體的開放架構 OAI OAM

AI領域,開放加速器基礎設施(OAI)是由全球最具影響力的開源硬體組織之一:開放計算項目(OCP)所設立的一個子組織。自2019年起,OAI專注於定義適合大規模深度學習訓練的AI加速卡形態,解決了多元AI加速卡形態和接口不統一的問題。透過發布OAI-UBB(通用底板)1.0設計規範,OAI推動了AI加速硬體平台的標準化,使其能夠無需修改即支援不同廠商的產品,顯著提升了AI模組的擴展性和靈活性。

 

AI巨頭們陸續採用的架構- OAM (Open Accelerator Module)

對於AI伺服器開發商來說,開放加速模組(OAM)帶來了顯著的好處。由於AI加速晶片的多樣化和專業化,開發商面臨著更高的開發成本和較長的開發週期。OAM的出現為這些開發商提供了一種高效且可擴展的解決方案,使他們能夠更容易地整合新的AI加速器。這不僅降低了進入門檻,還加快了產品的市場推廣時間。

OAI介紹與OAM介紹

OAM帶來的優點與挑戰

OAM有著三項顯著優點,使其在當今快速發展的AI市場中顯得尤為重要。

1.高效能與效率:OAM能顯著提高處理的性能和效率,對於需求高算力的應用,如深度學習和機器學習,表現特別突出。

2.可擴展性:OAM設計允許在不同的系統和基板之間實現靈活的兼容性和擴展性,從而能夠適應不斷進步的高算力負載和技術發展。

3.支持多樣的應用場景:OAM適用於多種領域,包括AI推理、科學模擬以及數據分析等,這種多樣性使其能夠滿足廣泛的業務需求。

這些優點展示了OAM在現代數據中心和高性能計算環境中的應用潛力和靈活性。

但是與此同時,採用OAM也需要面對幾項挑戰

1.技術和設計複雜性:當前專用的AI硬體系統在技術和設計上相當複雜,這使得將新的AI加速器整合到系統中通常需要612個月的時間,從而阻礙了新競爭技術的快速採納。

2.高功耗管理:隨著OAM產品設計功率的增加,達到600W以上時Base Specification已經建議採用液體冷卻技術,這表示高功耗管理是一大挑戰,特別是在未來功率可能輕易超過700W的情況下。

3.標準化和兼容性:AI加速器的快速演進和多樣性對於標準化和兼容性有更高的要求,以支持各種硬體加速解決方案的可擴展性和模塊間的高速通信鏈接。

正淩能為OAM設計者做什麼?

正淩為市場上少數同時擁有高速傳輸、機構設計與散熱模組的方案商。已經為市場上幾家領導AI晶片設計者提供高速I/OOAM相關產品。對於OAM的設計,正淩總結出兩項常見的挑戰:

1. 配合散熱的結構設計:Top Stiffener with Thermal Solution

Top Stiffener 雖然在Base Specification中著墨甚少,但卻需要良好的結構設計來配合OAM設計,否則會直接影響散熱的效率。好的Top Stiffener設計包括良好的支撐與導熱,才能讓air-cooling solution 例如3U 或是4U高度的3D VC充分發揮功效。面對超過600W TDP的下一世代方案,還需要整合Cold plateliquid cooling 。這些都考驗製作廠商在機構設計、材料選擇以及對散熱技術的了解才能實現。

2. 加工工藝上的挑戰:OAM Bottom Stiffener

OAMUBB連接不良是實務上最常見的問題,而連接不良往往來自於對於OAM Bottom Stiffener的輕忽。OAM普遍採用的是Mirror Mezz Pro Connector,在Base Specification裡提到的公差必須維持在  ± 0.15mm,但由於組裝能力以及加工能力的差異,不良的Bottom Stiffener往往會導致最終組裝公差過大或是兩端不平均導致連接不良。無論是多優秀的AI晶片

OAM介紹

結語

AI相關的技術在近年來發展突飛猛進,帶來的挑戰更是跨領域的。正淩在與AI領導者一起克服種種困難的同時,更加深刻體會到要實現讓人驚艷的AI表現背後,每一個小細節都至關重要。也希望所累積的各種經驗與能力,能夠為更多的AI產品開發者解決問題,讓這個改變人類文明的技術能夠更加便利的為所有人使用。


This website uses technical and analytical cookies, including third-party cookies, to analyse user browsing behaviour, create website visit statistics and improve the contents provided. To consult the full Cookie Policy or decline, at a later date, your consent to the cookies used by the website, click here.

Got It!