設計工具
儲存裝置

AI 將帶動儲存裝置產生哪些變化?

Micron Technology | 2023 年 11 月

儲存裝置技術發展現在正處於令人興奮的時期。我們所在的 IT 產業正處於顛覆性變革的關鍵時刻。此變革的核心在於人工智慧 (AI) 將如何改變我們架構和建置伺服器的方式,以及我們期望電腦為我們完成何種事務。生成式 AI 在業界和大眾之間都引起廣泛的討論。今年稍早推出的 ChatGPTTM 在電腦如何理解我們的自然語言問題,與我們進行有關任何主題的對話,以及像人類一樣寫詩和押韻等方面,引發了許多想像。還有各種影像生成 AI 模型,能夠根據使用者給予的簡單文字提示,創造出令人驚嘆的視覺傑作。

AI 的快速崛起也造成對更高頻寬記憶體 HBM 的需求大幅提高。HBM 解決方案現在變得比黃金更加搶手。大型語言模型 (LLM) 正推動對 CPU 擁有更大容量記憶體使用量的需求,以支援更大型、更複雜的模型。雖然大眾已瞭解增加記憶體頻寬和容量的重要性,卻常常忘了儲存裝置在支援 AI 成長上所擔任的角色。

儲存裝置在 AI 工作負載中的角色或重要性為何?

儲存裝置在兩個領域中扮演重要角色。一個是作為快取記憶體的本機高速儲存裝置,負責將訓練資料匯入 GPU 上的 HBM 中。

因為有效能需求,所以採用高效能 SSD。儲存裝置的另一個關鍵角色則是將所有的訓練資料集保存在大型資料湖 (Data lakes) 內。

本機快取磁碟 (Local cache drive)

大型語言模型是使用在網路、書籍和相關字典中找到的人類生成資訊來進行訓練。本機快取磁碟上訓練資料的 I/O 模式已結構化,且主要讀取大型資料區塊,將下個批次的資料預先擷取至記憶體之中。因此,對於傳統大型語言模型而言,SSD 的效能通常不是 GPU 處理的瓶頸。但電腦視覺或混合模式 LLM+CV 等其他 AI/機器學習模型,則需要擁有更高的頻寬,因此對本機快取磁碟形成挑戰。

圖神經網路 (Graph Neural Networks; GNN) 常用於產品推薦/深度學習推薦模型 (DLRM)、詐騙偵測以及網路入侵偵測。深度學習推薦模型有時也被稱為網際網路上最大的營收創造演算法。用於訓練圖神經網路的模型傾向於以較隨機方式存取較小區塊的資料。這類模型可能真正對本機快取 SSD 的效能形成挑戰,並可能導致昂貴的 GPU 處於閒置狀態。要緩解此效能瓶頸,就需要有新的 SSD 功能。美光正積極與業界領導企業合作開發解決方案,並將在於丹佛舉行的 2023 年超級運算大會 (SC23) 中,發表此次合作的一些成果,在發表會中我們將示範 GPU 與 SSD 如何互動,以將 I/O 密集的處理時間加快高達 100 倍。

AI 資料湖

在大型資料湖方面,大容量 SSD 將成為首選的儲存媒體。隨著容量增加,HDD 也變得更加便宜 ($/TB),但速度也隨之變慢 (MB/s / TB)。HDD 容量大於 20TB 時,對於資料湖能否以省電方式為大型 AI/機器學習 GPU 叢集取得所需的頻寬類型 (TB/s),真正形成了挑戰。反觀,SSD 則有充沛效能,相較於 HDD,在專用形式下,能以更低功耗(每 TB 耗費瓦數降低 8 倍),甚至以更低電能(每 TB 耗費千瓦時降低 10 倍)的程度,提供所需容量。這些省下的電力可用於資料中心,以增加更多 GPU。目前,美光正將其 32TB 高容量資料中心 SSD 部署至眾多的 AI 資料湖和物件儲存區。單獨傳輸數個 GB/s 頻寬的 15 瓦 SSD 的容量,未來能擴大至高達 250TB。

AI 將如何影響 NAND 快閃儲存裝置的需求?

首先,新 AI/機器學習模型的所有訓練都必須從資料中「學習」。IDC 估計,自 2005 年起,每年產生的資料量超過每年購買的儲存裝置量。這表示有些資料必須只是短暫儲存。使用者必須依資料的價值,以及留存資料所帶來的價值是否超過為留存資料而購買更多儲存裝置的成本,來決定資料的去留。

機器(例如:相機、感測器、IoT、噴射引擎診斷、封包路由資訊、滑動和點按)現在一天內產生的資料量,比人類所能產生的資料量超出了數個量級。人類之前無暇或沒有能力分析的機器生成資料,現在對於 AI/機器學習例行程序尤其實用,因為能從中擷取實用和寶貴的資訊。AI/機器學習的興起應會使得留存這類資料變得更有價值,對儲存裝置的需求也會隨之成長。

這類訓練資料會儲存在 AI 資料湖中。這類資料湖會展現出高於一般存取密度的特性,以滿足每叢集 GPU 數量不斷增加的需求,同時支援大量的資料提取和預處理混合操作。此外,還需要對資料進行大量的重新訓練,因此往往很少會有「冷」資料。這種工作負載特性更加適合使用大容量的省電型 SSD,較不適合使用傳統以 HDD 為主的物件儲存區。這類資料湖可能相當大(達到數百 PB),可用於自動駕駛或深度學習推薦模型等電腦視覺。隨著這類資料湖的容量和數量增長,將會為 NAND 快閃 SSD 帶來極大的成長機會。

隨著 AI 模型逐步發展和擴展,要維持指數級的效能增長,NAND 快閃儲存裝置將變得日益關鍵。