存儲"黑科技"之IBM CAS：單機承載千億級向量數據庫，打破 "1% 數據困局"，實現企業級 RAG 規模化

IBM China

2026-05-19 11:00 2341

作者：金鑫，IBM中國區存儲業務銷售總經理

北京2026年5月19日 /美通社/ -- 最近，IBM研究院與英偉達（NVIDIA）、三星共同展示了一項內容感知存儲系統（content awareness storage）^[1]。該系統在單臺服務器上成功支持千億級別向量的存儲與檢索，平均查詢延遲為694毫秒，召回精度達90%。系統硬件組合為IBM Storage Scale System 6000全閃存設備、六顆英偉達H200 GPU以及48塊三星30.72TB容量的PCIe Gen5 NVMe固態硬盤。IBM Storage Scale System 6000 全閃存設備將計算與存儲解耦，并通過英偉達 H200 GPU 加速索引重建，將原本基于 CPU 需耗時數小時的索引構建過程，縮短至 GPU 上的數分鐘。

打破 “1% 數據困局”，讓 AI 走向數據

我們一起來看看IBM是如何用單機實現了現在大集群才能實現的結果。

今天，大模型版本平均數天便迎來一次更新，RAG（檢索增強生成）已成為挖掘非結構化數據價值的核心。企業 CIO 普遍面臨核心課題：如何借助通用人工智能（AI）與 AI 智能體實現日常運營提效？如何依托現有 IT 資源輸出精準、高價值的業務決策？

高質量 AI 應答的核心前提，是模型可高效觸達原始可信數據，而檢索增強生成（RAG）正是優化推理效果、提升應答準確性與時效性的關鍵技術。然而，當向量數據量激增至數十億級別時，CIO們面臨到了傳統全內存向量索引方案的容量與成本困境。飛漲的DRAM價格、不穩定的貨期和數據在CPU與存儲間頻繁搬運造成的"內存墻"與"IO墻"瓶頸，正嚴重制約著AI應用的規模化落地，企業在落地過程中普遍遭遇四大痛點：

非結構化數據類型繁雜，僅1% 數據能被 AI 有效利用并創造價值；
數據失真與模型幻覺為企業帶來合規與決策風險；
RAG 流程引發多副本冗余、數據反復傳輸，成本居高不下；
面向 PB 級海量數據時，傳統架構性能瓶頸凸顯，難以規模化落地。

打破 "1% 數據困局"，讓 AI 走向數據

當下企業被海量非結構化數據包圍，PDF、郵件、音視頻、演示文稿、財務報表等數據持續增長，但能被大模型調用并產生價值的占比不足 1%。

RAG 技術通過數據向量化、優化批量刷新周期、依托 GPU 集群實現分布式處理，可打破數據訪問限制，讓 AI 覆蓋更廣泛的數據來源。而 IBM Storage Scale 的核心突破，在于摒棄 "數據遷移至 AI" 的傳統模式，實現 "AI 走向數據" 的全新范式。簡單的說，就是CAS技術直接在存儲層做文檔的提取和向量化（甚至集成了NVIDIA的微服務）實現了讓 AI 走向數據，即讓 AI 快速定位合規、潔凈的可用數據，從源頭降低模型幻覺風險，這一能力依托 IBM CAS 內容感知存儲（Content-Aware Storage）技術實現。

AI 存儲新范式：CAS 將向量處理下沉至存儲層

CAS 的顛覆性創新，是讓存儲系統從被動 "數據倉庫" 轉變為主動 "AI 參與單元"—— 存儲不再僅保存數據，而是對數據項進行量化理解，將原本由向量數據庫承擔的文檔向量化流程，從應用層直接下沉至存儲層。

IBM CAS

通俗來講，傳統 RAG 需先將數據從存儲取出，在外部完成向量化后導入向量數據庫；而 CAS 可在存儲系統內部完成全流程處理，數據無需遷移、無需拷貝。

該技術源于 IBM 研究院在自然語言處理、向量嵌入模型、硬件加速領域的長期技術積累。文檔數據提取流程深度整合基于 NVIDIA NIM 構建的 NVIDIA NeMo Retriever 微服務（隸屬于 NVIDIA AI Enterprise），確保 AI 助手與 AI Agent 基于最新、最相關的上下文應答，簡化 RAG 運維、提升 AI 應用業務價值。

IBM Storage Scale（原 GPFS）為企業構建全局統一數據平臺，在多站點、多云、數據中心與邊緣環境間打造單一命名空間，兼容第三方存儲，打破數據孤島，實現全域數據統一訪問。CAS 作為 Storage Scale 的全新 AI 增強能力，助力企業從現有數據資產中挖掘更大價值，顯著提升 RAG 準確性、減少模型幻覺，讓 AI 模型無需重新訓練即可同步最新數據，適配科研、客戶服務、知識型應用等企業級場景。

企業級 RAG 規模化：打破性能瓶頸，加碼安全合規

市面主流向量數據庫支撐百億級向量，通常需要數十乃至上百臺服務器，節點規模擴張后，分布式索引同步、故障恢復、擴容遷移等問題頻發，運維與成本壓力巨大。

IBM Storage Scale System

IBM Storage Scale 存儲方案實現單服務器承載 1000 億向量，按企業典型文檔場景測算，可全面覆蓋 PB 級至數十 PB 級非結構化數據，為企業 CIO 帶來四大核心價值：

基礎設施成本指數級下降：無需部署數十乃至上百臺向量數據庫服務器；
運維復雜度大幅降低：單一存儲集群即可支撐全流程 RAG 需求；
企業級實時性保障：端到端延遲低至694 毫秒，滿足核心業務實時要求；
數據安全能力強化：繼承原始數據源權限管控體系，聊天機器人應答等衍生數據統一遵循安全策略。

底層核心優勢：數據就地處理、無需遷移，檢索與計算在數據存儲位置直接完成，天然契合數據合規與安全管控要求。

單服務器承載千億向量的技術底氣:核心依托IBM Storage Scale System 6000 全閃存存儲一體機：單節點配置 48 塊 NVMe 盤，搭載 PCIe Gen5 與 400Gb InfiniBand 高速互聯，結合 NVIDIA GPUDirect Storage 技術，實現 GPU 直接訪問 SSD 數據，跳過 CPU 數據搬運環節。

系統將超大規模索引拆分為多個獨立子索引，各子索引可獨立優化、獨立重建、互不干擾，徹底解決傳統向量數據庫 "牽一發而動全身" 的重構痛點。

實測數據對比：純 CPU 環境下，千億級向量索引重建需 120 天；搭載 6 塊 NVIDIA H200 GPU 的 IBM Storage Scale System 6000，僅需4 天即可完成。

結語

人工智能時代，存儲的角色被重新定義。IBM 給出明確答案：存儲不應成為 AI 瓶頸，而應是 AI 基礎設施的核心加速器。

本次方案提供純軟件版與一體機版兩種交付形態，全面兼容 RHEL AI 開源數據流水線，深度集成 NVIDIA AI Data Platform，是可直接落地生產環境的企業級解決方案。

以 IBM Storage Scale 為核心的 AI 存儲方案，正在讓 PB 級企業 RAG 從技術構想變為現實。RAG 的規模上限，不再受限于向量數量與存儲性能，而取決于企業可觸達、可利用的數據邊界。

[1] IBM Introduces Content-Aware-Storage for RAG Workloads, Storage review, April 22, 2026. https://www.storagereview.com/news/ibm-introduces-content-aware-storage-for-rag-workloads