01 / DPO ENGINE

Rack-level control layer that forecasts GPU load ahead of the transient and computes setpoints for the power shelf. Runs as a software process alongside the workload scheduler.

介面

  • Redfish API — 遙測收集
  • PMBus — 電源架控制
  • OCP ORv3 PMI — 機架協調

目標:OCP 認證 2027 Q4

02 / DPO GATEWAY

Rack-mounted hardware node that coordinates BBU discharge and PSU output inside the ORv3 power shelf. Designed as a pin-compatible replacement for the PMI module.

介面

  • OCP ORv3 PMI 相容外形
  • SMBus + PMBus 控制
  • 即時 BBU + PSU 協調

目標:UL 安全認證 2027 Q4

控制迴路

DPO 如何響應

DPO Control-Loop Sequence
階段 1 機架 · PSU · BBU 透過 Redfish + PMBus 收集遙測
階段 2 DPO Engine 計算瞬變預測——確定設定點
階段 3 DPO Gateway 向 BBU + PSU 發出設定點
階段 4 電網介面 電網看到整形後的合規負載曲線
持續 DPO Engine 持續記錄合規遙測

架構

預測,協調,合規。

DPO 位於資料中心 EMS 和 ORv3 機架之間。下圖展示 DPO Gateway 規格——XMight 對 OCP Rack & Power 的開放貢獻——以及我們商業 DPO 所實作的閉環架構。

DATA CENTER EMSFleet scheduler · workload orchestratorPOWER GRIDDemand · capacity · frequency schedulerDPO ENGINE — CONTROL PLANEML-driven rack-level power predictionVRT POLICYVoltage ride-through envelope enforcementPFAPR RECOVERY CONTROLPost-fault active power recovery slopeCONTROL PLANEDPO GATEWAY — SHELF PMI EXTENDRack-mounted power orchestration moduleVRT EDGE POLICYLocal VRT enforcementBBU/PSU ORCHESTRATORDischarge + output shapingRACK POWER PREDICTIONSub-ms transient forecastTELEMETRY AGGREGATORFleet data collectionAC INPUTGrid powerORv3 RACKACPOWER SHELFAC → DC conversionDPO48V DC48V DC BUSBBU SHELFStandard backupCharge ⇄ dischargeDPOBBU — VRT/FRT/PFAPRGrid compliance eventsCharge ⇄ dischargeDPOAI SERVER ×6+GPU compute load
DPO Gateway 規格 — XMight 對 OCP Rack & Power 的開放貢獻
關鍵數字

傳統 ORv3 機架電力為瞬變緩衝預留 20–30% headroom — 這代表算力被永久封印。DPO 透過毫秒層級預測 + 協調式 BBU 放電,把預留 headroom 壓到 5–10%。Throttling 並非消除,而是變得更小、更精準、更連續。

資料來源: ORv3 Base Specification headroom reservation values; DPO target band based on closed-loop simulation across reference workload mixes.

電壓事件響應

ORv3 機架在電壓事件下的反應 — 有無 DPO 對照。

兩個電壓事件情境,每張四條 trace。左欄:傳統 ORv3 機架電力。右欄:同情境,DPO 協調 BBU 放電與 PSU 輸出。

沒有 DPO
有 DPO
Scenario 1 — 0.5 p.u. sag over 500 ms · Without DPONOGRR 282 VRT ENVELOPE · FAILS BOTH VRT AND PFAPR100%50%0%Vac (p.u.)100%0%PSU pwr100%0%BBU pwr100%0%48V busbar0 mssag begins≈3 msPFC trips500 msAC recovers2,500 msPFAPR limitPFAPR 2 s — FAILPFC trips → grid seesload disconnectPSU dead — restart 6–17 s≫ PFAPR 2 s budget
Scenario 1 — 0.5 p.u. sag over 500 ms · With DPODPO MEETS NOGRR 282 VRT + PFAPR100%50%0%Vac (p.u.)100%0%PSU pwr100%0%BBU pwr100%0%48V busbar0 mssag begins3–27 msDPO triggers BBU500 msAC recovers2,500 msPFAPR limitPFAPR 2 s — PASSDPO predicts → BBUdischarges → busbar heldCoordinated PSU rampmeets PFAPR recovery slope
Scenario 3 — 0.35 p.u. full AC loss · Without DPONO KEEP-ALIVE · PSU CONTROLLER DIES100%35%0%Vac (p.u.)100%0%PSU pwr100%0%BBU pwr100%0%48V busbar0 msAC fully lost≈3 msPFC trips150 msAC returns2,150 msPFAPR limitPFAPR 2 s — FAILPFC trips + controllerloses powerCold-boot 0–15 s delay≫ PFAPR 2 s — fails 5–17×
Scenario 3 — 0.35 p.u. full AC loss · With DPODPO KEEP-ALIVE · CONTROLLER SURVIVES OUTAGE100%35%0%Vac (p.u.)100%0%PSU pwr100%0%BBU pwr100%0%48V busbar0 msAC fully lost3–22 msDPO sustains busbar150 msAC returns2,150 msPFAPR limitPFAPR 2 s — PASSDPO + BBU keep busbar alivecontroller stays onlineCoordinated recoverywithin PFAPR 2 s budget

沒有 DPO 時,PFC 在毫秒內跳脫、PSU 重啟需 6–17 秒——遠超 PFAPR 2 秒預算。有 DPO 時,Engine 預測瞬變、Gateway 協調 BBU 放電以維持 48V 匯流排、PSU 沿著符合 PFAPR 的斜率恢復。同樣硬體,軟體定義的控制平面。

電力流程

從 GPU 瞬變到電網可見負載。

DPO 在瞬變傳播到電網耦合點之前進行攔截。

GPU 運算
AI 工作負載開始推論或訓練步驟——GPU 功耗在毫秒內激增。
DPO Engine
Engine 透過 Redfish + PMBus 偵測遙測差值,運行 MTL 預測,計算電源架設定點——在瞬變到達 PSU 之前。
DPO Gateway
Gateway 同時向 BBU 和 PSU 發出設定點——整形機架電網連接點的總需求。
電網介面
電網看到整形的、可預測的負載曲線——在 ERCOT NOGRR 282 的 PFAPR 合規所需的包絡內。

產業分析

閉環控制必須解決的四個缺口。

Mapped against current OCP ORv3 specifications. Each gap belongs to a different leaf-spec owner — none can be closed by a single vendor or a single spec change. DPO addresses all four at rack level.

VRT 缺口
01

PSU PFC 低電壓行為

ORv3 PSU 工作於 180–305 V AC;規格允許在 180–198 V 之間降額。低於 180 V(~0.75 p.u.)時,PFC 在約 20 ms 內關斷,具有 20 ms 保持時間。NOGRR 282 §2.14 要求穿越至 0 p.u.。

PFAPR 缺口
02

PSU 控制器開機延遲

AC 跌落時 PSU 控制器斷電;重啟冷開機引入 0–15 秒的隨機延遲用於湧浪電流交錯。PFAPR 預算為 1 秒——當前行為失敗 5–17 倍。

協調跌落缺口
03

BBU 觸發條件

BBU Module 1.4 §4.5 規定在母線 < 48.5 V 持續 2 ms 時觸發放電。這涵蓋完全 AC 失電,但不提供協調的電壓跌落支持。

PMI 缺口
04

PMI 介面範圍

PMI Specification 1.0 §2 僅定義透傳監控。目前未定義寫入命令,也未定義開放的機架層級讀寫協調路徑。

DPO Engine + DPO Gateway 旨在機架層級解決所有四個缺口,無需元件供應商協調。

OCP 整合

DPO Gateway 符合 OCP ORv3 PMI 規格。

We identified 12 modifications required across 7 OCP spec documents for ERCOT compliance — the gap between ORv3's current disconnect-on-fault behavior and grid ride-through requirements. DPO Gateway extends PMI Specification 1.0 to enable dynamic power orchestration at the shelf level.

規格 版本 ERCOT 要求 狀態
Open Rack V3 Base 1.0
VRTFRT
Gap identified
Power Shelf 1.0
VRTPFAPR
Gap identified
48V PSU 1.0
VRTPFAPRFRT
Gap identified
PMI 1.0
VRTPFAPR
DPO extends
BBU Shelf 1.1
VRTPFAPR
Gap identified
BBU Module 1.4
VRTPFAPR
Gap identified
Modbus Register Map 0.73
PFAPR
Under review
我們對 OCP 的貢獻

The Active BBU: Dynamic Power Orchestration for Stable and Efficient ORv3 AI Racks

於 OCP Global Summit 2025 發表

本論文描述了 Active BBU 架構——DPO 的技術基礎——及其在實現 PFAPR 合規同時回收傳統上為瞬態緩衝保留的計算餘量方面的作用。