Baidu Kunlun P800 96GB OAM server for large LLM models

Baidu Kunlun P800 OAM (96GB HBM2e) - это предконфигурированный AI сервер на базе 8 ускорителей. Разработан Baidu Intelligent Cloud, позиционируется как решение из коробки для развёртывания LLM моделей DeepSeek R1/V3 (включая полную версию 671B параметров) в приватной инфраструктуре.

Ключевые позиционирования:

• Первый all-in-one сервер в Китае с предустановленным DeepSeek R1/V3 на отечественных чипах;

• 8 карт P800 OAM = 768 GB GPU памяти - достаточно для размещения DeepSeek-671B в FP16 с KV cache;

• Единая платформа управления данными, моделями, обучением и инференсом;

• Встроенные готовые AI приложения (извлечение данных из документов, аудит контрактов, бизнес-анализ).

Технические характеристики Baidu Kunlun P800 96GB OAM

Характеристики ускорителя P800 OAM (одна карта):

Архитектура: XPU-P (Gen 3);

Техпроцесс: 7 нм;

FP16 производительность: ~345 TFLOPS;

INT8 производительность: ~690 TOPS (оценка);

Память: 96 GB HBM2e;

Пропускная способность памяти: ~1.6 ТБ/с (оценка);

Форм-фактор: OAM (OCP Accelerator Module);

TDP: ~350 - 400 Вт;

Интерконнект: Custom high-speed (через OAM backplane).

Серверная конфигурация:

GPU: 8× P800 OAM;

Общая GPU-память: 768 GB HBM2e;

CPU: Dual Intel Xeon Scalable / AMD EPYC;

Системная память: 512 GB - 2 TB DDR5 (зависит от конфигурации);

Хранилище: NVMe SSD (ёмкость зависит от конфигурации);

Сеть: 100GbE / 200GbE / InfiniBand (опционально);

Форм-фактор: 4U - 8U rack-mount;

GPU TDP (суммарный): ~2.8 - 3.2 кВт (только GPU);

Полное энергопотребление сервера: ~4.5 - 5.5 кВт;

Вес: ~80 - 120 кг.

Модификации сервера:

• P800 OAM-версия (основная) - 8× OAM карт в высокоплотном шасси;

• P800 PCIe-версия - 8× PCIe Gen5 карт в стандартном GPU сервере;

• Ascend Atlas 800-версия - аналогичный сервер на Huawei Ascend 910B.

Особенности архитектуры сервера Baidu Kunlun P800 96GB OAM

Архитектура ускорителя P800 OAM

P800 построен на архитектуре XPU-P (3-е поколение) от Kunlunxin. Ключевая особенность - физическое разделение вычислительных (GEMM) и коммуникационных блоков на кристалле:

• Compute и communication выполняются параллельно (overlapping);

• Снижение латентности в GEMM интенсивных операциях: до 40%;

• Поддержка tensor parallelism, pipeline parallelism и data parallelism на аппаратном уровне.

Серверная архитектура OAM-шасси

Высокоплотное GPU-серверное шасси (4U или 8U) с OCP Accelerator Module слотами. OAM версия использует не PCIe, а прямую установку карт в специализированные слоты с высокоскоростными backplane.

Топология interconnect:

• Высокоскоростной interconnect между 8 картами через OAM backplane;

• Dual-socket CPU (Intel Xeon Scalable или AMD EPYC) для управления и предпостобработки;

• NVMe SSD массив для хранения моделей и данных;

• Сетевые интерфейсы: 100GbE / 200GbE / InfiniBand (зависит от конфигурации).

Программный стек сервера

Сервер поставляется с предустановленным стеком:

• PaddlePaddle - основной фреймворк (нативная оптимизация под P800);

• Kunlun SDK - низкоуровневый доступ к чипам;

• vLLM-Kunlun - порт vLLM для инференса LLM (open-source);

• Qianfan Platform - управление полным ML lifecycle (data + model + deploy);

• HAMi - vGPU мультиплексирование для разделения ресурсов OAM карт;

• DeepSeek R1/V3 - предустановленные модели с оптимизированными конфигурациями.

Сравнение сервера Baidu Kunlun P800 96GB OAM с аналогами

Baidu P800 OAM (8 карт): Общая GPU память: 768 GB; Пиковая FP16: ~2.76 PFLOPS; Техпроцесс: 7 нм; TDP (GPU only): ~2.8 - 3.2 кВт; Интерконнект: Custom OAM.

NVIDIA H100 SXM (8 карт): Общая GPU память: 640 GB; Пиковая FP16: ~7.91 PFLOPS; Техпроцесс: 4 нм; TDP (GPU only): ~5.6 кВт; Интерконнект: NVLink 900 ГБ/с.

NVIDIA A100 SXM (8 карт): Общая GPU память: 640 GB; Пиковая FP16: ~2.5 PFLOPS; Техпроцесс: 7 нм; TDP (GPU only): ~3.2 кВт; Интерконнект: NVLink 600 ГБ/с.

Оценка производительности Baidu Kunlun P800 96GB OAM

Инференс DeepSeek-моделей

DeepSeek-R1-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.

DeepSeek-V3-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Llama-70B (Конфигурация: 8× P800 OAM): Пропускная способность – 4 185 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Qwen-32B (Конфигурация: 8× P800 OAM): Пропускная способность – 10 328 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Qwen-14B (Конфигурация: 8× P800 OAM): Пропускная способность – 18 296 токенов/с; Пользователи - 256 concurrent.

Сравнение с конкурентами

Для DeepSeek-R1-671B на 8 GPU:

• P800 OAM (8×): 2 437 токенов/с;

• H100 SXM (8×): ~4 000 - 5 000 токенов/с (оценка по vLLM benchmarks);

• Ascend 910B (8×): ~1 500 - 2 000 токенов/с (оценка по открытым данным Huawei).

Масштабирование на кластер

• Эффективность масштабирования: >90% при 5 000+ чипах (верифицирована на кластере Wanka, данные IEEE Spectrum и Qianfan-VL paper);

• 30 000 чиповый кластер развёрнут в феврале 2025.

Оценка FP16 производительности

• Одна P800: ~345 TFLOPS FP16;

• 8× P800: ~2.76 PFLOPS FP16;

• Для сравнения: 8× A100 = ~2.5 PFLOPS, 8× H100 = ~7.9 PFLOPS.

P800 находится на уровне A100 по пиковой FP16, уступая H100.

Особенности сервера Baidu Kunlun P800 96GB OAM

1. 768 GB GPU памяти в одном сервере - один из самых больших объёмов среди китайских AI серверов. Позволяет разместить DeepSeek-671B в FP16 без агрессивной квантизации.
2. Предустановленный DeepSeek R1/V3 - сервер поставляется с уже настроенными моделями. “Из коробки” готов к работе - критически важно для enterprise без deep MLops команды.
3. Встроенные AI приложения - документ-экстракция, аудит контрактов, бизнес-аналитика (Nara assistant). Не просто инфраструктура, а готовое бизнес-решение.
4. Overlapping compute / communication - уникальная архитектурная особенность P800, снижающая латентность на 40% в сравнении с традиционными GPU.
5. Масштабируемость >90% - верифицированы на кластерах до 30 000 чипов. Для китайского чипмейкера это исключительный показатель.
6. Умеренное энергопотребление - 4.5 - 5.5 кВт для сервера на 8 GPU против ~7 - 8 кВт для аналогичного H100 сервера.
7. Замкнутая экосистема - оптимизирован под PaddlePaddle и Baidu Cloud. PyTorch совместимость есть, но не primary focus.

Под какие задачи можно использовать сервер

Инференс LLM 7B–70B: Пригодность - Отлично; Комментарий - 96 GB на карту - достаточно для 70B в FP16 без шардинга;

Инференс LLM 100B+ (DeepSeek 671B): Пригодность - На 8 карт; Комментарий - 768 GB total - verified Baidu, 2 437 ток/с;

Fine-tuning LLM (LoRA, QLoRA): Пригодность - Да; Комментарий - Подтверждено в Qianfan platform;

Полная тренировка LLM с нуля: Пригодность - Ограниченно; Комментарий - Возможно, но требует кластера (30K карт verified);

RAG / Embedding models: Пригодность - Да; Комментарий - Стандартная inference задача;

Мультимодальные модели (Vision+Language): Пригодность - Да; Комментарий - Qianfan-VL series обучена на P800;

DeepSeek дистилляция: Пригодность - Да; Комментарий - Предустановленный pipeline в Qianfan;

Документ-аналитика, аудит контрактов: Пригодность - Да; Комментарий - Встроенные приложения;

HPC / научные вычисления: Пригодность - Нет; Комментарий - Экосистема не оптимизирована;

Edge deployment: Пригодность - Нет; Комментарий - Только дата центры / частные облака;

Enterprise, которым нужен готовый AI сервер для развёртывания DeepSeek R1/V3 (или собственных LLM на PaddlePaddle) в приватные облака без необходимости собирать инфраструктуру с нуля.

Информация о проведённых тестированиях

Baidu Internal Benchmarks (2025)

• Ernie 5.0 (2.4 трлн параметров) - полный цикл обучения на кластере P800;

• Wanka Cluster (10 000+ GPU) - >90% scaling efficiency;

• 30 000 чиповый кластер - запущен февраль 2025, Baidu Create conference.

Инференс DeepSeek-моделей benchmarks (февраль 2025)

Официальные данные Baidu Intelligent Cloud для восьми карточной конфигурации:

DeepSeek-R1-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.

DeepSeek-V3-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Llama-70B (Конфигурация: 8× P800 OAM): Пропускная способность - 4 185 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Qwen-32B (Конфигурация: 8× P800 OAM): Пропускная способность - 10 328 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Qwen-14B (Конфигурация: 8× P800 OAM): Пропускная способность - 18 296 токенов/с; Пользователи - 256 concurrent.

Qianfan-VL Paper (Dong et al., 19 сентября 2025)

Академическая публикация с описанием тренировки мультимодальных моделей на кластере >5 000 P800. Подтверждена эффективность архитектурного overlapping compute/communication.

Guosen Securities Research (2025)

• Оценка FP16 производительности P800: ~345 TFLOPS;

• Сравнение с NVIDIA A100 и H100;

• Признание P800 конкурентом A100 по пиковой производительности.

vLLM-Kunlun (open-source, 2025–2026)

• Порт vLLM для P800 с поддержкой Tensor/Pipeline Parallelism;

• PagedAttention, continuous batching;

• GitHub репозиторий с документацией.

В каких проектах уже используется

Baidu Ernie 5.0 (Собственная LLM): Масштаб: Полный цикл; Источник: Baidu official;

Qianfan-VL (Qianfan-VL): Масштаб: Обучены на >5 000 P800; Источник: IEEE paper;

Wanka Cluster (Крупнейший кластер на отечественных AI чипах): Масштаб: 10 000+ GPU, более 90% efficiency; Источник: Baidu Create 2025;

30K Cluster (Расширение Wanka cluster): Масштаб: 30 000 чипов, февраль 2025; Источник: Baidu official;

Инференс DeepSeek-моделей (All-in-one сервер для enterprise): Масштаб: 8× P800 OAM per unit; Источник: Baidu Cloud;

China Mobile (Тендер на поставку AI-инфраструктуры): Масштаб: Закупки P800 для облачных AI-сервисов; Август 2025;

Baidu AI Cloud (Qianfan) (Облачная AI-платформа): Масштаб: P800 доступен как облачный сервис; Источник: Baidu Cloud;

vLLM-Kunlun (Open-source порт vLLM): Масштаб: Community driven inference; Источник: GitHub.

Рейтинг сервера

Сырая производительность (GPU) (★★★☆☆) - На уровне A100, далеко до H100;

Объём GPU-памяти (★★★★★) - 768 GB (8×96GB) - лучший показатель среди китайских серверов;

Масштабируемость (★★★★☆) - 90% на 5K+ чипов, верифицировано;

Готовность к использованию (out-of-box) (★★★★★) - Предустановленный DeepSeek, приложения - лучший в классе;

Программный стек (★★☆☆☆) - Замкнутый, привязка к PaddlePaddle/Qianfan;

Экосистема (★★☆☆☆) - vLLM-Kunlun есть, но community малочисленна;

Production readiness (★★★★☆) - Verified на Ernie 5.0, Wanka cluster, 30K cluster;

Энергоэффективность (★★★☆☆) - 7 нм, ~4.5–5.5 кВт на сервер - средний показатель;

Доступность на рынке (★★★☆☆) - Доступен через Baidu Cloud, OEM партнёры;

Цена / производительность (TCO) (★★★★☆) - ~2 - 3× дешевле H100 аналога при сопоставимом объёме памяти.

Общая оценка: 3.2 / 5

Сервер доступен для предзаказа в каталоге Chaitex

• vs NVIDIA DGX A100 (8× A100 80GB): P800 превосходит по объёму памяти (768 vs 640 GB), сопоставим по FP16, дешевле;

• vs NVIDIA DGX H100 (8× H100 80GB): H100 быстрее в 2.5 - 3× по FP16, но дороже и потребляет больше энергии;

• vs Huawei Atlas 800 (8× Ascend 910B): P800 быстрее на DeepSeek инференсе (верифицированные данные), больше памяти, но менее открытая экосистема;

• vs Moore Threads KUAE (8× S5000): S5000 лучше software экосистема (MUSA, CUDA совместимость), но меньше памяти (8×80GB = 640 GB).

Энергопотребление сервера

· 8× P800 OAM GPU ~ 2.8 - 3.2 кВт;

· 2× CPU (Xeon/EPYC) ~0.4 - 0.6 кВт;

· Системная память, SSD, сеть ~0.3 - 0.5 кВт;

· Cooling (вентиляция) ~0.5 - 1.0 кВт.

Сравнение энергоэффективности

P800 OAM сервер (8×): TDP (GPU only): ~2.8 - 3.2 кВт; Полное потребление: ~4.5 - 5.5 кВт; FP16 / сервер ~2.76 PFLOPS; PFLOPS/кВт (GPU) ~0.86 - 0.99; ГБ GPU памяти/кВт ~140 - 170 ГБ/ кВт.

H100 SXM сервер (8×): TDP (GPU only): ~5.6 кВт; Полное потребление ~7 - 8 кВт; FP16 / сервер ~7.9 PFLOPS; PFLOPS/кВт (GPU) ~1.41; ГБ GPU памяти/кВт ~80 ГБ/кВт.

A100 SXM сервер (8×): TDP (GPU only) ~3.2 кВт; Полное потребление ~5 - 6 кВт; FP16 / сервер ~2.5 PFLOPS; PFLOPS/кВт (GPU) ~0.78; ГБ GPU памяти/кВт ~107 ГБ/кВт.

Выводы по энергоэффективности

• PFLOPS/Вт: P800 уступает H100 на ~30%, но превосходит A100 на ~10 - 25%;

• ГБ/Вт: P800 лидирует благодаря 96 GB на карту - критически важно для задач с большими моделями;

• Для российских дата центров: умеренное энергопотребление (4.5 - 5.5 кВт против 7 - 8 кВт у H100) выгодно при ограниченной энергетической инфраструктуре;

• Охлаждение: стандартное воздушное охлаждение достаточно (TDP ~350 - 400 Вт на карту). Жидкостное охлаждение не обязательно, но рекомендуется для dense rack-размещения.

Выводы и заключения

Baidu Kunlun P800 96GB OAM - это не универсальный GPU сервер, а специализированное AI решение с уникальными преимуществами для конкретного класса задач.

Главные преимущества

Объём памяти. 768 GB GPU памяти в одном сервере - один из лучших показателей на рынке (включая NVIDIA).

Out-of-box готовность. Предустановленный DeepSeek R1/V3, Qianfan platform, встроенные AI приложения.

Масштабируемость. более 90% scaling efficiency на кластерах 5 000 - 30 000 чипов.

Архитектурное решение overlapping. Физическое разделение compute/communication - реальная инженерная инновация.

Для российского рынка

P800 OAM сервер - нишевое, но ценное решение для:

• Компаний, которым нужен готовый сервер для DeepSeek/ERNIE без сборки инфраструктуры с нуля;

• Задач с крупными LLM (70B+), где объём памяти критичен;

• Проектов, готовых работать с PaddlePaddle/Qianfan ecosystem;

• Диверсификации поставок (альтернатива Huawei Ascend / Moore Threads).

P800 OAM сервер - сильный игрок в нише ready-to-run LLM inference для крупных моделей. Его 768 GB памяти и out-of-box DeepSeek делают его уникальным предложением. Но универсальным он не является - выбор в его пользу это выбор в пользу памяти и готовности, а не гибкости.

Baidu Kunlun P800 96GB OAM сервер для крупных LLM моделей