Chaitex
Chaitex
Baidu Kunlun P800 96GB OAM сервер для крупных LLM моделей
Back to Blog

Baidu Kunlun P800 96GB OAM сервер для крупных LLM моделей

May 19, 2026

Qianfan DeepSeek All-in-One - это предконфигурированный AI-сервер на базе 8 ускорителей Baidu Kunlun P800 OAM (96GB HBM2e). Разработан Baidu Intelligent Cloud, позиционируется как решение из коробки для развёртывания LLM-моделей DeepSeek R1/V3 (включая полную версию 671B параметров) в приватной инфраструктуре.

Ключевые позиционирования:

• Первый all-in-one сервер в Китае с предустановленным DeepSeek R1/V3 на отечественных чипах;

• 8 карт P800 OAM = 768 GB GPU-памяти - достаточно для размещения DeepSeek-671B в FP16 с KV-cache;

• Единая платформа управления данными, моделями, обучением и инференсом

• Встроенные готовые AI-приложения (извлечение данных из документов, аудит контрактов, бизнес-анализ).

Технические характеристики Baidu Kunlun P800 96GB OAM

Характеристики ускорителя P800 OAM (одна карта):

Архитектура: XPU-P (Gen 3);

Техпроцесс: 7 нм;

FP16 производительность: ~345 TFLOPS;

INT8 производительность: ~690 TOPS (оценка);

Память: 96 GB HBM2e;

Пропускная способность памяти: ~1.6 ТБ/с (оценка);

Форм-фактор: OAM (OCP Accelerator Module);

TDP: ~350–400 Вт;

Интерконнект: Custom high-speed (через OAM backplane).

Серверная конфигурация:

GPU: 8× P800 OAM;

Общая GPU-память: 768 GB HBM2e;

CPU: Dual Intel Xeon Scalable / AMD EPYC;

Системная память: 512 GB–2 TB DDR5 (зависит от конфигурации);

Хранилище: NVMe SSD (ёмкость зависит от конфигурации);

Сеть: 100GbE / 200GbE / InfiniBand (опционально);

Форм-фактор: 4U - 8U rack-mount;

GPU TDP (суммарный): ~2.8–3.2 кВт (только GPU);

Полное энергопотребление сервера: ~4.5–5.5 кВт;

Вес: ~80–120 кг.

Модификации сервера:

P800 OAM-версия (основная) - 8× OAM-карт в высокоплотном шасси;

P800 PCIe-версия - 8× PCIe Gen5 карт в стандартном GPU-сервере;

Ascend Atlas 800-версия - аналогичный сервер на Huawei Ascend 910B;

 

Особенности архитектуры сервера Baidu Kunlun P800 96GB OAM

Архитектура ускорителя P800 OAM

P800 построен на архитектуре XPU-P (3-е поколение) от Kunlunxin. Ключевая особенность - физическое разделение вычислительных (GEMM) и коммуникационных блоков на кристалле:

• Compute и communication выполняются параллельно (overlapping);

• Снижение латентности в GEMM-интенсивных операциях: до 40%;

• Поддержка tensor parallelism, pipeline parallelism и data parallelism на аппаратном уровне.

Серверная архитектура OAM-шасси

Высокоплотное GPU-серверное шасси (4U или 8U) с OCP Accelerator Module слотами. OAM-версия использует не PCIe, а прямую установку карт в специализированные слоты с высокоскоростными backplane.

Топология interconnect:

• Высокоскоростной interconnect между 8 картами через OAM backplane;

• Dual-socket CPU (Intel Xeon Scalable или AMD EPYC) для управления и предпостобработки;

• NVMe SSD-массив для хранения моделей и данных;

• Сетевые интерфейсы: 100GbE / 200GbE / InfiniBand (зависит от конфигурации).

Программный стек сервера

Сервер поставляется с предустановленным стеком:

PaddlePaddle - основной фреймворк (нативная оптимизация под P800);

Kunlun SDK - низкоуровневый доступ к чипам;

vLLM-Kunlun - порт vLLM для инференса LLM (open-source);

Qianfan Platform - управление полным ML lifecycle (data + model + deploy);

• HAMi - vGPU-мультиплексирование для разделения ресурсов OAM-карт;

DeepSeek R1/V3 - предустановленные модели с оптимизированными конфигурациями.

 

Сравнение сервера Baidu Kunlun P800 96GB OAM с аналогами

Baidu P800 OAM (8 карт): Общая GPU-память - 768 GB; Пиковая FP16: ~2.76 PFLOPS; Техпроцесс: 7 нм; TDP (GPU only): ~2.8–3.2 кВт; Интерконнект: Custom OAM.

NVIDIA H100 SXM (8 карт): Общая GPU-память - 640 GB; Пиковая FP16: ~7.91 PFLOPS; Техпроцесс: 4 нм; TDP (GPU only): ~5.6 кВт; Интерконнект: NVLink 900 ГБ/с.

NVIDIA A100 SXM (8 карт): Общая GPU-память - 640 GB; Пиковая FP16: ~2.5 PFLOPS; Техпроцесс: 7 нм; TDP (GPU only): ~3.2 кВт; Интерконнект: NVLink 600 ГБ/с.

Оценка производительности Baidu Kunlun P800 96GB OAM

Инференс DeepSeek-моделей

DeepSeek-R1-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.

DeepSeek-V3-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Llama-70B (Конфигурация: 8× P800 OAM): Пропускная способность – 4 185 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Qwen-32B (Конфигурация: 8× P800 OAM): Пропускная способность – 10 328 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Qwen-14B (Конфигурация: 8× P800 OAM): Пропускная способность – 18 296 токенов/с; Пользователи - 256 concurrent.

Сравнение с конкурентами

Для DeepSeek-R1-671B на 8 GPU:

P800 OAM (8×): 2 437 токенов/с;

H100 SXM (8×): ~4 000 - 5 000 токенов/с (оценка по vLLM benchmarks);

Ascend 910B (8×): ~1 500 - 2 000 токенов/с (оценка по открытым данным Huawei).

Масштабирование на кластер

• Эффективность масштабирования: >90% при 5 000+ чипах (верифицирована на кластере Wanka, данные IEEE Spectrum и Qianfan-VL paper);

• 30 000-чиповый кластер развёрнут в феврале 2025.

Оценка FP16 производительности

• Одна P800: ~345 TFLOPS FP16;

• 8× P800: ~2.76 PFLOPS FP16;

• Для сравнения: 8× A100 = ~2.5 PFLOPS, 8× H100 = ~7.9 PFLOPS.

P800 находится на уровне A100 по пиковой FP16, уступая H100.

 

Особенности сервера Baidu Kunlun P800 96GB OAM

  1. 1. 768 GB GPU-памяти в одном сервере - один из самых больших объёмов среди китайских AI-серверов. Позволяет разместить DeepSeek-671B в FP16 без агрессивной квантизации.

  2. 2. Предустановленный DeepSeek R1/V3 - сервер поставляется с уже настроенными моделями. “Из коробки” готов к работе - критически важно для enterprise без deep MLops команды.

  3. 3. Встроенные AI-приложения - документ-экстракция, аудит контрактов, бизнес-аналитика (Nara assistant). Не просто инфраструктура, а готовое бизнес-решение.

  4. 4. Overlapping compute / communication - уникальная архитектурная особенность P800, снижающая латентность на 40% в сравнении с традиционными GPU.

  5. 5. Масштабируемость >90% - верифицированы на кластерах до 30 000 чипов. Для китайского чипмейкера это исключительный показатель.

  6. 6. Умеренное энергопотребление - 4.5 - 5.5 кВт для сервера на 8 GPU против ~7 - 8 кВт для аналогичного H100-сервера.

  7. 7. Замкнутая экосистема - оптимизирован под PaddlePaddle и Baidu Cloud. PyTorch-совместимость есть, но не primary focus.

 

Под какие задачи можно использовать сервер

Инференс LLM 7B–70B: Пригодность - Отлично; Комментарий - 96 GB на карту - достаточно для 70B в FP16 без шардинга;

Инференс LLM 100B+ (DeepSeek 671B): Пригодность - На 8 карт; Комментарий - 768 GB total - verified Baidu, 2 437 ток/с;

Fine-tuning LLM (LoRA, QLoRA): Пригодность - Да; Комментарий - Подтверждено в Qianfan platform;

Полная тренировка LLM с нуля: Пригодность - Ограниченно; Комментарий - Возможно, но требует кластера (30K карт verified);

RAG / Embedding models: Пригодность - Да; Комментарий - Стандартная inference-задача;

Мультимодальные модели (Vision+Language): Пригодность - Да; Комментарий - Qianfan-VL series обучена на P800;

DeepSeek дистилляция: Пригодность - Да; Комментарий - Предустановленный pipeline в Qianfan;

Документ-аналитика, аудит контрактов: Пригодность - Да; Комментарий - Встроенные приложения;

HPC / научные вычисления: Пригодность - Нет; Комментарий - Экосистема не оптимизирована;

Edge deployment: Пригодность - Нет; Комментарий - Только дата цертры / частные облака;

Enterprise, которым нужен готовый AI-сервер для развёртывания DeepSeek R1/V3 (или собственных LLM на PaddlePaddle) в private cloud без необходимости собирать инфраструктуру с нуля.

 

Информация о проведённых тестированиях

Baidu Internal Benchmarks (2025)

Ernie 5.0 (2.4 трлн параметров) - полный цикл обучения на кластере P800;

Wanka Cluster (10 000+ GPU) -  >90% scaling efficiency;

30 000-чиповый кластер - запущен февраль 2025, Baidu Create conference

Инференс DeepSeek-моделей benchmarks (февраль 2025)

Официальные данные Baidu Intelligent Cloud для 8-карточной конфигурации:

DeepSeek-R1-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.

DeepSeek-V3-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Llama-70B (Конфигурация: 8× P800 OAM): Пропускная способность – 4 185 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Qwen-32B (Конфигурация: 8× P800 OAM): Пропускная способность – 10 328 токенов/с; Пользователи - 256 concurrent.

DeepSeek-R1-Distill-Qwen-14B (Конфигурация: 8× P800 OAM): Пропускная способность – 18 296 токенов/с; Пользователи - 256 concurrent.

Qianfan-VL Paper (Dong et al., 19 сентября 2025)

Академическая публикация с описанием тренировки мультимодальных моделей на кластере >5 000 P800. Подтверждена эффективность архитектурного overlapping compute/communication.

Guosen Securities Research (2025)

• Оценка FP16 производительности P800: ~345 TFLOPS;

• Сравнение с NVIDIA A100 и H100;

• Признание P800 конкурентом A100 по пиковой производительности.

vLLM-Kunlun (open-source, 2025–2026)

• Порт vLLM для P800 с поддержкой Tensor/Pipeline Parallelism;

• PagedAttention, continuous batching;

• GitHub-репозиторий с документацией.

 

В каких проектах уже используется

Baidu Ernie 5.0 (Собственная LLM): Масштаб: Полный цикл; Источник: Baidu official;

Qianfan-VL (Qianfan-VL): Масштаб: Обучены на >5 000 P800; Источник: IEEE paper;

Wanka Cluster (Крупнейший кластер на отечественных AI-чипах): Масштаб: 10 000+ GPU, >90% efficiency; Источник: Baidu Create 2025;

30K Cluster (Расширение Wanka cluster): Масштаб: 30 000 чипов, февраль 2025; Источник: Baidu official;

Инференс DeepSeek-моделей (All-in-one сервер для enterprise): Масштаб: 8× P800 OAM per unit; Источник: Baidu Cloud;

China Mobile (Тендер на поставку AI-инфраструктуры): Масштаб: Закупки P800 для облачных AI-сервисов; Август 2025;

Baidu AI Cloud (Qianfan) (Облачная AI-платформа): Масштаб: P800 доступен как cloud-сервис; Источник: Baidu Cloud;

vLLM-Kunlun (Open-source порт vLLM): Масштаб: Community-driven inference; Источник: GitHub.

Рейтинг сервера

Сырая производительность (GPU) (★★★☆☆) - На уровне A100, далеко до H100;

Объём GPU-памяти (★★★★★) - 768 GB (8×96GB) - лучший показатель среди китайских серверов;

Масштабируемость (★★★★☆) - 90% на 5K+ чипов, verified;

Готовность к использованию (out-of-box) (★★★★★) - Предустановленный DeepSeek, приложения - лучший в классе;

Программный стек (★★☆☆☆) - Замкнутый, привязка к PaddlePaddle/Qianfan;

Экосистема (★★☆☆☆) - vLLM-Kunlun есть, но community малочисленна;

Production readiness (★★★★☆) - Verified на Ernie 5.0, Wanka cluster, 30K cluster;

Энергоэффективность (★★★☆☆) - 7 нм, ~4.5–5.5 кВт на сервер - средний показатель;

Доступность на рынке (★★★☆☆) - Доступен через Baidu Cloud, OEM-партнёры;

Цена / производительность (TCO) (★★★★☆) - ~2 - 3× дешевле H100-аналога при сопоставимом объёме памяти.

 Общая оценка: 3.2 / 5

 

• vs NVIDIA DGX A100 (8× A100 80GB): P800 превосходит по объёму памяти (768 vs 640 GB), сопоставим по FP16, дешевле;

vs NVIDIA DGX H100 (8× H100 80GB): H100 быстрее в 2.5–3× по FP16, но дороже и потребляет больше энергии;

vs Huawei Atlas 800 (8× Ascend 910B): P800 быстрее на DeepSeek-инференсе (verified данные), больше памяти, но менее открытая экосистема;

vs Moore Threads KUAE (8× S5000): S5000 лучше software-экосистема (MUSA, CUDA-совместимость), но меньше памяти (8×80GB = 640 GB).

Энергопотребление сервера

· 8× P800 OAM GPU ~ 2.8 - 3.2 кВт;

· 2× CPU (Xeon/EPYC) ~0.4 - 0.6 кВт;

· Системная память, SSD, сеть ~0.3 - 0.5 кВт;

· Cooling (вентиляция) ~0.5 - 1.0 кВт.

Сравнение энергоэффективности

P800 OAM сервер (8×): TDP (GPU only) ~2.8–3.2 кВт; Полное потребление ~4.5–5.5 кВт; FP16 / сервер ~2.76 PFLOPS; PFLOPS/кВт (GPU) ~0.86–0.99; ГБ GPU-памяти/кВт ~140–170 ГБ/ кВт.

H100 SXM сервер (8×): TDP (GPU only) ~5.6 кВт; Полное потребление ~7–8 кВт; FP16 / сервер ~7.9 PFLOPS; PFLOPS/кВт (GPU) ~1.41; ГБ GPU-памяти/кВт ~80 ГБ/кВт.

A100 SXM сервер (8×): TDP (GPU only) ~3.2 кВт; Полное потребление ~5 - 6 кВт; FP16 / сервер ~2.5 PFLOPS; PFLOPS/кВт (GPU) ~0.78; ГБ GPU-памяти/кВт ~107 ГБ/кВт.

Выводы по энергоэффективности

PFLOPS/Вт: P800 уступает H100 на ~30%, но превосходит A100 на ~10–25%;

ГБ/Вт: P800 лидирует благодаря 96 GB на карту - критически важно для задач с большими моделями;

Для российских дата-центров: умеренное энергопотребление (4.5 - 5.5 кВт против 7 - 8 кВт у H100) выгодно при ограниченной энергетической инфраструктуре

Охлаждение: стандартное воздушное охлаждение достаточно (TDP ~350 - 400 Вт на карту). Жидкостное охлаждение не обязательно, но рекомендуется для dense rack-размещения.

 

Выводы и заключения

Baidu Kunlun P800 96GB OAM - это не универсальный GPU-сервер, а специализированное AI-решение с уникальными преимуществами для конкретного класса задач.

Главные преимущества

Объём памяти. 768 GB GPU-памяти в одном сервере - один из лучших показателей на рынке (включая NVIDIA).

Out-of-box готовность. Предустановленный DeepSeek R1/V3, Qianfan platform, встроенные AI-приложения.

Масштабируемость. >90% scaling efficiency на кластерах 5 000 - 30 000 чипов.

Архитектурное решение overlapping. Физическое разделение compute/communication - реальная инженерная инновация.

Для российского рынка

P800 OAM-сервер - нишевое, но ценное решение для:

• Компаний, которым нужен готовый сервер для DeepSeek/ERNIE без сборки инфраструктуры с нуля;

• Задач с крупными LLM (70B+), где объём памяти критичен;

• Проектов, готовых работать с PaddlePaddle/Qianfan ecosystem;

• Диверсификации поставок (альтернатива Huawei Ascend / Moore Threads).

P800 OAM-сервер - сильный игрок в нише «ready-to-run LLM inference для крупных моделей». Его 768 GB памяти и out-of-box DeepSeek делают его уникальным предложением. Но универсальным он не является - выбор в его пользу это выбор в пользу памяти и готовности, а не гибкости.