Baidu Kunlun P800 96GB OAM сервер для крупных LLM моделей
19 мая 2026 г.
Qianfan DeepSeek All-in-One - это предконфигурированный AI-сервер на базе 8 ускорителей Baidu Kunlun P800 OAM (96GB HBM2e). Разработан Baidu Intelligent Cloud, позиционируется как решение из коробки для развёртывания LLM-моделей DeepSeek R1/V3 (включая полную версию 671B параметров) в приватной инфраструктуре.
Ключевые позиционирования:
• Первый all-in-one сервер в Китае с предустановленным DeepSeek R1/V3 на отечественных чипах;
• 8 карт P800 OAM = 768 GB GPU-памяти - достаточно для размещения DeepSeek-671B в FP16 с KV-cache;
• Единая платформа управления данными, моделями, обучением и инференсом
• Встроенные готовые AI-приложения (извлечение данных из документов, аудит контрактов, бизнес-анализ).
Технические характеристики Baidu Kunlun P800 96GB OAM
Характеристики ускорителя P800 OAM (одна карта):
Архитектура: XPU-P (Gen 3);
Техпроцесс: 7 нм;
FP16 производительность: ~345 TFLOPS;
INT8 производительность: ~690 TOPS (оценка);
Память: 96 GB HBM2e;
Пропускная способность памяти: ~1.6 ТБ/с (оценка);
Форм-фактор: OAM (OCP Accelerator Module);
TDP: ~350–400 Вт;
Интерконнект: Custom high-speed (через OAM backplane).
Серверная конфигурация:
GPU: 8× P800 OAM;
Общая GPU-память: 768 GB HBM2e;
CPU: Dual Intel Xeon Scalable / AMD EPYC;
Системная память: 512 GB–2 TB DDR5 (зависит от конфигурации);
Хранилище: NVMe SSD (ёмкость зависит от конфигурации);
Сеть: 100GbE / 200GbE / InfiniBand (опционально);
Форм-фактор: 4U - 8U rack-mount;
GPU TDP (суммарный): ~2.8–3.2 кВт (только GPU);
Полное энергопотребление сервера: ~4.5–5.5 кВт;
Вес: ~80–120 кг.
Модификации сервера:
• P800 OAM-версия (основная) - 8× OAM-карт в высокоплотном шасси;
• P800 PCIe-версия - 8× PCIe Gen5 карт в стандартном GPU-сервере;
• Ascend Atlas 800-версия - аналогичный сервер на Huawei Ascend 910B;
Особенности архитектуры сервера Baidu Kunlun P800 96GB OAM
Архитектура ускорителя P800 OAM
P800 построен на архитектуре XPU-P (3-е поколение) от Kunlunxin. Ключевая особенность - физическое разделение вычислительных (GEMM) и коммуникационных блоков на кристалле:
• Compute и communication выполняются параллельно (overlapping);
• Снижение латентности в GEMM-интенсивных операциях: до 40%;
• Поддержка tensor parallelism, pipeline parallelism и data parallelism на аппаратном уровне.
Серверная архитектура OAM-шасси
Высокоплотное GPU-серверное шасси (4U или 8U) с OCP Accelerator Module слотами. OAM-версия использует не PCIe, а прямую установку карт в специализированные слоты с высокоскоростными backplane.
Топология interconnect:
• Высокоскоростной interconnect между 8 картами через OAM backplane;
• Dual-socket CPU (Intel Xeon Scalable или AMD EPYC) для управления и предпостобработки;
• NVMe SSD-массив для хранения моделей и данных;
• Сетевые интерфейсы: 100GbE / 200GbE / InfiniBand (зависит от конфигурации).
Программный стек сервера
Сервер поставляется с предустановленным стеком:
• PaddlePaddle - основной фреймворк (нативная оптимизация под P800);
• Kunlun SDK - низкоуровневый доступ к чипам;
• vLLM-Kunlun - порт vLLM для инференса LLM (open-source);
• Qianfan Platform - управление полным ML lifecycle (data + model + deploy);
• HAMi - vGPU-мультиплексирование для разделения ресурсов OAM-карт;
• DeepSeek R1/V3 - предустановленные модели с оптимизированными конфигурациями.
Сравнение сервера Baidu Kunlun P800 96GB OAM с аналогами
Baidu P800 OAM (8 карт): Общая GPU-память - 768 GB; Пиковая FP16: ~2.76 PFLOPS; Техпроцесс: 7 нм; TDP (GPU only): ~2.8–3.2 кВт; Интерконнект: Custom OAM.
NVIDIA H100 SXM (8 карт): Общая GPU-память - 640 GB; Пиковая FP16: ~7.91 PFLOPS; Техпроцесс: 4 нм; TDP (GPU only): ~5.6 кВт; Интерконнект: NVLink 900 ГБ/с.
NVIDIA A100 SXM (8 карт): Общая GPU-память - 640 GB; Пиковая FP16: ~2.5 PFLOPS; Техпроцесс: 7 нм; TDP (GPU only): ~3.2 кВт; Интерконнект: NVLink 600 ГБ/с.
Оценка производительности Baidu Kunlun P800 96GB OAM
Инференс DeepSeek-моделей
DeepSeek-R1-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.
DeepSeek-V3-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.
DeepSeek-R1-Distill-Llama-70B (Конфигурация: 8× P800 OAM): Пропускная способность – 4 185 токенов/с; Пользователи - 256 concurrent.
DeepSeek-R1-Distill-Qwen-32B (Конфигурация: 8× P800 OAM): Пропускная способность – 10 328 токенов/с; Пользователи - 256 concurrent.
DeepSeek-R1-Distill-Qwen-14B (Конфигурация: 8× P800 OAM): Пропускная способность – 18 296 токенов/с; Пользователи - 256 concurrent.
Сравнение с конкурентами
Для DeepSeek-R1-671B на 8 GPU:
• P800 OAM (8×): 2 437 токенов/с;
• H100 SXM (8×): ~4 000 - 5 000 токенов/с (оценка по vLLM benchmarks);
• Ascend 910B (8×): ~1 500 - 2 000 токенов/с (оценка по открытым данным Huawei).
Масштабирование на кластер
• Эффективность масштабирования: >90% при 5 000+ чипах (верифицирована на кластере Wanka, данные IEEE Spectrum и Qianfan-VL paper);
• 30 000-чиповый кластер развёрнут в феврале 2025.
Оценка FP16 производительности
• Одна P800: ~345 TFLOPS FP16;
• 8× P800: ~2.76 PFLOPS FP16;
• Для сравнения: 8× A100 = ~2.5 PFLOPS, 8× H100 = ~7.9 PFLOPS.
P800 находится на уровне A100 по пиковой FP16, уступая H100.
Особенности сервера Baidu Kunlun P800 96GB OAM
1. 768 GB GPU-памяти в одном сервере - один из самых больших объёмов среди китайских AI-серверов. Позволяет разместить DeepSeek-671B в FP16 без агрессивной квантизации.
2. Предустановленный DeepSeek R1/V3 - сервер поставляется с уже настроенными моделями. “Из коробки” готов к работе - критически важно для enterprise без deep MLops команды.
3. Встроенные AI-приложения - документ-экстракция, аудит контрактов, бизнес-аналитика (Nara assistant). Не просто инфраструктура, а готовое бизнес-решение.
4. Overlapping compute / communication - уникальная архитектурная особенность P800, снижающая латентность на 40% в сравнении с традиционными GPU.
5. Масштабируемость >90% - верифицированы на кластерах до 30 000 чипов. Для китайского чипмейкера это исключительный показатель.
6. Умеренное энергопотребление - 4.5 - 5.5 кВт для сервера на 8 GPU против ~7 - 8 кВт для аналогичного H100-сервера.
7. Замкнутая экосистема - оптимизирован под PaddlePaddle и Baidu Cloud. PyTorch-совместимость есть, но не primary focus.
Под какие задачи можно использовать сервер
Инференс LLM 7B–70B: Пригодность - Отлично; Комментарий - 96 GB на карту - достаточно для 70B в FP16 без шардинга;
Инференс LLM 100B+ (DeepSeek 671B): Пригодность - На 8 карт; Комментарий - 768 GB total - verified Baidu, 2 437 ток/с;
Fine-tuning LLM (LoRA, QLoRA): Пригодность - Да; Комментарий - Подтверждено в Qianfan platform;
Полная тренировка LLM с нуля: Пригодность - Ограниченно; Комментарий - Возможно, но требует кластера (30K карт verified);
RAG / Embedding models: Пригодность - Да; Комментарий - Стандартная inference-задача;
Мультимодальные модели (Vision+Language): Пригодность - Да; Комментарий - Qianfan-VL series обучена на P800;
DeepSeek дистилляция: Пригодность - Да; Комментарий - Предустановленный pipeline в Qianfan;
Документ-аналитика, аудит контрактов: Пригодность - Да; Комментарий - Встроенные приложения;
HPC / научные вычисления: Пригодность - Нет; Комментарий - Экосистема не оптимизирована;
Edge deployment: Пригодность - Нет; Комментарий - Только дата цертры / частные облака;
Enterprise, которым нужен готовый AI-сервер для развёртывания DeepSeek R1/V3 (или собственных LLM на PaddlePaddle) в private cloud без необходимости собирать инфраструктуру с нуля.
Информация о проведённых тестированиях
Baidu Internal Benchmarks (2025)
• Ernie 5.0 (2.4 трлн параметров) - полный цикл обучения на кластере P800;
• Wanka Cluster (10 000+ GPU) - >90% scaling efficiency;
• 30 000-чиповый кластер - запущен февраль 2025, Baidu Create conference
Инференс DeepSeek-моделей benchmarks (февраль 2025)
Официальные данные Baidu Intelligent Cloud для 8-карточной конфигурации:
DeepSeek-R1-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.
DeepSeek-V3-671B (Конфигурация: 8× P800 OAM): Пропускная способность - 2 437 токенов/с; Пользователи - 256 concurrent.
DeepSeek-R1-Distill-Llama-70B (Конфигурация: 8× P800 OAM): Пропускная способность – 4 185 токенов/с; Пользователи - 256 concurrent.
DeepSeek-R1-Distill-Qwen-32B (Конфигурация: 8× P800 OAM): Пропускная способность – 10 328 токенов/с; Пользователи - 256 concurrent.
DeepSeek-R1-Distill-Qwen-14B (Конфигурация: 8× P800 OAM): Пропускная способность – 18 296 токенов/с; Пользователи - 256 concurrent.
Qianfan-VL Paper (Dong et al., 19 сентября 2025)
Академическая публикация с описанием тренировки мультимодальных моделей на кластере >5 000 P800. Подтверждена эффективность архитектурного overlapping compute/communication.
Guosen Securities Research (2025)
• Оценка FP16 производительности P800: ~345 TFLOPS;
• Сравнение с NVIDIA A100 и H100;
• Признание P800 конкурентом A100 по пиковой производительности.
vLLM-Kunlun (open-source, 2025–2026)
• Порт vLLM для P800 с поддержкой Tensor/Pipeline Parallelism;
• PagedAttention, continuous batching;
• GitHub-репозиторий с документацией.
В каких проектах уже используется
Baidu Ernie 5.0 (Собственная LLM): Масштаб: Полный цикл; Источник: Baidu official;
Qianfan-VL (Qianfan-VL): Масштаб: Обучены на >5 000 P800; Источник: IEEE paper;
Wanka Cluster (Крупнейший кластер на отечественных AI-чипах): Масштаб: 10 000+ GPU, >90% efficiency; Источник: Baidu Create 2025;
30K Cluster (Расширение Wanka cluster): Масштаб: 30 000 чипов, февраль 2025; Источник: Baidu official;
Инференс DeepSeek-моделей (All-in-one сервер для enterprise): Масштаб: 8× P800 OAM per unit; Источник: Baidu Cloud;
China Mobile (Тендер на поставку AI-инфраструктуры): Масштаб: Закупки P800 для облачных AI-сервисов; Август 2025;
Baidu AI Cloud (Qianfan) (Облачная AI-платформа): Масштаб: P800 доступен как cloud-сервис; Источник: Baidu Cloud;
vLLM-Kunlun (Open-source порт vLLM): Масштаб: Community-driven inference; Источник: GitHub.
Рейтинг сервера
Сырая производительность (GPU) (★★★☆☆) - На уровне A100, далеко до H100;
Объём GPU-памяти (★★★★★) - 768 GB (8×96GB) - лучший показатель среди китайских серверов;
Масштабируемость (★★★★☆) - 90% на 5K+ чипов, verified;
Готовность к использованию (out-of-box) (★★★★★) - Предустановленный DeepSeek, приложения - лучший в классе;
Программный стек (★★☆☆☆) - Замкнутый, привязка к PaddlePaddle/Qianfan;
Экосистема (★★☆☆☆) - vLLM-Kunlun есть, но community малочисленна;
Production readiness (★★★★☆) - Verified на Ernie 5.0, Wanka cluster, 30K cluster;
Энергоэффективность (★★★☆☆) - 7 нм, ~4.5–5.5 кВт на сервер - средний показатель;
Доступность на рынке (★★★☆☆) - Доступен через Baidu Cloud, OEM-партнёры;
Цена / производительность (TCO) (★★★★☆) - ~2 - 3× дешевле H100-аналога при сопоставимом объёме памяти.
Общая оценка: 3.2 / 5
• vs NVIDIA DGX A100 (8× A100 80GB): P800 превосходит по объёму памяти (768 vs 640 GB), сопоставим по FP16, дешевле;
• vs NVIDIA DGX H100 (8× H100 80GB): H100 быстрее в 2.5–3× по FP16, но дороже и потребляет больше энергии;
• vs Huawei Atlas 800 (8× Ascend 910B): P800 быстрее на DeepSeek-инференсе (verified данные), больше памяти, но менее открытая экосистема;
• vs Moore Threads KUAE (8× S5000): S5000 лучше software-экосистема (MUSA, CUDA-совместимость), но меньше памяти (8×80GB = 640 GB).
Энергопотребление сервера
· 8× P800 OAM GPU ~ 2.8 - 3.2 кВт;
· 2× CPU (Xeon/EPYC) ~0.4 - 0.6 кВт;
· Системная память, SSD, сеть ~0.3 - 0.5 кВт;
· Cooling (вентиляция) ~0.5 - 1.0 кВт.
Сравнение энергоэффективности
P800 OAM сервер (8×): TDP (GPU only) ~2.8–3.2 кВт; Полное потребление ~4.5–5.5 кВт; FP16 / сервер ~2.76 PFLOPS; PFLOPS/кВт (GPU) ~0.86–0.99; ГБ GPU-памяти/кВт ~140–170 ГБ/ кВт.
H100 SXM сервер (8×): TDP (GPU only) ~5.6 кВт; Полное потребление ~7–8 кВт; FP16 / сервер ~7.9 PFLOPS; PFLOPS/кВт (GPU) ~1.41; ГБ GPU-памяти/кВт ~80 ГБ/кВт.
A100 SXM сервер (8×): TDP (GPU only) ~3.2 кВт; Полное потребление ~5 - 6 кВт; FP16 / сервер ~2.5 PFLOPS; PFLOPS/кВт (GPU) ~0.78; ГБ GPU-памяти/кВт ~107 ГБ/кВт.
Выводы по энергоэффективности
• PFLOPS/Вт: P800 уступает H100 на ~30%, но превосходит A100 на ~10–25%;
• ГБ/Вт: P800 лидирует благодаря 96 GB на карту - критически важно для задач с большими моделями;
• Для российских дата-центров: умеренное энергопотребление (4.5 - 5.5 кВт против 7 - 8 кВт у H100) выгодно при ограниченной энергетической инфраструктуре
• Охлаждение: стандартное воздушное охлаждение достаточно (TDP ~350 - 400 Вт на карту). Жидкостное охлаждение не обязательно, но рекомендуется для dense rack-размещения.
Выводы и заключения
Baidu Kunlun P800 96GB OAM - это не универсальный GPU-сервер, а специализированное AI-решение с уникальными преимуществами для конкретного класса задач.
Главные преимущества
Объём памяти. 768 GB GPU-памяти в одном сервере - один из лучших показателей на рынке (включая NVIDIA).
Out-of-box готовность. Предустановленный DeepSeek R1/V3, Qianfan platform, встроенные AI-приложения.
Масштабируемость. >90% scaling efficiency на кластерах 5 000 - 30 000 чипов.
Архитектурное решение overlapping. Физическое разделение compute/communication - реальная инженерная инновация.
Для российского рынка
P800 OAM-сервер - нишевое, но ценное решение для:
• Компаний, которым нужен готовый сервер для DeepSeek/ERNIE без сборки инфраструктуры с нуля;
• Задач с крупными LLM (70B+), где объём памяти критичен;
• Проектов, готовых работать с PaddlePaddle/Qianfan ecosystem;
• Диверсификации поставок (альтернатива Huawei Ascend / Moore Threads).
P800 OAM-сервер - сильный игрок в нише «ready-to-run LLM inference для крупных моделей». Его 768 GB памяти и out-of-box DeepSeek делают его уникальным предложением. Но универсальным он не является - выбор в его пользу это выбор в пользу памяти и готовности, а не гибкости.
