Baidu Kunlun P800 96GB OAM, ИИ-ускоритель для корпоративных и облачных дата-центров

Общая информация

Baidu Kunlun P800 (昆仑芯 P800) - AI-ускоритель третьего поколения от Kunlunxin (昆仑芯科技), дочерней компании Baidu. Чип построен на собственной архитектуре XPU-P и позиционируется как конкурент NVIDIA H100/H200 в сегменте обучения и инференса крупных языковых моделей.

Появление Kunlun P800 отражает стратегический курс Китая на достижение независимости в области высокопроизводительных вычислений и искусственного интеллекта, а также на формирование собственной экосистемы для работы с большими данными и LLM. В условиях глобального дефицита и ограничений на поставку западных ускорителей, Kunlun P800 становится ключевым элементом инфраструктуры Baidu Smart Cloud и других крупных китайских дата-центров, обеспечивая локальное развертывание и масштабирование передовых AI-технологий.

Разберемся подробнее в особенностях ускорителя.

История линейки Kunlun

Линейка ИИ-ускорителей Kunlun от Baidu и Kunlunxin прошла несколько этапов развития:

· Kunlun 1 (2020): 14 нм (Samsung), 256 TOPS INT8, 150 Вт - первый чип Baidu для AI;

· Kunlun 2 / XPU-R (2021): 7 нм, 256 TOPS INT8, 128 TFLOPS FP16, 120 Вт;

· Kunlun P800 / XPU-P (2025): 7 нм, ~345 TFLOPS FP16, 96 ГБ HBM2e (OAM-версия), архитектура 3-го поколения;

· Планы: M100 (2026), M300 (2027).

Kunlunxin - одно из немногих подразделений Big Tech в Китае, которое производит AI-чипы собственной разработки. Компания привлекла $2.9 млрд. в последнем раунде финансирования (оценивается в ~¥21 млрд. / $2.9 млрд.) и рассматривает IPO в Гонконге. Внешние клиенты составляют ~40% выручки (China Mobile, крупные интернет-компании).

Форм-факторы:

OAM (OCP Accelerator Module): 96 ГБ HBM2e - версия для плотных серверных развёртываний, высокая пропускная способность памяти, используется в «сверхузлах» и кластерных решениях

PCIe: версия для стандартных серверов - используется в линейке all-in-one решений

Особенности архитектуры

Архитектура XPU-P (P800) выделяется среди китайских GPU принципом разделения вычислительных и коммуникационных блоков на уровне кристалла.

Физическое разделение compute и communication

В отличие от GPU-архитектур NVIDIA, где вычислительные и коммуникационные ресурсы конкурируют за одни и те же шины, P800 физически разделяет:

· Матричные блоки (GEMM units) - выполняют основные операции умножения матриц;

· Коммуникационные блоки - обрабатывают передачу данных и синхронизацию между чипами.

Это позволяет выполнять вычисления и передачу данных одновременно - overlapping коммуникации с вычислениями. Практическое снижение латентности: до 40% в GEMM-интенсивных операциях.

Поддержка параллелизма

· Data Parallelism - распределение данных по чипам;

· Tensor Parallelism - распределение слоёв по чипам (AllReduce, AllGather);

· Pipeline Parallelism - распределение последовательных слоёв;

· MoE (Mixture of Experts) - аппаратная поддержка экспертных архитектур.

Масштабируемость

· Эффективность масштабирования >90% в кластерах более 5 000 чипов (данные EmergentMind / Qianfan-VL paper);

· Поддержка сверхузлов (超节点) - rack-scale кабинеты с высокоскоростным интерконнектом;

· 30 000-чиповый кластер развёрнут Baidu в Wanka cluster, начало работы - февраль 2025).

Программный стек

· PaddlePaddle - фреймворк глубокого обучения от Baidu (основной стек);

· Kunlun SDK - низкоуровневый SDK для работы с чипом;

· vLLM-Kunlun - порт vLLM для инференса LLM на чипах Kunlun (open-source на GitHub);

· Поддержка DeepSeek V3/R1 - нативная поддержка, включая 671B полную версию;

· Qianfan platform - облачная AI-платформа Baidu с интеграцией P800;

· HAMi - поддержка vGPU-мультиплексирования для OAM-версии.

Технические характеристики Baidu Kunlun P800 96GB OAM

Baidu Kunlun P800 96GB OAM: Архитектура: XPU-P (Gen 3); Техпроцесс: 7 нм; FP16 производительность: ~345 TFLOPS; INT8 производительность: ~690 TOPS (оценка); Память: 96 ГБ HBM2e; Пропускная способность памяти: ~1.6 ТБ/с (оценка); Форм-фактор: OAM; TDP (оценка): ~350 - 400 Вт; Интерконнект: Собственный (сверхузел).

Аналоги:

Baidu Kunlun P800 PCIe: Архитектура: XPU-P (Gen 3); Техпроцесс: 7 нм; FP16 производительность: ~345 TFLOPS; INT8 производительность: ~690 TOPS; Память: 32 ГБ HBM2e; Пропускная способность памяти: ~1.2 ТБ/с; Форм-фактор: PCIe Gen5; TDP (оценка): ~250 - 300 Вт; Интерконнект: PCIe.

NVIDIA H100: Архитектура: Hopper; Техпроцесс: 4 нм (TSMC); FP16 производительность: 989.4 TFLOPS*; INT8 производительность: 1978.9 TOPS*; Память: 80 ГБ HBM3; Пропускная способность памяти: 3.35 ТБ/с; Форм-фактор: SXM / PCIe; TDP (оценка): 700 Вт (SXM); Интерконнект: NVLink 900 ГБ/с.

NVIDIA A100 80GB: Архитектура: Ampere; Техпроцесс: 7 нм (TSMC); FP16 производительность: 312 TFLOPS; INT8 производительность: 624 TOPS; Память: 80 ГБ HBM2e; Пропускная способность памяти: 2.0 ТБ/с; Форм-фактор: SXM / PCIe; TDP (оценка): 400 Вт (SXM); Интерконнект: NVLink 600 ГБ/с.

*H100 включает FP8 sparsity

Часть характеристик P800 (пропускная способность памяти, TDP) являются экспертными оценками - Baidu публикует ограниченный набор спецификаций. Точные данные зависят от конкретной конфигурации сервера.

Предварительная оценка производительности Baidu Kunlun P800 96GB OAM

Тренировка P800 96GB OAM:

По данным Guosen Securities и IEEE Spectrum, P800 по FP16 (~345 TFLOPS) находится на уровне NVIDIA A100 80GB (312 TFLOPS FP16) и уступает H100 (989 TFLOPS). Однако для тренировки китайских LLM-моделей этого достаточно - Baidu обучила на P800:

· Ernie 5.0 - модель с 2.4 трлн параметров;

· Qianfan-VL серия - мультимодальные модели на 3B, 8B и 70B параметров (все обучены на P800).,

Инференс P800 96GB OAM:

Модель: DeepSeek-R1-671B (полная версия); Конфигурация P800 OAM - 8 карт; Пропускная способность - 2 437 токен/с.;

Модель: DeepSeek-V3-671B; Конфигурация P800 OAM - 8 карт; Пропускная способность - 2 437 токен/с.;

Модель: DeepSeek-R1-Distill-Llama-70B; Конфигурация P800 OAM - 8 карт; Пропускная способность - 4 185 токен/с;

Модель: DeepSeek-R1-Distill-Qwen-32B; Конфигурация P800 OAM - 8 карт; Пропускная способность - 10 328 токен/с;

Модель: DeepSeek-R1-Distill-Qwen-14B; Конфигурация P800 OAM - 8 карт; Пропускная способность - 18 296 токен/с.

Данные от Baidu Intelligent Cloud. При 256 concurrent users.

96 ГБ HBM на OAM-версии критически важны: 671B модель DeepSeek R1/V3 занимает ~140 ГБ в FP16. 8 карт × 96 ГБ = 768 ГБ - достаточно для полной версии с KV-cache без агрессивной квантизации.

Особенности карты Baidu Kunlun P800 96GB OAM

· 96 ГБ памяти (OAM) - один из самых больших объёмов среди китайских AI-ускорителей;

· Архитектура overlapping compute/communication - уникальное решение, снижающее латентность на 40%;

· >90% scaling efficiency при масштабировании на 5 000+ чипов;

· Гарантированный внутренний спрос - Baidu использует P800 для Ernie;

· Готовые решения - Qianfan DeepSeek, с pre-configured стеком;

· vGPU мультиплексирование через HAMi.

Энергоэффективность

Техпроцесс: 7 нм - одним поколением старше, чем NVIDIA H100 (4 нм TSMC).

Baidu Kunlun P800 96GB OAM: TDP: ~350 - 400 Вт; FP16 / Вт: ~0.86 - 0.99 TFLOPS/Вт; Память / Вт: ~0.24 - 0.27 ГБ/Вт.

В сравнительном анализе ближайшие конкуренты имеют следующие параметры:

· NVIDIA H100 SXM: TDP: 700 Вт; FP16 / Вт: 1.41 TFLOPS/Вт; Память / Вт: 0.11 ГБ/Вт.

· NVIDIA A100 SXM: TDP: 400 Вт; FP16 / Вт: 0.78 TFLOPS/Вт; Память / Вт: 0.20 ГБ/Вт.

Вывод по энергоэффективности:

· P800 OAM потребляет значительно меньше H100 SXM (~350 - 400 Вт vs 700 Вт), но производительность ниже;

· По TFLOPS/Вт - уступает H100 на ~30%, но превосходит A100 на ~10 - 25%

· По ГБ/Вт - превосходит оба аналога благодаря 96 ГБ памяти при умеренном энергопотреблении.

Для российских дата-центров: умеренное энергопотребление P800 OAM (~350 - 400 Вт) выгодно в условиях ограниченной энергетической инфраструктуры. Сервер на 8 картах H100 потребляет ~5.6 кВт только на GPU; сервер на 8 картах P800 OAM ~2.8–3.2 кВт.

Под какие задачи можно использовать Baidu Kunlun P800 96GB OAM

1. Инференс LLM 7B - 70B (100% пригодность) - 96 ГБ достаточно для 70B в FP16, 32B с запасом;
2. Инференс LLM 100B+ (DeepSeek 671B) (100% пригодность) - 8×96 ГБ = 768 ГБ, verified Baidu;
3. Тренировка LLM (fine-tuning) (100% пригодность) - Подтверждено: Ernie 5.0, Qianfan-VL;
4. Полная тренировка LLM с нуля (50% пригодность) - Возможно (Ernie 5.0), но H100 эффективнее;
5. RAG / Embedding (100% пригодность) - Стандартная задача для инференса;
6. Мультимодальные модели (100% пригодность) - Qianfan-VL обучена на P800.

Проведённые тестирования

Baidu internal benchmarks (2025)

· Ernie 5.0 (2.4 трлн параметров) — полный цикл обучения на P800;

· Wanka cluster: 10 000+ GPU кластер, >90% scaling efficiency;

· 30 000-чиповый кластер, запущенный в феврале 2025.

Qianfan-VL paper (Dong et al., 19 сентября 2025)

· Академическая публикация с описанием тренировки мультимодальных моделей на P800;

· Подтверждена эффективность архитектурного overlapping compute/communication;

· Кластер >5 000 чипов.

Qianfan DeepSeek All-in-One benchmarks (февраль 2025)

· DeepSeek R1-671B: 2 437 токен/с на 8 картах P800, 256 concurrent users;

· DeepSeek R1-Distill-32B: 10 328 токен/с на 8 картах;

· Публичные данные от Baidu Intelligent Cloud.

Guosen Securities research (2025)

· Оценка FP16 производительности: ~345 TFLOPS;

· Сравнение с NVIDIA A100 и H100;

· Признание P800 конкурентом A100 по пиковой производительности.

Проекты, в которых уже используется

1. Ernie 5.0 (Собственная LLM Baidu (2.4 трлн параметров)); Масштаб: Полный цикл обучения на P800;
2. Qianfan-VL (Мультимодальные модели (3B/8B/70B)); Масштаб: Обучены на кластере >5 000 P800;
3. Wanka Cluster (10 000+ GPU кластер Baidu AI Cloud); Масштаб: Крупнейший кластер на отечественных AI-чипах (2025);
4. 30K Cluster (30 000 чипов, представлен на Baidu Create 2025); Масштаб: Развёрнут в феврале 2025;
5. Qianfan DeepSeek All-in-One (All-in-one решение для DeepSeek R1/V3); Масштаб: 8-карточная конфигурация, 2 437 токен/с;
6. China Mobile (Выигран тендер (август 2025)); Масштаб: Закупки P800 для облачных AI-сервисов;
7. Baidu AI Cloud (Облачная платформа Qianfan); Масштаб: Доступен как cloud-сервис;
8. vLLM-Kunlun (Open-source порт vLLM); Масштаб: GitHub-проект для инференса LLM.

Рейтинг карты

В контексте китайского GPU-рынка (рейтинг ChaiTex, апрель 2026):

6 место из 10 в нашем рейтинге китайских GPU-ускорителей.

Производительность (★★★☆☆) - на уровне A100, далеко до H100;

Объём памяти (★★★★★) - 96 ГБ (OAM) - один из лучших показателей;

Масштабируемость (★★★★☆) - 90% на 5K+ кластерах, verified;

Программный стек (★★☆☆☆) - Замкнутый, привязка к PaddlePaddle;

Open-source экосистема (★★☆☆☆) - vLLM-Kunlun существует, но community малочисленна;

Готовность к production (★★★☆☆) - Verified на Ernie 5.0 и DeepSeek;

Доступность на рынке (★★★☆☆) - Доступен через Baidu Cloud, IPO в планах;

Энергоэффективность (★★★☆☆) - 7 нм, OAM-версия ~350–400 Вт.

Общая оценка: 3.1 / 5

Выводы и заключения

Baidu Kunlun P800 96GB OAM - это не универсальный GPU, а специализированный AI-ускоритель созданный для решения конкретных задач в области искусственного интеллекта. Его главное преимущество - рекордный для китайских решений объём памяти (96 ГБ HBM2e), что позволяет эффективно работать с крупными языковыми моделями, такими как DeepSeek R1/V3 и Ernie 5.0, без необходимости агрессивной оптимизации или квантизации. Восьмикарточные конфигурации обеспечивают до 768 ГБ памяти, что открывает возможности для локального размещения и инференса моделей масштаба 70B+ и даже 671B параметров, что особенно актуально для российских дата-центров с ограниченными энергетическими ресурсами.

Главный козырь - 96 ГБ памяти на OAM-форм-факторе. В сочетании с 8-карточной конфигурацией это даёт 768 ГБ - достаточно для размещения полной версии DeepSeek 671B без агрессивной квантизации.

Архитектурное разделение compute и communication - реальное инженерное решение, а не маркетинговая заявка. Verified на кластерах >5 000 чипов с >90% scaling efficiency. Архитектурное разделение вычислительных и коммуникационных блоков (compute/communication overlapping) — не маркетинговый ход, а подтверждённое инженерное решение, обеспечивающее высокую масштабируемость и снижение латентности в кластерах из тысяч чипов. Эффективность масштабирования свыше 90% на кластерах более 5 000 чипов, а также успешное обучение Ernie 5.0 и мультимодальных моделей Qianfan-VL на P800 подтверждают зрелость платформы. При этом по пиковой производительности P800 уступает NVIDIA H100, но превосходит A100, а по энергоэффективности и объёму памяти на ватт является одним из лидеров рынка.

Для российского рынка P800 OAM - нишевое, но ценное решение:

· Задачи размещения крупных LLM (70B+ параметров) на одной машине;

· Проекты, где важен TCO при умеренном энергопотреблении;

· Организации, готовые инвестировать в интеграцию с Baidu-стеком;

· Диверсификация поставок - P800 не зависит от Huawei, SMIC или TSMC.

Но, для универсальных AI-задач Huawei Ascend 950PR и Moore Threads S5000 предлагают более зрелую экосистему. Выбор P800 - это выбор в пользу памяти и масштабируемости, а не универсальности.

Для российского рынка Kunlun P800 OAM представляет интерес как нишевое, но ценное решение для задач, где критичны объём памяти, умеренное энергопотребление и возможность работы с крупными LLM. Однако выбор в пользу P800 — это ставка на память и масштабируемость, а не на универсальность: программный стек замкнут на PaddlePaddle и облачную платформу Qianfan, а экосистема пока уступает решениям Huawei и NVIDIA. В целом, Kunlun P800 — важный шаг к технологической независимости Китая и реальный инструмент для построения крупных отечественных AI-кластеров, но его успех будет зависеть от развития экосистемы и расширения доступности на рынке.