Baidu Kunlun P800 96GB OAM, ИИ-ускоритель для корпоративных и облачных дата-центров
6 мая 2026 г.
Общая информация
Baidu Kunlun P800 (昆仑芯 P800) - AI-ускоритель третьего поколения от Kunlunxin (昆仑芯科技), дочерней компании Baidu. Чип построен на собственной архитектуре XPU-P и позиционируется как конкурент NVIDIA H100/H200 в сегменте обучения и инференса крупных языковых моделей.
Появление Kunlun P800 отражает стратегический курс Китая на достижение независимости в области высокопроизводительных вычислений и искусственного интеллекта, а также на формирование собственной экосистемы для работы с большими данными и LLM. В условиях глобального дефицита и ограничений на поставку западных ускорителей, Kunlun P800 становится ключевым элементом инфраструктуры Baidu Smart Cloud и других крупных китайских дата-центров, обеспечивая локальное развертывание и масштабирование передовых AI-технологий.
Разберемся подробнее в особенностях ускорителя.
История линейки Kunlun
Линейка ИИ-ускорителей Kunlun от Baidu и Kunlunxin прошла несколько этапов развития:
· Kunlun 1 (2020): 14 нм (Samsung), 256 TOPS INT8, 150 Вт - первый чип Baidu для AI;
· Kunlun 2 / XPU-R (2021): 7 нм, 256 TOPS INT8, 128 TFLOPS FP16, 120 Вт;
· Kunlun P800 / XPU-P (2025): 7 нм, ~345 TFLOPS FP16, 96 ГБ HBM2e (OAM-версия), архитектура 3-го поколения;
· Планы: M100 (2026), M300 (2027).
Kunlunxin - одно из немногих подразделений Big Tech в Китае, которое производит AI-чипы собственной разработки. Компания привлекла $2.9 млрд. в последнем раунде финансирования (оценивается в ~¥21 млрд. / $2.9 млрд.) и рассматривает IPO в Гонконге. Внешние клиенты составляют ~40% выручки (China Mobile, крупные интернет-компании).
Форм-факторы:
OAM (OCP Accelerator Module): 96 ГБ HBM2e - версия для плотных серверных развёртываний, высокая пропускная способность памяти, используется в «сверхузлах» и кластерных решениях
PCIe: версия для стандартных серверов - используется в линейке all-in-one решений
Особенности архитектуры
Архитектура XPU-P (P800) выделяется среди китайских GPU принципом разделения вычислительных и коммуникационных блоков на уровне кристалла.
Физическое разделение compute и communication
В отличие от GPU-архитектур NVIDIA, где вычислительные и коммуникационные ресурсы конкурируют за одни и те же шины, P800 физически разделяет:
· Матричные блоки (GEMM units) - выполняют основные операции умножения матриц;
· Коммуникационные блоки - обрабатывают передачу данных и синхронизацию между чипами.
Это позволяет выполнять вычисления и передачу данных одновременно - overlapping коммуникации с вычислениями. Практическое снижение латентности: до 40% в GEMM-интенсивных операциях.
Поддержка параллелизма
· Data Parallelism - распределение данных по чипам;
· Tensor Parallelism - распределение слоёв по чипам (AllReduce, AllGather);
· Pipeline Parallelism - распределение последовательных слоёв;
· MoE (Mixture of Experts) - аппаратная поддержка экспертных архитектур.
Масштабируемость
· Эффективность масштабирования >90% в кластерах более 5 000 чипов (данные EmergentMind / Qianfan-VL paper);
· Поддержка сверхузлов (超节点) - rack-scale кабинеты с высокоскоростным интерконнектом;
· 30 000-чиповый кластер развёрнут Baidu в Wanka cluster, начало работы - февраль 2025).
Программный стек
· PaddlePaddle - фреймворк глубокого обучения от Baidu (основной стек);
· Kunlun SDK - низкоуровневый SDK для работы с чипом;
· vLLM-Kunlun - порт vLLM для инференса LLM на чипах Kunlun (open-source на GitHub);
· Поддержка DeepSeek V3/R1 - нативная поддержка, включая 671B полную версию;
· Qianfan platform - облачная AI-платформа Baidu с интеграцией P800;
· HAMi - поддержка vGPU-мультиплексирования для OAM-версии.
Технические характеристики Baidu Kunlun P800 96GB OAM
Baidu Kunlun P800 96GB OAM: Архитектура: XPU-P (Gen 3); Техпроцесс: 7 нм; FP16 производительность: ~345 TFLOPS; INT8 производительность: ~690 TOPS (оценка); Память: 96 ГБ HBM2e; Пропускная способность памяти: ~1.6 ТБ/с (оценка); Форм-фактор: OAM; TDP (оценка): ~350 - 400 Вт; Интерконнект: Собственный (сверхузел).
Аналоги:
Baidu Kunlun P800 PCIe: Архитектура: XPU-P (Gen 3); Техпроцесс: 7 нм; FP16 производительность: ~345 TFLOPS; INT8 производительность: ~690 TOPS; Память: 32 ГБ HBM2e; Пропускная способность памяти: ~1.2 ТБ/с; Форм-фактор: PCIe Gen5; TDP (оценка): ~250 - 300 Вт; Интерконнект: PCIe.
NVIDIA H100: Архитектура: Hopper; Техпроцесс: 4 нм (TSMC); FP16 производительность: 989.4 TFLOPS*; INT8 производительность: 1978.9 TOPS*; Память: 80 ГБ HBM3; Пропускная способность памяти: 3.35 ТБ/с; Форм-фактор: SXM / PCIe; TDP (оценка): 700 Вт (SXM); Интерконнект: NVLink 900 ГБ/с.
NVIDIA A100 80GB: Архитектура: Ampere; Техпроцесс: 7 нм (TSMC); FP16 производительность: 312 TFLOPS; INT8 производительность: 624 TOPS; Память: 80 ГБ HBM2e; Пропускная способность памяти: 2.0 ТБ/с; Форм-фактор: SXM / PCIe; TDP (оценка): 400 Вт (SXM); Интерконнект: NVLink 600 ГБ/с.
*H100 включает FP8 sparsity
Часть характеристик P800 (пропускная способность памяти, TDP) являются экспертными оценками - Baidu публикует ограниченный набор спецификаций. Точные данные зависят от конкретной конфигурации сервера.
Предварительная оценка производительности Baidu Kunlun P800 96GB OAM
Тренировка P800 96GB OAM:
По данным Guosen Securities и IEEE Spectrum, P800 по FP16 (~345 TFLOPS) находится на уровне NVIDIA A100 80GB (312 TFLOPS FP16) и уступает H100 (989 TFLOPS). Однако для тренировки китайских LLM-моделей этого достаточно - Baidu обучила на P800:
· Ernie 5.0 - модель с 2.4 трлн параметров;
· Qianfan-VL серия - мультимодальные модели на 3B, 8B и 70B параметров (все обучены на P800).,
Инференс P800 96GB OAM:
Модель: DeepSeek-R1-671B (полная версия); Конфигурация P800 OAM - 8 карт; Пропускная способность - 2 437 токен/с.;
Модель: DeepSeek-V3-671B; Конфигурация P800 OAM - 8 карт; Пропускная способность - 2 437 токен/с.;
Модель: DeepSeek-R1-Distill-Llama-70B; Конфигурация P800 OAM - 8 карт; Пропускная способность - 4 185 токен/с;
Модель: DeepSeek-R1-Distill-Qwen-32B; Конфигурация P800 OAM - 8 карт; Пропускная способность - 10 328 токен/с;
Модель: DeepSeek-R1-Distill-Qwen-14B; Конфигурация P800 OAM - 8 карт; Пропускная способность - 18 296 токен/с.
Данные от Baidu Intelligent Cloud. При 256 concurrent users.
96 ГБ HBM на OAM-версии критически важны: 671B модель DeepSeek R1/V3 занимает ~140 ГБ в FP16. 8 карт × 96 ГБ = 768 ГБ - достаточно для полной версии с KV-cache без агрессивной квантизации.
Особенности карты Baidu Kunlun P800 96GB OAM
· 96 ГБ памяти (OAM) - один из самых больших объёмов среди китайских AI-ускорителей;
· Архитектура overlapping compute/communication - уникальное решение, снижающее латентность на 40%;
· >90% scaling efficiency при масштабировании на 5 000+ чипов;
· Гарантированный внутренний спрос - Baidu использует P800 для Ernie;
· Готовые решения - Qianfan DeepSeek, с pre-configured стеком;
· vGPU мультиплексирование через HAMi.
Энергоэффективность
Техпроцесс: 7 нм - одним поколением старше, чем NVIDIA H100 (4 нм TSMC).
Baidu Kunlun P800 96GB OAM: TDP: ~350 - 400 Вт; FP16 / Вт: ~0.86 - 0.99 TFLOPS/Вт; Память / Вт: ~0.24 - 0.27 ГБ/Вт.
В сравнительном анализе ближайшие конкуренты имеют следующие параметры:
· NVIDIA H100 SXM: TDP: 700 Вт; FP16 / Вт: 1.41 TFLOPS/Вт; Память / Вт: 0.11 ГБ/Вт.
· NVIDIA A100 SXM: TDP: 400 Вт; FP16 / Вт: 0.78 TFLOPS/Вт; Память / Вт: 0.20 ГБ/Вт.
Вывод по энергоэффективности:
· P800 OAM потребляет значительно меньше H100 SXM (~350 - 400 Вт vs 700 Вт), но производительность ниже;
· По TFLOPS/Вт - уступает H100 на ~30%, но превосходит A100 на ~10 - 25%
· По ГБ/Вт - превосходит оба аналога благодаря 96 ГБ памяти при умеренном энергопотреблении.
Для российских дата-центров: умеренное энергопотребление P800 OAM (~350 - 400 Вт) выгодно в условиях ограниченной энергетической инфраструктуры. Сервер на 8 картах H100 потребляет ~5.6 кВт только на GPU; сервер на 8 картах P800 OAM ~2.8–3.2 кВт.
Под какие задачи можно использовать Baidu Kunlun P800 96GB OAM
1. Инференс LLM 7B - 70B (100% пригодность) - 96 ГБ достаточно для 70B в FP16, 32B с запасом;
2. Инференс LLM 100B+ (DeepSeek 671B) (100% пригодность) - 8×96 ГБ = 768 ГБ, verified Baidu;
3. Тренировка LLM (fine-tuning) (100% пригодность) - Подтверждено: Ernie 5.0, Qianfan-VL;
4. Полная тренировка LLM с нуля (50% пригодность) - Возможно (Ernie 5.0), но H100 эффективнее;
5. RAG / Embedding (100% пригодность) - Стандартная задача для инференса;
6. Мультимодальные модели (100% пригодность) - Qianfan-VL обучена на P800.
Проведённые тестирования
Baidu internal benchmarks (2025)
· Ernie 5.0 (2.4 трлн параметров) — полный цикл обучения на P800;
· Wanka cluster: 10 000+ GPU кластер, >90% scaling efficiency;
· 30 000-чиповый кластер, запущенный в феврале 2025.
Qianfan-VL paper (Dong et al., 19 сентября 2025)
· Академическая публикация с описанием тренировки мультимодальных моделей на P800;
· Подтверждена эффективность архитектурного overlapping compute/communication;
· Кластер >5 000 чипов.
Qianfan DeepSeek All-in-One benchmarks (февраль 2025)
· DeepSeek R1-671B: 2 437 токен/с на 8 картах P800, 256 concurrent users;
· DeepSeek R1-Distill-32B: 10 328 токен/с на 8 картах;
· Публичные данные от Baidu Intelligent Cloud.
Guosen Securities research (2025)
· Оценка FP16 производительности: ~345 TFLOPS;
· Сравнение с NVIDIA A100 и H100;
· Признание P800 конкурентом A100 по пиковой производительности.
Проекты, в которых уже используется
1. Ernie 5.0 (Собственная LLM Baidu (2.4 трлн параметров)); Масштаб: Полный цикл обучения на P800;
2. Qianfan-VL (Мультимодальные модели (3B/8B/70B)); Масштаб: Обучены на кластере >5 000 P800;
3. Wanka Cluster (10 000+ GPU кластер Baidu AI Cloud); Масштаб: Крупнейший кластер на отечественных AI-чипах (2025);
4. 30K Cluster (30 000 чипов, представлен на Baidu Create 2025); Масштаб: Развёрнут в феврале 2025;
5. Qianfan DeepSeek All-in-One (All-in-one решение для DeepSeek R1/V3); Масштаб: 8-карточная конфигурация, 2 437 токен/с;
6. China Mobile (Выигран тендер (август 2025)); Масштаб: Закупки P800 для облачных AI-сервисов;
7. Baidu AI Cloud (Облачная платформа Qianfan); Масштаб: Доступен как cloud-сервис;
8. vLLM-Kunlun (Open-source порт vLLM); Масштаб: GitHub-проект для инференса LLM.
Рейтинг карты
В контексте китайского GPU-рынка (рейтинг ChaiTex, апрель 2026):
6 место из 10 в нашем рейтинге китайских GPU-ускорителей.
Производительность (★★★☆☆) - на уровне A100, далеко до H100;
Объём памяти (★★★★★) - 96 ГБ (OAM) - один из лучших показателей;
Масштабируемость (★★★★☆) - 90% на 5K+ кластерах, verified;
Программный стек (★★☆☆☆) - Замкнутый, привязка к PaddlePaddle;
Open-source экосистема (★★☆☆☆) - vLLM-Kunlun существует, но community малочисленна;
Готовность к production (★★★☆☆) - Verified на Ernie 5.0 и DeepSeek;
Доступность на рынке (★★★☆☆) - Доступен через Baidu Cloud, IPO в планах;
Энергоэффективность (★★★☆☆) - 7 нм, OAM-версия ~350–400 Вт.
Общая оценка: 3.1 / 5
Выводы и заключения
Baidu Kunlun P800 96GB OAM - это не универсальный GPU, а специализированный AI-ускоритель созданный для решения конкретных задач в области искусственного интеллекта. Его главное преимущество - рекордный для китайских решений объём памяти (96 ГБ HBM2e), что позволяет эффективно работать с крупными языковыми моделями, такими как DeepSeek R1/V3 и Ernie 5.0, без необходимости агрессивной оптимизации или квантизации. Восьмикарточные конфигурации обеспечивают до 768 ГБ памяти, что открывает возможности для локального размещения и инференса моделей масштаба 70B+ и даже 671B параметров, что особенно актуально для российских дата-центров с ограниченными энергетическими ресурсами.Главный козырь - 96 ГБ памяти на OAM-форм-факторе. В сочетании с 8-карточной конфигурацией это даёт 768 ГБ - достаточно для размещения полной версии DeepSeek 671B без агрессивной квантизации.
Архитектурное разделение compute и communication - реальное инженерное решение, а не маркетинговая заявка. Verified на кластерах >5 000 чипов с >90% scaling efficiency. Архитектурное разделение вычислительных и коммуникационных блоков (compute/communication overlapping) — не маркетинговый ход, а подтверждённое инженерное решение, обеспечивающее высокую масштабируемость и снижение латентности в кластерах из тысяч чипов. Эффективность масштабирования свыше 90% на кластерах более 5 000 чипов, а также успешное обучение Ernie 5.0 и мультимодальных моделей Qianfan-VL на P800 подтверждают зрелость платформы. При этом по пиковой производительности P800 уступает NVIDIA H100, но превосходит A100, а по энергоэффективности и объёму памяти на ватт является одним из лидеров рынка.
Для российского рынка P800 OAM - нишевое, но ценное решение:
· Задачи размещения крупных LLM (70B+ параметров) на одной машине;
· Проекты, где важен TCO при умеренном энергопотреблении;
· Организации, готовые инвестировать в интеграцию с Baidu-стеком;
· Диверсификация поставок - P800 не зависит от Huawei, SMIC или TSMC.
Но, для универсальных AI-задач Huawei Ascend 950PR и Moore Threads S5000 предлагают более зрелую экосистему. Выбор P800 - это выбор в пользу памяти и масштабируемости, а не универсальности.
Для российского рынка Kunlun P800 OAM представляет интерес как нишевое, но ценное решение для задач, где критичны объём памяти, умеренное энергопотребление и возможность работы с крупными LLM. Однако выбор в пользу P800 — это ставка на память и масштабируемость, а не на универсальность: программный стек замкнут на PaddlePaddle и облачную платформу Qianfan, а экосистема пока уступает решениям Huawei и NVIDIA. В целом, Kunlun P800 — важный шаг к технологической независимости Китая и реальный инструмент для построения крупных отечественных AI-кластеров, но его успех будет зависеть от развития экосистемы и расширения доступности на рынке.
