ВидеокартыСкоро

Baidu Kunlun P800 96Гб OAM

Baidu Kunlun P800 PCIe - PCIe-версия флагманского ускорителя третьего поколения на архитектуре XPU-P (XPU3), совместимая со стандартными серверными платформами PCIe 4.0 x16. TDP 350–400 Вт.

Производительность сопоставима с Huawei Ascend 910B и NVIDIA A100 по оценкам аналитиков.

Поддерживает PaddlePaddle и PyTorch. Ключевое преимущество перед OAM-версией - широкая серверная совместимость, позволяющая использовать карту в стандартных 4U-серверах без специализированных шасси.

О продукте

Ускоритель, созданный для корпоративных AI-нагрузок

Решение для плотного инференса, адаптации моделей и приватной AI-инфраструктуры, где критичны предсказуемая доступность, локализованные поставки и совместимость ПО.

Архитектура

XPU3

Память и производительность

Профиль памяти с высокой пропускной способностью для инференса и обучения.

Объём видеопамяти96

Тип памяти-

Пропускная способность-

Тип интерконнектаXPU Link

Скорость интерконнекта-

Архитектура

Вычислительная архитектура и модель исполнения.

АрхитектураXPU3

Ядра-

Питание и охлаждение

Требования к интеграции в дата-центр.

Тепловыделение (TDP)-

Охлаждение-

Форм-факторOAM

Pixel Rate-

Texture Rate-

Производительность

Пиковая теоретическая производительность для основных точностей AI.

FP64

FP32

FP16

TF32

BF16 Tensor

FP8 Tensor

INT8 Tensor

Совместимость

Интерфейсы, фреймворки и среда развёртывания.

Интерфейс PCIePCIe 5.0x16

Кодирование видео-

Физические размеры

Габариты карты для серверных платформ.

Слоты-

Длина- мм

Высота- мм

Ширина- мм

Стоимость

По запросу

Специальные цены для кластерных развёртываний и пилотных партий.

Product information

О товаре

Baidu Kunlun P800 OAM (96GB HBM2e) представляет собой готовое к эксплуатации серверное решение, созданное Baidu Intelligent Cloud для корпоративного сектора. Его главная задача - обеспечить быстрый запуск и локальную работу сверхкрупных языковых моделей, в частности, DeepSeek R1 и V3, включая их полную версию на 671 миллиард параметров. Ключевое отличие этого продукта заключается в концепции всё в одном: это первый в Китае сервер такого класса, построенный на отечественных чипах, который поставляется с уже предустановленными моделями и необходимым ПО. Это позволяет компаниям развернуть приватный AI сервис без необходимости самостоятельно собирать и настраивать сложную вычислительную инфраструктуру.

В основе системы лежат восемь ускорителей P800, выполненных в форм-факторе OCP Accelerator Module (OAM). Суммарный объём видеопамяти HBM2e в 768 ГБ позволяет целиком разместить модель DeepSeek-671B в формате FP16 вместе с кэшем ключей и значений (KV cache) на одном сервере. Каждый чип построен на базе архитектуры XPU-P третьего поколения по 7-нм техпроцессу и обеспечивает производительность около 345 терафлопс в FP16. Важной архитектурной особенностью является аппаратное разделение блоков вычислений и коммуникаций, что позволяет им работать параллельно, снижая задержки при выполнении матричных операций. Управление кластером ускорителей осуществляется с помощью двух центральных процессоров (Intel Xeon или AMD EPYC) через высокоскоростной backplane.

С точки зрения программного обеспечения, платформа поставляется с интегрированным стеком, оптимизированным под железо Kunlun. В него входят фреймворк PaddlePaddle, Kunlun SDK для низкоуровневого доступа, порт vLLM для эффективного инференса и платформа Qianfan для управления полным жизненным циклом моделей. В практических тестах конфигурация из восьми ускорителей демонстрирует пропускную способность в 2437 токенов в секунду при работе с DeepSeek-R1-671B. Хотя по пиковой производительности решение сопоставимо с NVIDIA A100, но уступает флагманам H100, его главным преимуществом является колоссальный объём памяти и готовность к работе «из коробки». Кроме того, архитектура Kunlun P800 доказала свою эффективность в масштабировании: кластеры из десятков тысяч таких чипов показывают эффективность свыше 90%, что делает их основой для крупнейших вычислительных мощностей Baidu.

Baidu Kunlun P800 96GB OAM - это не универсальный GPU сервер, а специализированное AI решение с уникальными преимуществами для конкретного класса задач.

Главные преимущества

Объём памяти. 768 GB GPU памяти в одном сервере - один из лучших показателей на рынке (включая NVIDIA).

Out-of-box готовность. Предустановленный DeepSeek R1/V3, Qianfan platform, встроенные AI приложения.

Масштабируемость. более 90% scaling efficiency на кластерах 5 000 - 30 000 чипов.

Архитектурное решение overlapping. Физическое разделение compute/communication - реальная инженерная инновация.

Для российского рынка

P800 OAM сервер - нишевое, но ценное решение для:

• Компаний, которым нужен готовый сервер для DeepSeek/ERNIE без сборки инфраструктуры с нуля;

• Задач с крупными LLM (70B+), где объём памяти критичен;

• Проектов, готовых работать с PaddlePaddle/Qianfan ecosystem;

• Диверсификации поставок (альтернатива Huawei Ascend / Moore Threads).

P800 OAM-сервер - сильный игрок в нише ready-to-run LLM inference для крупных моделей. Его 768 GB памяти и out-of-box DeepSeek делают его уникальным предложением. Но универсальным он не является - выбор в его пользу это выбор в пользу памяти и готовности, а не гибкости.