Ускоритель, созданный для корпоративных AI-нагрузок
Решение для плотного инференса, адаптации моделей и приватной AI-инфраструктуры, где критичны предсказуемая доступность, локализованные поставки и совместимость ПО.
Память и производительность
Профиль памяти с высокой пропускной способностью для инференса и обучения.
Архитектура
Вычислительная архитектура и модель исполнения.
Питание и охлаждение
Требования к интеграции в дата-центр.
Производительность
Пиковая теоретическая производительность для основных точностей AI.
Совместимость
Интерфейсы, фреймворки и среда развёртывания.
Физические размеры
Габариты карты для серверных платформ.
О товаре
Baidu Kunlun P800 OAM (96GB HBM2e) представляет собой готовое к эксплуатации серверное решение, созданное Baidu Intelligent Cloud для корпоративного сектора. Его главная задача - обеспечить быстрый запуск и локальную работу сверхкрупных языковых моделей, в частности, DeepSeek R1 и V3, включая их полную версию на 671 миллиард параметров. Ключевое отличие этого продукта заключается в концепции всё в одном: это первый в Китае сервер такого класса, построенный на отечественных чипах, который поставляется с уже предустановленными моделями и необходимым ПО. Это позволяет компаниям развернуть приватный AI сервис без необходимости самостоятельно собирать и настраивать сложную вычислительную инфраструктуру.
В основе системы лежат восемь ускорителей P800, выполненных в форм-факторе OCP Accelerator Module (OAM). Суммарный объём видеопамяти HBM2e в 768 ГБ позволяет целиком разместить модель DeepSeek-671B в формате FP16 вместе с кэшем ключей и значений (KV cache) на одном сервере. Каждый чип построен на базе архитектуры XPU-P третьего поколения по 7-нм техпроцессу и обеспечивает производительность около 345 терафлопс в FP16. Важной архитектурной особенностью является аппаратное разделение блоков вычислений и коммуникаций, что позволяет им работать параллельно, снижая задержки при выполнении матричных операций. Управление кластером ускорителей осуществляется с помощью двух центральных процессоров (Intel Xeon или AMD EPYC) через высокоскоростной backplane.
С точки зрения программного обеспечения, платформа поставляется с интегрированным стеком, оптимизированным под железо Kunlun. В него входят фреймворк PaddlePaddle, Kunlun SDK для низкоуровневого доступа, порт vLLM для эффективного инференса и платформа Qianfan для управления полным жизненным циклом моделей. В практических тестах конфигурация из восьми ускорителей демонстрирует пропускную способность в 2437 токенов в секунду при работе с DeepSeek-R1-671B. Хотя по пиковой производительности решение сопоставимо с NVIDIA A100, но уступает флагманам H100, его главным преимуществом является колоссальный объём памяти и готовность к работе «из коробки». Кроме того, архитектура Kunlun P800 доказала свою эффективность в масштабировании: кластеры из десятков тысяч таких чипов показывают эффективность свыше 90%, что делает их основой для крупнейших вычислительных мощностей Baidu.
Baidu Kunlun P800 96GB OAM - это не универсальный GPU сервер, а специализированное AI решение с уникальными преимуществами для конкретного класса задач.
Главные преимущества
Объём памяти. 768 GB GPU памяти в одном сервере - один из лучших показателей на рынке (включая NVIDIA).
Out-of-box готовность. Предустановленный DeepSeek R1/V3, Qianfan platform, встроенные AI приложения.
Масштабируемость. более 90% scaling efficiency на кластерах 5 000 - 30 000 чипов.
Архитектурное решение overlapping. Физическое разделение compute/communication - реальная инженерная инновация.
Для российского рынка
P800 OAM сервер - нишевое, но ценное решение для:
• Компаний, которым нужен готовый сервер для DeepSeek/ERNIE без сборки инфраструктуры с нуля;
• Задач с крупными LLM (70B+), где объём памяти критичен;
• Проектов, готовых работать с PaddlePaddle/Qianfan ecosystem;
• Диверсификации поставок (альтернатива Huawei Ascend / Moore Threads).
P800 OAM-сервер - сильный игрок в нише ready-to-run LLM inference для крупных моделей. Его 768 GB памяти и out-of-box DeepSeek делают его уникальным предложением. Но универсальным он не является - выбор в его пользу это выбор в пользу памяти и готовности, а не гибкости.