Baidu Kunlun RG800 32GB PCIe Review

Baidu Kunlun RG800 32GB - ускоритель вычислений общего назначения (GPGPU) от Baidu Kunlunxin, дочерней компании Baidu. Позиционируется как PCIe-карта уровня mid-range для AI инференса, компьютерного зрения и edge-деплоя.

Baidu Kunlun RG800 32GB PCIe занимает важное место в экосистеме корпоративных решений для искусственного интеллекта, предлагая сбалансированное сочетание производительности и энергоэффективности. Эта карта разработана специально для сценариев массового инференса, где требуется обработка больших потоков данных с минимальной задержкой. Благодаря использованию передовой архитектуры XPU-R третьего поколения, ускоритель обеспечивает высокую вычислительную плотность при умеренном энергопотреблении, что критически важно для построения масштабируемых дата-центров и локальных AI платформ. Его форм-фактор PCI Express Gen4 x16 гарантирует широкую совместимость с современными серверными шасси, а продуманная пассивная система охлаждения позволяет эффективно отводить тепло даже при высоких нагрузках.

Отличительной чертой данной модели является её универсальность и оптимизация под современные задачи машинного обучения. Ускоритель не только демонстрирует выдающиеся показатели пропускной способности памяти (512 Гбайт/с), но и оснащён специализированными блоками для работы с различными форматами вычислений - от FP32 до INT8. Это делает его идеальным инструментом как для обработки естественного языка и генерации текста, так и для аналитики видеопотоков в реальном времени. Встроенные аппаратные кодеки позволяют одновременно декодировать десятки каналов видео высокой чёткости, открывая возможности для создания интеллектуальных систем видеонаблюдения и мониторинга.

Технические характеристики Baidu Kunlun RG800 32GB PCIe

Архитектура: XPU-P (Gen 3);

Техпроцесс: 7 нм;

Память: 32 GB HBM2e;

Пропускная способность памяти: ~1.0–1.2 ТБ/с (оценка);

FP16 (пик): ~115–130 TFLOPS (оценка);

INT8 (пик): ~230–260 TOPS (оценка);

Интерфейс: PCIe Gen4 x16;

TDP: ~150 - 200 Вт (оценка);

Форм-фактор: FHFL.

Особенности архитектуры Baidu Kunlun RG800 32GB PCIe

В контексте развития собственной инфраструктуры Baidu, карты линейки Kunlun выступают фундаментом для развертывания сверхкрупных кластеров, способных обучать и обслуживать массивные языковые модели. Архитектура устройства спроектирована таким образом, чтобы обеспечивать бесшовную интеграцию в фирменное облако Smart Cloud, поддерживая работу тысяч ускорителей в едином вычислительном пространстве. Таким образом, Baidu Kunlun RG800 становится ключевым элементом стратегии компании по продвижению интеллектуальных технологий, позволяя бизнесу сокращать издержки на инфраструктуру и ускорять внедрение инноваций в различных отраслях промышленности.

Линейка Kunlunxin (XPU-P Gen 3):

RG800 - Память: 32 GB HBM2e; Форм-фактор: PCIe Gen4; Позиционирование: Inference mid-range, edge;

P800 (PCIe) - Память: 96 GB HBM2e; Форм-фактор: PCIe Gen5; Позиционирование: Inference high-end;

P800 (OAM) - Память: 96 GB HBM2e; Форм-фактор: OAM (OCP); Позиционирование: Кластерный training/inference.

RG800 построен на архитектуре XPU-P (Gen 3), той же что и флагман P800:

Физическое разделение compute/communication:

• GEMM блоки (матричные операции) и коммуникационные блоки работают параллельно;

• Пиковая эффективность в GEMM интенсивных задачах: до 40% выше vs Gen 2.

Асинхронное выполнение:

• Compute + data movement overlap на аппаратном уровне;

• Эффективность масштабирования: >90% при кластерной конфигурации (подтверждено на P800).

Интерконнект:

• RG800 (PCIe-версия) использует стандартный PCIe Gen4 x16;

• P2P-communication между картами через PCIe switch (не NVLink аналог);

• Для мульти-карточных конфигураций рекомендуется сервер с PCIe switch (PLX/Broadcom).

Техпроцесс: 7 нм. Это тот же техпроцесс, что у NVIDIA A100 и AMD MI200.

Сравнение с аналогами:

RG800 32GB – Память: 32 GB HBM2e; Пропускная способность памяти: ~1.0–1.2 ТБ/; FP16: ~115–130 TFLOPS; INT8: ~230–260 TOPS; TDP: ~150–200 Вт; Техпроцесс: 7 нм; Интерфейс: PCIe Gen4 x16.

P800 OAM – Память: 96 GB HBM2e; Пропускная способность памяти: ~1.6 ТБ/с; FP16: ~345 TFLOPS; INT8: ~690 TOPS; TDP: ~350–400 Вт; Техпроцесс: 7 нм; Интерфейс: OAM backplane.

NVIDIA A10 – Память: 24 GB GDDR6 Пропускная способность памяти600 ГБ/с; FP16: 125 TFLOPS; INT8: 250 TOPS; TDP: 150 Вт; Техпроцесс: 7 нм; Интерфейс: PCIe Gen4 x16.

Предварительная оценка производительности

Inference LLM (оценки на основе архитектурного соотношения к P800)

DeepSeek-R1-Distill-Qwen-14B - Чипы: 1x RG800; Пропускная способность: ~4 500–5 500; Пользователи: 16 - 32 concurrent;

DeepSeek-R1-Distill-Qwen-32B - Чипы: 2x RG800 (PCIe P2P); Пропускная способность: ~1 800–2 200 токенов/с; Пользователи: 8 - 16 concurrent;

DeepSeek-R1-Distill-Llama-70B - Чипы: 1x RG800; Пропускная способность: ~2 500–3 000 токенов/с; Пользователи: 8 - 16 concurrent.

Сравнение с конкурентами

RG800 32GB:

· LLM inference (14B, FP16) - ✅ Хорошо;

· LLM inference (70B, 2x FP16) - ✅ Возможно (2 карты);

· CV (ResNet-50) - ✅ Хорошо;

· YOLOv8 (real-time) - ✅ Хорошо;

· Stable Diffusion 1.5 - ✅ 32GB – запас.

NVIDIA A10 24GB:

· LLM inference (14B, FP16) - ✅ Хорошо;

· LLM inference (70B, 2x FP16) - ❌ Недостаточно памяти;

· CV (ResNet-50) - ✅ Хорошо;

· YOLOv8 (real-time) - ✅ Хорошо;

· Stable Diffusion 1.5 - ⚠️ 24GB - впритык.

Moore Threads S3000 32GB:

· LLM inference (14B, FP16) - ⚠️ Средне (CUDA-адаптация);

· LLM inference (70B, 2x FP16) - ❌ Недостаточно памяти;

· CV (ResNet-50) - ⚠️ Средне;

· YOLOv8 (real-time) - ⚠️ Средне;

· Stable Diffusion 1.5 - ❌ Не поддерживается.

Особенности видеокарты

Преимущества RG800:

• 32GB HBM2e - больше, чем у NVIDIA A10 (24GB). Это критично для inference моделей с большим контекстом (KV-cache) и для batch processing.

• Высокая пропускная способность памяти - HBM2e дает ~1+ ТБ/с, что в 2x выше GDDR6 у A10. Это снижает bottleneck в memory-bound задачах (трансформеры с длинным контекстом).

• Единый стек PaddlePaddle/Kunlun SDK - если ваш стек на Paddle, получаете нативную оптимизацию без трансляции.

• HAMi vGPU - поддержка виртуализации GPU для разделения 32GB между несколькими задачами.

• Vendor lock-in на PaddlePaddle: PyTorch/TensorFlow требуют адаптации через Kunlun SDK (уровень сложности: средний, 2–4 недели на типовую модель).

• PCIe Gen4 (не Gen5): Пропускная способность CPU-GPU - 32 ГБ/с, а не 64 ГБ/с. Для inference это не критично.

• Нет P2P NVLink: Мульти-GPU communication только через PCIe switch. Latency выше, чем у NVIDIA NVLink.

Под какие задачи можно использовать

• LLM inference (edge/mid-size): Модели 7B - 32B параметров в FP16/BF16. 32GB HBM2e позволяет разместить Qwen-32B/Llama-3-8B с KV-cache и batch processing.

• Компьютерное зрение (real-time): YOLO, ResNet, EfficientNet - классификация, детекция, сегментация.

• Аудио/речь: ASR (automatic speech recognition), TTS (text-to-speech) - модели 100M–1B параметров.

• Recommendation systems: Embedding lookup, retrieval - высокая пропускная способность HBM2e дает преимущество.

• Edge deployment: Серверные шасси с ограниченным энергопотреблением (TDP ~150 - 200 Вт .

Информация о проведённых тестированиях

Официальные данные Baidu (февраль 2025, кластер P800):

• Масштабирование до 30 000 чипов с эффективностью >90%;

• DeepSeek-R1-671B на 8x P800 OAM: 2 437 токенов/с.

vLLM-Kunlun (open-source):

• Репозиторий: github.com/PaddlePaddle/vLLM-Kunlun;

• Поддержка моделей: DeepSeek, Qwen, Llama (через PaddlePaddle conversion);

• Текущая версия: совместимость с vLLM 0.6.x.

Проекты и примеры использования

Подтвержденные deployment:

1. Baidu Intelligent Cloud (千帆 Qianfan):

￮ Internal inference cluster для Baidu Search, Baidu Maps AI, и NLP сервисов;

￮ Масштаб: 10 000+ RG800/P800 в датацентрах Baidu.

2. DeepSeek - 体机 (千帆 DeepSeek All-in-One):

￮ Предконфигурированный сервер на P800 OAM для enterprise;

￮ RG800 используется в младших конфигурациях (entry-level) для малых/средних компаний.

3. Государственные проекты Китая:

￮ Smart city (видеоаналитика) - RG800 для edge серверов;

￮ Банковский сектор - inference модели обнаружения мошенничеств.

4. Потенциальные сценарии для России:

￮ Ритейл: real-time аналитика видеопотока (YOLO + OCR);

￮ Телеком: inference рекомендательных моделей;

￮ Государственный сектор: NLP движки для документооборота (7B - 14B модели).

Рейтинг и оценка

Память (★★★★☆);

Пропускная способность памяти (★★★★☆);

Программный стек (★★★☆☆);

Экосистема (open-source) (★★★☆☆);

Энергоэффективность (★★★★☆);

Общий рейтинг: 4.3/5

RG800 - сильный игрок в нише mid-range inference с 32GB HBM2e. Основное преимущество - память и пропускная способность. Недостаток - vendor lock-in и Entity List. Для компаний на PaddlePaddle - отличный выбор.

Энергоэффективность

Baidu Kunlun RG800 32GB – TDP: ~150 - 200 Вт; FP16/Watt: ~0.6 - 0.8 TFLOPS/Вт; Токенов/с/Вт (Qwen-14B): ~25 - 30 токенов/с/Вт.

Nvidia A10 - TDP: 150 Вт; FP16/Watt: ~0.8 TFLOPS/Вт; Токенов/с/Вт (Qwen-14B): ~30 - 35 токенов/с/Вт;

Moore Threads MTT S3000 - TDP: ~250 Вт; FP16/Watt: ~0.4 TFLOPS/Вт; Токенов/с/Вт (Qwen-14B): N/A.

Энергоэффективность RG800 на уровне NVIDIA A10 - стандарт индустрии для inference карт. Не рекорд, но хорошо для 7 нм техпроцесса.

Масштабирование на уровне дата центра:

• 8x RG800 в сервере: ~1.2 - 1.6 кВт (только GPU);

• Рекомендуется стандартное air cooling (не требуется жидкостного охлаждения, в отличие от P800/H100);

• Density: до 8 карт в 4U-сервере (стандартная конфигурация).

Выводы и заключения

Подводя итог, Baidu Kunlun RG800 32GB PCIe представляет собой зрелое и сбалансированное решение, которое успешно закрывает нишу mid-range ускорителей для задач искусственного интеллекта. Ключевым преимуществом карты является её архитектура, оптимизированная под современные LLM и трансформерные модели: сочетание 32 ГБ сверхбыстрой памяти HBM2e и высокой пропускной способности позволяет эффективно работать с большими контекстами и объемными пакетами данных, что недоступно многим конкурентам в этом классе. При этом умеренное тепловыделение (150 - 200 Вт) и стандартный форм-фактор PCIe Gen4 x16 делают её удобным выбором для модернизации существующих серверных парков и построения энергоэффективных edge-платформ без необходимости внедрения жидкостного охлаждения.

Что работает:

· 32GB HBM2e - редкое сочетание для mid-range карты. Позволяет inference моделей до 32B параметров без квантования и до 70B с 2-карточной конфигурацией.

· HBM2e bandwidth - критично для transformer-based моделей (LLM, vision transformers).

· Низкое TDP - 150–200 Вт позволяет размещать в стандартных серверных шасси без liquid cooling.

Однако при выборе данного решения необходимо учитывать специфику программной экосистемы. Ускоритель глубоко интегрирован в стек PaddlePaddle, что обеспечивает максимальную производительность для пользователей этой платформы, но может потребовать дополнительных усилий по адаптации моделей из более популярных фреймворков, таких как PyTorch или TensorFlow. Кроме того, отсутствие прямого аналога NVLink и использование стандартного PCIe для межкристального взаимодействия накладывают определённые ограничения на масштабирование в задачах, критичных к сверхнизкой задержке кластерного обучения. Тем не менее, для сценариев инференса, где главным фактором является пропускная способность памяти и энергоэффективность, а не пиковые скорости межпроцессорного обмена, RG800 демонстрирует превосходные результаты.

Что ограничивает:

· Entity List (US 1260H): Требует due diligence при поставках. Не запрещает использование в РФ, но усложняет логистику.

· Vendor lock-in: PaddlePaddle - strong default. PyTorch/TensorFlow требуют адаптации.

· Отсутствие независимых benchmark: Невозможно верифицировать заявленную производительность без собственного тестирования.

Рекомендация для российского рынка:

RG800 32GB - логичный выбор для компаний, которые:

· Уже используют или готовы мигрировать на PaddlePaddle;

· Нуждаются в inference моделей 7B - 32B с низким latency;

· Размещают inference в собственных дата центрах (не cloud);

· Имеют партнера с опытом кросс-бордерных поставок китайских GPU (ChaiTex).

В заключение, Baidu Kunlun RG800 32GB является стратегически важным продуктом для построения суверенных AI инфраструктур. Для российских предприятий, нацеленных на локальный деплой нейросетевых сервисов (от NLP и компьютерного зрения до рекомендательных систем) и готовых к работе в рамках экосистемы PaddlePaddle, этот ускоритель предлагает уникальное сочетание объема памяти, производительности и энергоэффективности. Его внедрение позволяет снизить зависимость от глобальных поставщиков и создать высокоплотные вычислительные узлы, способные обслуживать современные языковые модели с низкой задержкой в собственных дата центрах.

Обзор Baidu Kunlun RG800 32GB PCIe