Обзор AI-суперузла Huawei Atlas 950 SuperPoD
27 мая 2026 г.
Huawei Atlas 950 SuperPoD - флагманский AI-суперузел (SuperPoD), представленный на Huawei Connect 2025 в сентябре 2025 года. Первая публичная демонстрация за рубежом состоялась на MWC Barcelona 2026 (март 2026).
Huawei Atlas 950 SuperPoD - это не просто сервер, а системная архитектура, объединяющая до 8192 карт Ascend NPU в единый вычислительный узел с общей памятью и высокоскоростной interconnect. Позиционируется как решение для тренировки моделей с триллионами параметров и инференса в масштабе всего датацентра.
Ключевое отличие от традиционных кластеров, вместо простого объединения серверов через Ethernet, Atlas 950 SuperPoD работает как один логический компьютер благодаря протоколу interconnect Lingqu (UnifiedBus) 2.0.
Особенности архитектуры сервера Huawei Atlas 950 SuperPoD
Собственный ротокол Lingqu (UnifiedBus) 2.0 Huawei, реализующий три ключевых принципа:
• Ultra-large bandwidth - 16.3 PB/s полоса на уровне оптического interconnect (в 62 раза выше типовых решений);
• Ultra-low latency - RTT 3 микросекунды (снижение на 50% vs 7 мкс в традиционных кластерах);
• Unified memory addressing - 1152 TB общего пула памяти с единым адресным пространством.
Рекурсивная UB-Mesh topology с прямым соединением: внутри платы, между платами, между стойками - все NPU соединены напрямую без конвергенции.
Важная особенность сервера полностью жидкостное охлаждение:
• Ортогональная архитектура с zero-cable electrical interconnect;
• Плавающая слепая вставка коннекторов жидкостного охлаждения - zero leakage;
• Жидкостное охлаждение оптических модулей повышает их надежность в 2 раза.
Масштабируемость:
• SuperPoD: до 8192 карт Ascend NPU;
• SuperCluster (64 SuperPoD): 524 288 NPU, 524 FP8 ExaFLOPS;
• Поддержка RoCE и UBoE (Unified Bus over Ethernet).
Технические характеристики сервера Huawei Atlas 950 SuperPoD
Ascend 950 NPU:
• Единый Die для вариантов 950PR (inference) и 950DT (training);
• Поддержка форматов: FP8, MXFP8, MXFP4, HiF8 (собственный формат Huawei, близкий к FP16 по точности);
• Interconnect bandwidth: 2 TB/s (в 2.5 раза выше Ascend 910C);
• Собственная HBM-память.
Atlas 950 SuperPoD (1 узел):
• Макс. конфигурация: 8192 Ascend 950 NPU;
• FP8 compute: 8 ExaFLOPS;
• FP4 compute: 16 ExaFLOPS;
• Общая память: 1152 TB;
• Полоса interconnect: 16.3 PB/s;
• Задержка: 3 мкс RTT;
• Площадь: ~1000 кв.м (160 стоек).
Atlas 950 SuperCluster (полный кластер):
• 64 SuperPoD = 524 288 Ascend 950DT NPU;
• FP8: 524 ExaFLOPS;
• FP4: 1 ZettaFLOPS;
• Площадь: ~64 000 кв.м.
Enterprise-вариант Atlas 850E:
• Воздушное охлаждение;
• 8 - 1024 карты;
• Для существующих ЦОД без жидкостного охлаждения.
Предварительная оценка производительности
Сравнение с конкурентами:
Huawei Atlas 950 SuperPoD: FP8 compute (1 узел) - 8 EFLOPS; NPU/GPU на узел - 8192; FP8 (кластер) - 524 EFLOPS; Interconnect - 16.3 PB/s; Latency - 3 мкс.
NVIDIA Vera Rubin NVL144: FP8 compute (1 узел) - 1.2 EFLOPS; NPU/GPU на узел - 144; FP8 (кластер) - ~400 EFLOPS; Interconnect - NVLink 5; Latency ~1 мкс (NVLink).
xAI Colossus: FP8 compute (1 узел) - -//-; NPU/GPU на узел ~100K H100; FP8 (кластер) - -//-; Interconnect - InfiniBand; Latency ~7 мкс.
Oracle OCI: FP8 compute (1 узел) - -//-; NPU/GPU на узел - 131K B200; FP8 (кластер) - 2.4 ZFLOPS FP4; Interconnect - -//-; Latency - -//-.
Ключевые выводы по производительности:
• Atlas 950 SuperPoD дает в 6.7 раза больше FP8/FLOPS на узел, чем NVIDIA Vera Rubin NVL144;
• Huawei идет по пути «много слабых чипов + идеальный interconnect» vs NVIDIA «мощный чип + NVLink»;
• Для задач, требующих massive parallelism (тренировка LLM), подход Huawei эффективнее;
• Для задач с малым parallelism (inference одной модели) - преимущество менее очевидно.
Особенности сервера Huawei Atlas 950 SuperPoD
• Единый адресное пространство памяти - программирование как на одном компьютере;
• Массивная масштабируемость без потери эффективности;
• Полностью жидкостное охлаждение - высокая плотность, низкий шум;
• Собственный стек CANN полностью open-source;
• Поддержка 65+ open-source LLM, 50+ open-source проектов;
• Интеграция с PyTorch, vLLM, xLLM, SGLang, Triton.
Под какие задачи можно использовать сервер
• Тренировка foundation models (триллионы параметров);
• Pre-training и continual pre-training LLM;
• Мультимодальные модели (текст + изображение + видео);
• Масштабное обучение с подкреплением;
• Научные вычисления (климат, биология, физика);
• Пакетный вывод больших моделей;
• Fine-tuning на enterprise-датасетах;
• AI-агенты с длинным контекстом;
• Генеративный AI (image, video, 3D);
• Real-time inference с жесткими latency-требованиями (<10 мс);
• Edge deployment;
• Задачи с малым parallelism;
• Inference мелких моделей.
Информация о проведённых тестированиях
• Huawei Connect 2025 (сентябрь 2025): анонс архитектуры, заявленные спецификации.
• MWC Barcelona 2026 (март 2026): демонстрация работающих систем.
• Atlas 900 A3 SuperPoD (предыдущее поколение, 384 карты): уже развернуто «сотни систем» в Китае (по данным Huawei). Это подтверждает зрелость архитектуры Lingqu.
• DeepSeek V4 на Ascend 950PR: адаптация Day 0, заявлено permanent снижение цен API на 75% (май 2026).
В каких проектах уже используется
Подтвержденные развертывания в Китае:
• ByteDance: заказ Ascend 950PR на 38 млрд юаней (~$5.3 млрд);
• Alibaba / Tencent: многомиллиардные заказы на Ascend 950;
• Телеком-операторы: China Mobile, China Telecom развертывают Atlas для облачных AI-сервисов;
• Банки и страховые компании для моделирования рисков и выявления мошенничетсва;
• Автомобильные концерны для беспилотного вождения и контроля качества.
Atlas 900 A3 SuperPoD (предыдущее поколение, 384 карты, Lingqu 1.0):
• Развернуто сотни систем в интернет-компаниях, телекоме, производстве;
• Подтвержденная зрелость архитектуры.
Рейтинг сервера Huawei Atlas 950 SuperPoD
Производительность (★★★★★) - 8 EFLOPS FP8 на узел, лидер по заявленным данным;
Эффективность на реальных нагрузках (★★★★☆) - Нет независимых бенчмарков, но архитектура логически обоснована;
Масштабируемость (★★★★★) - 8192 карты как один компьютер;
Экосистема ПО (★★★★☆) - CANN open-source, 65+ LLM;
Надежность/зрелость (★★★★☆) - Atlas 900 A3 уже в production, 950 - новое поколение;
Энергоэффективность (★★★★☆) - Жидкостное охлаждение, но 8192 чипа = значительное потребление;
Цена/производительность (★★★★★) - Значительно дешевле NVIDIA при сопоставимой производительности.
Итоговый рейтинг: 4.3/5
Сильнейшая сторона - масштабируемость и цена. Пока ещё зависимость от экосистемы Huawei.
Энергоэффективность
• Atlas 950 SuperPoD (8192 NPU, 160 стоек): точные цифры Huawei не раскрывает, но оценочно 5–8 МВт на SuperPoD;
• Atlas 950 SuperCluster (64 SuperPoD): 320 - 500 МВт;
• Для сравнения: xAI Colossus (~100K H100) потребляет ~150 МВт.
Факторы энергоэффективности:
• Полностью жидкостное охлаждение - PUE может быть ниже 1.1 (vs 1.3 - 1.5 для воздушного);
• Высокая плотность вычислений - меньше площади ЦОД на единицу FLOPS;
• Оптимизированный interconnect снижает энергопотребление на передачу данных.
PUE (Power Usage Effectiveness):
• Заявлено: <1.1 для новых ЦОД Huawei с жидкостным охлаждением;
• Это сопоставимо с лучшими гиперскейлерами (Google, Microsoft).
Вывод по энергоэффективности:
На уровне системы (FLOPS per Watt) Atlas 950 SuperPoD конкурентоспособен благодаря масштабу и жидкостному охлаждению. На уровне отдельного чипа Ascend 950 уступает NVIDIA H100/H200 из-за относительно старого техпроцесса (7 нм против 4 нм).
Выводы и заключения
Huawei Atlas 950 SuperPoD это не сервер в традиционном понимании, а системная архитектура, которая объединяет 8192 AI-ускорителя в один логический компьютер. Huawei идет по пути, противоположному NVIDIA: вместо максимизации мощности отдельного чипа - максимизация эффективности interconnect и масштаба.
Рекомендуется для:
• Гиперскейлеры, тренирующие foundation models (триллионы параметров);
• Национальные AI-инициативы (государственные облака, суверенный AI);
• Крупные enterprise, готовые инвестировать в специализированную инфраструктуру.
Позиция для российского рынка:
• Доступен для поставок через ChaiTex (в рамках китайско-российского технологического сотрудничества);
• Значительно дешевле NVIDIA при сопоставимой производительности на уровне кластера;
• Полный стек: чип + CANN + MindSpore + модели (DeepSeek V4 адаптирован Day 0);
• Государственная сертификация безопасности I уровня.
Huawei Atlas 950 SuperPoD - самый амбициозный китайский проект в AI-инфраструктуре. Архитектурно это не “китайская NVIDIA”, а принципиально другой подход к масштабным вычислениям.
Для России - это шанс получить доступ к production ready инфраструктуре для тренировки собственных foundation models без западных технологий. Но требует серьезных инвестиций в ЦОД и экспертизу.
Huawei Atlas 950 SuperPoD представляет собой революционный подход к построению AI-инфраструктуры, отходя от традиционной кластерной модели к концепции единого логического компьютера. Ключевым преимуществом системы является её беспрецедентная масштабируемость (до 8192 NPU в одном узле и 524 288 в полном кластере) и уникальная архитектура Lingqu (UnifiedBus) 2.0. Благодаря этому достигается колоссальная пропускная способность (16.3 ПБ/с) и сверхнизкая задержка (3 мкс), что в сочетании с единым адресным пространством памяти (1152 ТБ) кардинально упрощает программирование для задач с массовым параллелизмом.
Сравнение с конкурентами, показывает, что стратегия Huawei “много слабых чипов + идеальный интерконнект” оказывается в разы эффективнее для обучения сверхкрупных языковых моделей (foundation models) с триллионами параметров, где узким местом становится именно передача данных, а не производительность отдельного ядра.
Дополнительным фактором эффективности является полностью жидкостное охлаждение, которое обеспечивает высокую плотность вычислений, низкий уровень шума и потенциально превосходный показатель энергоэффективности на уровне всего дата-центра (PUE < 1.1), несмотря на высокое общее энергопотребление узла (оценочно 5–8 МВт). Зрелость архитектуры подтверждается успешным опытом эксплуатации предыдущего поколения Atlas 900 A3 в крупнейших китайских компаниях.
Huawei Atlas 950 SuperPoD - это не просто сервер, а стратегическая системная архитектура, предлагающая альтернативный западным вендорам путь для создания суверенной AI-инфраструктуры. Для российского рынка это решение представляет собой уникальную возможность получить доступ к production-ready оборудованию для разработки собственных фундаментальных моделей без санкционных рисков, что подкрепляется наличием полного стека технологий (от чипов и открытого ПО CANN до адаптированных моделей вроде DeepSeek V4) и государственной сертификацией безопасности.
