Ali PG1 1536GB сервер для ресурсоемких задач
18 мая 2026 г.
Ali PG1 - флагманский AI-тренировочный сервер от Alibaba Cloud с 16 GPU Zhenwu 810E, 1536 GB HBM2e, 2×Intel 725C, 2TB RAM. Это не «сервер на чужих GPU» - Alibaba контролирует всю вертикаль: чип (Zhenwu), сервер (PG1), софт (PAI), модели (Qwen).
Технические характеристики Ali PG1 1536GB
Производитель: Alibaba Cloud;
GPU: 16 × Zhenwu 810E;
Общая VRAM: 1536 GB HBM2e;
CPU: 2 × Intel 725C;
Оперативная память: 2 TB (32 × 64 GB);
Накопители: 2 × 960 GB SATA SSD + 4 × 7.68 TB NVMe SSD;
Форм-фактор: Стандартная серверная стойка;
GPU: Zhenwu 810E
Архитектура (DSA (Domain-Specific)) - Оптимизирована под Transformer-операции;
Техпроцесс (7 нм (SMIC)) - Китайское производство;
VRAM (96 GB HBM2e) - На карту;
Memory BW (~3 TB/s (оценка)) - Конкурентно H100 80GB;
FP16/BF16 (~600–900 TFLOPS (оценка)) - Не раскрыто официально;
Интерфейс (Проприетарный / OAM-) - Не стандартный PCIe;
TDP (~350–500W (оценка)) - Требует жидкостного охлаждения;
Сервер PG1 (полная конфигурация)
GPU - 16 × Zhenwu 810E;
Общая VRAM - 1536 GB HBM2e;
CPU - 2 × Intel 725C;
CPU cores ~64 ядер (оценка);
System RAM - 2 TB DDR4/DDR5;
Системное хранилище - 2 × 960 GB SATA SSD (OS) + 4 × 7.68 TB NVMe SSD (данные);
Форм-фактор - 8U - 10U (оценка);
Охлаждение - Жидкостное (обязательно для 16 GPU);
Потребление ~8–12 кВт на сервер (оценка).
Ключевая особенность: Alibaba контролирует всю вертикаль - от кристалла до API вывода. Это позволяет оптимизировать pipeline на всех уровнях.
Сервер Ali PG1 1536GB предназначен для самых ресурсоёмких задач искусственного интеллекта, включая обучение и инференс крупных языковых, мультимодальных и генеративных моделей. В его основе - 16 ускорителей Pingtou Ge Zhenwu 810E с суммарным объёмом видеопамяти HBM2e 1536 ГБ и производительностью 1968 TFLOPS в формате FP16. Пропускная способность памяти достигает 2765 ГБ/с, а проприетарный интерконнект с пропускной способностью 700 ГБ/с (ICN) обеспечивает почти линейное масштабирование при работе с моделями на сотни миллиардов параметров. Вычислительная часть построена на двух процессорах Intel® Xeon® 8558P (96 ядер) и 2 ТБ оперативной памяти ECC DDR5. Сетевая подсистема включает десять портов 200 Гбит/с Ethernet и два порта 25 Гбит/с для управления. Сервер полностью оптимизирован для экосистем DeepSeek, Qwen и совместим с PyTorch/TensorFlow, что делает его идеальным решением для построения масштабных AI-кластеров и сложной аналитики.
Особенности архитектуры Ali PG1 1536GB
Архитектура чипа - Zhenwu 810E
Zhenwu (Чжэньу) - серия AI-ускорителей от Pingtou Gezhe (T-Head), полупроводникового дивизиона Alibaba Group. Модель 810E - тренировочный чип с 96 GB HBM2e.
Архитектурные решения
• Domain-Specific Architecture (DSA): Отказ от универсальности GPU в пользу максимизации площади кристалла под матричные операции (GEMM). Классический trade-off: меньше универсальности - выше эффективность на тензорных workloadах.
• Многоячеечная архитектура (chiplet): Несколько кристаллов на одной подложке. Масштабируемость производства без зависимости от монолитного кристалла.
• Проприетарный интерконнект: Высокоскоростная шина класса NVIDIA NVLink. Масштабируется за пределы одного сервера - кластер 10 000 GPU.
• 7 нм техпроцесс SMIC: Уступает NVIDIA H100 (4 нм TSMC), но DSA-архитектура частично компенсирует разницу.
• 256-бит HBM2e контроллер: ~96 GB на карту, пропускная способность ~3 TB/s (оценка, конкурентно H100 80GB).
Серверная архитектура PG1
• 16 GPU в одном узле с mesh- или torus-топологией связи;
• 2 × Intel 725C - CPU с высоким PCIe throughput для feed данных;
• 2 TB системной RAM для датасетов и промежуточных активаций;
• 4 × 7.68 TB NVMe SSD ~15 TB быстрого хранилища для checkpoint'ов;
• Сетевые интерфейсы - вероятно 8 × 200GbE/RoCE или проприетарный RDMA (не подтверждено).
Чип Zhenwu 810E построен на полностью проприетарной аппаратно-программной архитектуре T-Head, что исключает зависимость от сторонних лицензий и позволяет гибко оптимизировать решения под задачи искусственного интеллекта. Ключевым элементом является собственный PPU (Parallel Processing Unit), специально разработанный для параллельных матричных вычислений и эффективного обслуживания больших языковых моделей. Ускоритель оснащён 96 ГБ памяти HBM2e с пропускной способностью до 1,2 ТБ/с, а также семью линками проприетарного интерконнекта ICN (до 700 ГБ/с между чипами), что обеспечивает масштабируемость кластеров и минимизирует задержки при обмене данными. Для подключения используется интерфейс PCIe 5.0 x16. Внутренние тесты и независимые оценки показывают, что Zhenwu 810E превосходит NVIDIA A800 и способен конкурировать с NVIDIA H20, особенно в задачах обучения и инференса нейросетей нового поколения. Такой подход подтверждает стремление Alibaba к технологическому суверенитету и усилению позиций на рынке ИИ-ускорителей, предлагая альтернативу западным решениям при сопоставимой производительности
Предварительная оценка производительности Ali PG1 1536GB
Один GPU - сравнение
Zhenwu 810E: FP16/BF16 - ~600–900 TFLOPS; VRAM - 96 GB; Memory BW - ~3 TB/s; TDP - ~400W.
NVIDIA H100 SXM: FP16/BF16 - 989 TFLOPS; VRAM - 80 GB; Memory BW - 3.35 TB/s; TDP - 700W.
Huawei Ascend 910B: FP16/BF16 - 320 TFLOPS; VRAM - 64 GB; Memory BW - 1.6 TB/s; TDP - 310W.
Вывод: Zhenwu 810E конкурентоспособен с H100 по пиковой производительности, но реальная эффективность (FLOPS utilization) зависит от софтстека.
Сервер PG1 (16 GPU)
Тренировка LLM 70B: Возможна на одном сервере (1536 GB > требуемому); H100 DGX: 8×80GB = 640 GB - нужно 2–3 сервера.
Тренировка LLM 405B: Кластер 4 - 8 серверов; Аналогично H100-кластеру.
Инференс Qwen 72B: Высокая throughput при batch > 32; Конкурентно с 8×H100.
Инференс DeepSeek V3/R1 671B: Возможен на одном сервере с квантованием; Уникальное преимущество по памяти.
Ключевое преимущество PG1: 1536 GB VRAM на одном сервере позволяет разместить крупные модели (400B+) без кластеризации по GPU - это снижает накладные расходы на связь и упрощает развертывание.
Особенности сервера Ali PG1 1536GB
Вертикальная интеграция
С PG1 клиент получает не просто «железо», а часть экосистемы:
• Готовый кластер с предустановленным софтом;
• Интеграция с PAI (Platform of AI) - ML-платформой Alibaba;
• Доступ к Qwen-семейству моделей, оптимизированных под Zhenwu;
• One-click fine-tuning через облачный интерфейс.
Память как ключевой дифференциатор
96 GB на GPU - больше, чем у H100 (80 GB) и значительно больше Ascend 910B (64 GB). Для инференса крупных моделей с длинным контекстом - критическое преимущество.
Под какие задачи можно использовать сервер Ali PG1 1536GB
Прямое назначение (high match)
Тренировка LLM 70B–400B - Хватает памяти на одном сервере для 70B, на кластере - для 400B+;
Fine-tuning LLM - Высокая память GPU позволяет larger batch sizes, быстрее сходимость;
Инференс Qwen / китайских моделей - Нативная оптимизация, нет overhead портажа;
Мультимодальные модели (vision + text) - Большая память необходима для multimodal transformers;
RLHF / DPO тренировка - Требует хранения policy + reference + reward моделей одновременно.
Инференс западных моделей (Llama, Mistral) - Требует компиляции под Zhenwu, не гарантирована full compatibility;
Scientific computing (HPC) - DSA-архитектура не оптимизирована под non-AI workloads;
Видеогенерация - Возможно, но требует проверки поддержки операторов
Информация о проведённых тестированиях
Публично доступные тесты
• Кластер из 10 000 Zhenwu-чипов развёрнут в апреле 2026 для тренировки моделей Qwen;
• Alibaba заявляет о production-grade надёжности, но конкретные цифры пропускной способности не раскрывает;
• Публично заявлено: кластер обеспечивает тренировку моделей уровня GPT-4.
Оценка на основе архитектуры
Тренировка Transformer (FP16) - Предполагаемая производительность vs. H100;
Инференс Qwen (INT8/FP8) – 80 - 95% от H100 (благодаря оптимизации);
Тренировка с длинным контекстом (>32K) – 80 - 95% от H100 (благодаря оптимизации);
Мелкобатчевый инференс – 60 - 75% от H100 (latency-bound, компилятор менее зрелый).
Проекты, в которых уже используется
Alibaba Cloud AI Datacenter (10 000 GPU) - Production-кластер для тренировки Qwen. Первое крупномасштабное развёртывание Zhenwu.
Qwen 2.5 / 3.0 тренировка (10 000 GPU) - Флагманские модели Alibaba на Zhenwu-инфраструктуре;
Alibaba Cloud PAI (Облачный сервис) - MLaaS-платформа с инстансами на Zhenwu;
Тренировка моделей экосистемы Alibaba (DingTalk, Tmall Genie) - логично предположить;
Китайские стартапы через Alibaba Cloud (Облачный сервис) - доступ через облако.
Рейтинг сервера
Пиковая производительность (★★★★☆) - Архитектурно конкурентно H100, но реальная эффективность не подтверждена тестами;
Память GPU (★★★★★) - 96 GB на GPU - лучше в классе. 1536 GB на сервер решает memory-bound для крупных моделей;
Экосистема ПО (★★★☆☆) - Интеграция с Alibaba Cloud — отличная. Универсальность — слабая;
Наличие / логистика (★★★☆☆) - Ограниченная доступность, проприетарная архитектура, зависимость от Alibaba;
Энергоэффективность (★★★☆☆) - 7 нм техпроцесс — штраф vs. 4 нм NVIDIA. DSA-архитектура частично компенсирует;
Стоимость владения (TCO) (★★★★☆) - Вероятно ниже H100 по цене, но выше по стоимости интеграции.
Общая оценка: 3.5 / 5
PG1 — специализированное решение для enterprise, которые уже выбрали (или готовы выбрать) китайскую AI-экосистему. Это оптимальный сервер для тренировки крупных моделей в рамках Alibaba-экосистемы.
Энергоэффективность
16 × Zhenwu 810E ~ 6400 W (400W на GPU (оценка));
2 × Intel 725C ~400 W;
Системная плата, память, SSD ~300 W;
Сетевые карты ~200 W;
Итого (средняя загрузка) ~7300 W.
Итого (пиковая загрузка) ~9000 - 10000 W.
Эффективность на ватт
TFLOPS/W (FP16) ~130–175;
Tokens/W (инференс LLM) - Не тестировалось;
PUE-зависимость - При типичном PUE 1.2–1.3: ~8.8–13 кВт на сервер.
Выводы и заключения
Ali PG1 1536GB - узкоспециализированный AI-тренировочный кластер в форм-факторе одного сервера. Это не универсальный GPU-сервер, а интегрированное решение для крупномасштабного AI в рамках экосистемы Alibaba.
Для кого подходит
• Enterprise, развивающие AI-стратегию в рамках китайской экосистемы - доступ к Qwen, оптимизация под китайские модели, независимость от NVIDIA;
• Компании, тренирующие собственные LLM 70B+ - 1536 GB VRAM снимает узкие места в памяти;
• Организации с требованиями data sovereignty - китайский стек, не попадающий под экспортные ограничения США.
• Команды на CUDA/PyTorch без ресурсов на портаж - потребуется адаптация моделей под Zhenwu;
• Задачи за пределами AI-training/inference - DSA-архитектура не универсальна;
• Бюджеты без запаса на инфраструктуру - требует жидкостного охлаждения и специализированных дата-центров
Стратегическая оценка
Ali PG1 - это не просто продукт, это сигнал. Alibaba демонстрирует, что крупнейшая китайская облачная платформа полностью отказалась от NVIDIA для собственной AI-инфраструктуры и строит вертикально-интегрированный стек. 10 000 GPU в production - это не эксперимент, это промышленный масштаб.
Для российского рынка PG1 открывает окно в экосистему, которая уже обеспечивает 61% мирового потребления AI-токенов (по данным OpenRouter, февраль 2026). Когда крупнейшие модели мира (Qwen, DeepSeek) тренируются и работают на китайском железе.
Ali PG1 1536GB - это не просто сервер, а ключевой элемент стратегии технологического суверенитета и лидерства Alibaba Cloud в области искусственного интеллекта. Внедрение собственного чипа Zhenwu 810E, проприетарного интерконнекта и глубокой интеграции с облачными сервисами и моделями Qwen демонстрирует зрелость китайской AI-экосистемы и её способность конкурировать с западными аналогами на глобальном уровне. Для корпоративных заказчиков это означает не только доступ к передовым вычислительным мощностям, но и независимость от экспортных ограничений, а также возможность развивать собственные LLM и мультимодальные модели без риска потери доступа к критической инфраструктуре. В условиях стремительного роста спроса на AI-решения и ужесточения глобальной конкуренции, Ali PG1 становится стратегическим выбором для компаний, ориентированных на долгосрочное развитие в рамках китайской цифровой экономики и готовых инвестировать в интеграцию с уникальной экосистемой Alibaba Cloud.
