Chaitex
Chaitex / Чайтекс
Ali PG1 1536GB сервер для ресурсоемких задач
Назад в блог

Ali PG1 1536GB сервер для ресурсоемких задач

18 мая 2026 г.

Ali PG1 - флагманский AI-тренировочный сервер от Alibaba Cloud с 16 GPU Zhenwu 810E, 1536 GB HBM2e, 2×Intel 725C, 2TB RAM. Это не «сервер на чужих GPU» - Alibaba контролирует всю вертикаль: чип (Zhenwu), сервер (PG1), софт (PAI), модели (Qwen).

Технические характеристики Ali PG1 1536GB

Производитель: Alibaba Cloud;

GPU: 16 × Zhenwu 810E;

Общая VRAM: 1536 GB HBM2e;

CPU: 2 × Intel 725C;

Оперативная память: 2 TB (32 × 64 GB);

Накопители: 2 × 960 GB SATA SSD + 4 × 7.68 TB NVMe SSD;

Форм-фактор: Стандартная серверная стойка;

GPU: Zhenwu 810E

Архитектура (DSA (Domain-Specific)) - Оптимизирована под Transformer-операции;

Техпроцесс (7 нм (SMIC)) - Китайское производство;

VRAM (96 GB HBM2e) - На карту;

Memory BW (~3 TB/s (оценка)) - Конкурентно H100 80GB;

FP16/BF16 (~600–900 TFLOPS (оценка)) - Не раскрыто официально;

Интерфейс (Проприетарный / OAM-) - Не стандартный PCIe;

TDP (~350–500W (оценка)) - Требует жидкостного охлаждения;

Сервер PG1 (полная конфигурация)

GPU - 16 × Zhenwu 810E;

Общая VRAM - 1536 GB HBM2e;

CPU - 2 × Intel 725C;

CPU cores ~64 ядер (оценка);

System RAM - 2 TB DDR4/DDR5;

Системное хранилище - 2 × 960 GB SATA SSD (OS) + 4 × 7.68 TB NVMe SSD (данные);

Форм-фактор - 8U - 10U (оценка);

Охлаждение - Жидкостное (обязательно для 16 GPU);

Потребление ~8–12 кВт на сервер (оценка).

 

Ключевая особенность: Alibaba контролирует всю вертикаль - от кристалла до API вывода. Это позволяет оптимизировать pipeline на всех уровнях.

 

Сервер Ali PG1 1536GB предназначен для самых ресурсоёмких задач искусственного интеллекта, включая обучение и инференс крупных языковых, мультимодальных и генеративных моделей. В его основе - 16 ускорителей Pingtou Ge Zhenwu 810E с суммарным объёмом видеопамяти HBM2e 1536 ГБ и производительностью 1968 TFLOPS в формате FP16. Пропускная способность памяти достигает 2765 ГБ/с, а проприетарный интерконнект с пропускной способностью 700 ГБ/с (ICN) обеспечивает почти линейное масштабирование при работе с моделями на сотни миллиардов параметров. Вычислительная часть построена на двух процессорах Intel® Xeon® 8558P (96 ядер) и 2 ТБ оперативной памяти ECC DDR5. Сетевая подсистема включает десять портов 200 Гбит/с Ethernet и два порта 25 Гбит/с для управления. Сервер полностью оптимизирован для экосистем DeepSeek, Qwen и совместим с PyTorch/TensorFlow, что делает его идеальным решением для построения масштабных AI-кластеров и сложной аналитики.

 

Особенности архитектуры Ali PG1 1536GB

Архитектура чипа - Zhenwu 810E

Zhenwu (Чжэньу) - серия AI-ускорителей от Pingtou Gezhe (T-Head), полупроводникового дивизиона Alibaba Group. Модель 810E - тренировочный чип с 96 GB HBM2e.

Архитектурные решения

Domain-Specific Architecture (DSA): Отказ от универсальности GPU в пользу максимизации площади кристалла под матричные операции (GEMM). Классический trade-off: меньше универсальности - выше эффективность на тензорных workloadах.

Многоячеечная архитектура (chiplet): Несколько кристаллов на одной подложке. Масштабируемость производства без зависимости от монолитного кристалла.

Проприетарный интерконнект: Высокоскоростная шина класса NVIDIA NVLink. Масштабируется за пределы одного сервера - кластер 10 000 GPU.

7 нм техпроцесс SMIC: Уступает NVIDIA H100 (4 нм TSMC), но DSA-архитектура частично компенсирует разницу.

256-бит HBM2e контроллер: ~96 GB на карту, пропускная способность ~3 TB/s (оценка, конкурентно H100 80GB).

Серверная архитектура PG1

16 GPU в одном узле с mesh- или torus-топологией связи;

2 × Intel 725C - CPU с высоким PCIe throughput для feed данных;

2 TB системной RAM для датасетов и промежуточных активаций;

4 × 7.68 TB NVMe SSD ~15 TB быстрого хранилища для checkpoint'ов;

Сетевые интерфейсы - вероятно 8 × 200GbE/RoCE или проприетарный RDMA (не подтверждено).

Чип Zhenwu 810E построен на полностью проприетарной аппаратно-программной архитектуре T-Head, что исключает зависимость от сторонних лицензий и позволяет гибко оптимизировать решения под задачи искусственного интеллекта. Ключевым элементом является собственный PPU (Parallel Processing Unit), специально разработанный для параллельных матричных вычислений и эффективного обслуживания больших языковых моделей. Ускоритель оснащён 96 ГБ памяти HBM2e с пропускной способностью до 1,2 ТБ/с, а также семью линками проприетарного интерконнекта ICN (до 700 ГБ/с между чипами), что обеспечивает масштабируемость кластеров и минимизирует задержки при обмене данными. Для подключения используется интерфейс PCIe 5.0 x16. Внутренние тесты и независимые оценки показывают, что Zhenwu 810E превосходит NVIDIA A800 и способен конкурировать с NVIDIA H20, особенно в задачах обучения и инференса нейросетей нового поколения. Такой подход подтверждает стремление Alibaba к технологическому суверенитету и усилению позиций на рынке ИИ-ускорителей, предлагая альтернативу западным решениям при сопоставимой производительности

Предварительная оценка производительности Ali PG1 1536GB

Один GPU - сравнение

Zhenwu 810E: FP16/BF16 - ~600–900 TFLOPS; VRAM - 96 GB; Memory BW - ~3 TB/s; TDP - ~400W.

NVIDIA H100 SXM: FP16/BF16 - 989 TFLOPS; VRAM - 80 GB; Memory BW - 3.35 TB/s; TDP - 700W.

Huawei Ascend 910B: FP16/BF16 - 320 TFLOPS; VRAM - 64 GB; Memory BW - 1.6 TB/s; TDP - 310W.

Вывод: Zhenwu 810E конкурентоспособен с H100 по пиковой производительности, но реальная эффективность (FLOPS utilization) зависит от софтстека.

Сервер PG1 (16 GPU)

Тренировка LLM 70B: Возможна на одном сервере (1536 GB > требуемому); H100 DGX: 8×80GB = 640 GB - нужно 2–3 сервера.

Тренировка LLM 405B: Кластер 4 - 8 серверов; Аналогично H100-кластеру.

Инференс Qwen 72B: Высокая throughput при batch > 32; Конкурентно с 8×H100.

Инференс DeepSeek V3/R1 671B: Возможен на одном сервере с квантованием; Уникальное преимущество по памяти.

Ключевое преимущество PG1: 1536 GB VRAM на одном сервере позволяет разместить крупные модели (400B+) без кластеризации по GPU - это снижает накладные расходы на связь и упрощает развертывание.

Особенности сервера Ali PG1 1536GB

Вертикальная интеграция

С PG1 клиент получает не просто «железо», а часть экосистемы:

• Готовый кластер с предустановленным софтом;

• Интеграция с PAI (Platform of AI) - ML-платформой Alibaba;

• Доступ к Qwen-семейству моделей, оптимизированных под Zhenwu;

• One-click fine-tuning через облачный интерфейс.

Память как ключевой дифференциатор

96 GB на GPU - больше, чем у H100 (80 GB) и значительно больше Ascend 910B (64 GB). Для инференса крупных моделей с длинным контекстом - критическое преимущество.

Под какие задачи можно использовать сервер Ali PG1 1536GB

Прямое назначение (high match)

Тренировка LLM 70B–400B - Хватает памяти на одном сервере для 70B, на кластере - для 400B+;

Fine-tuning LLM - Высокая память GPU позволяет larger batch sizes, быстрее сходимость;

Инференс Qwen / китайских моделей - Нативная оптимизация, нет overhead портажа;

Мультимодальные модели (vision + text) - Большая память необходима для multimodal transformers;

RLHF / DPO тренировка - Требует хранения policy + reference + reward моделей одновременно.

Инференс западных моделей (Llama, Mistral) - Требует компиляции под Zhenwu, не гарантирована full compatibility;

Scientific computing (HPC) - DSA-архитектура не оптимизирована под non-AI workloads;

Видеогенерация - Возможно, но требует проверки поддержки операторов

Информация о проведённых тестированиях

Публично доступные тесты

• Кластер из 10 000 Zhenwu-чипов развёрнут в апреле 2026 для тренировки моделей Qwen;

• Alibaba заявляет о production-grade надёжности, но конкретные цифры пропускной способности не раскрывает;

• Публично заявлено: кластер обеспечивает тренировку моделей уровня GPT-4.

Оценка на основе архитектуры

Тренировка Transformer (FP16) - Предполагаемая производительность vs. H100;

Инференс Qwen (INT8/FP8) – 80 - 95% от H100 (благодаря оптимизации);

Тренировка с длинным контекстом (>32K) – 80 - 95% от H100 (благодаря оптимизации);

Мелкобатчевый инференс – 60 - 75% от H100 (latency-bound, компилятор менее зрелый).

Проекты, в которых уже используется

Alibaba Cloud AI Datacenter (10 000 GPU) - Production-кластер для тренировки Qwen. Первое крупномасштабное развёртывание Zhenwu.

Qwen 2.5 / 3.0 тренировка (10 000 GPU) - Флагманские модели Alibaba на Zhenwu-инфраструктуре;

Alibaba Cloud PAI (Облачный сервис) - MLaaS-платформа с инстансами на Zhenwu;

Тренировка моделей экосистемы Alibaba (DingTalk, Tmall Genie) - логично предположить;

Китайские стартапы через Alibaba Cloud (Облачный сервис) - доступ через облако.

Рейтинг сервера

Пиковая производительность (★★★★☆) - Архитектурно конкурентно H100, но реальная эффективность не подтверждена тестами;

Память GPU (★★★★★) - 96 GB на GPU - лучше в классе. 1536 GB на сервер решает memory-bound для крупных моделей;

Экосистема ПО (★★★☆☆) - Интеграция с Alibaba Cloud — отличная. Универсальность — слабая;

Наличие / логистика (★★★☆☆) - Ограниченная доступность, проприетарная архитектура, зависимость от Alibaba;

Энергоэффективность (★★★☆☆) - 7 нм техпроцесс — штраф vs. 4 нм NVIDIA. DSA-архитектура частично компенсирует;

Стоимость владения (TCO) (★★★★☆) - Вероятно ниже H100 по цене, но выше по стоимости интеграции.

Общая оценка: 3.5 / 5

PG1 — специализированное решение для enterprise, которые уже выбрали (или готовы выбрать) китайскую AI-экосистему. Это оптимальный сервер для тренировки крупных моделей в рамках Alibaba-экосистемы.

Энергоэффективность

16 × Zhenwu 810E ~ 6400 W (400W на GPU (оценка));

2 × Intel 725C ~400 W;

Системная плата, память, SSD ~300 W;

Сетевые карты ~200 W;

Итого (средняя загрузка) ~7300 W.

Итого (пиковая загрузка) ~9000 - 10000 W.

Эффективность на ватт

TFLOPS/W (FP16) ~130–175;

Tokens/W (инференс LLM) - Не тестировалось;

PUE-зависимость - При типичном PUE 1.2–1.3: ~8.8–13 кВт на сервер.

Выводы и заключения

Ali PG1 1536GB - узкоспециализированный AI-тренировочный кластер в форм-факторе одного сервера. Это не универсальный GPU-сервер, а интегрированное решение для крупномасштабного AI в рамках экосистемы Alibaba.

Для кого подходит

Enterprise, развивающие AI-стратегию в рамках китайской экосистемы - доступ к Qwen, оптимизация под китайские модели, независимость от NVIDIA;

Компании, тренирующие собственные LLM 70B+ - 1536 GB VRAM снимает узкие места в памяти;

Организации с требованиями data sovereignty - китайский стек, не попадающий под экспортные ограничения США.

Команды на CUDA/PyTorch без ресурсов на портаж - потребуется адаптация моделей под Zhenwu;

Задачи за пределами AI-training/inference - DSA-архитектура не универсальна;

• Бюджеты без запаса на инфраструктуру - требует жидкостного охлаждения и специализированных дата-центров

Стратегическая оценка

Ali PG1 - это не просто продукт, это сигнал. Alibaba демонстрирует, что крупнейшая китайская облачная платформа полностью отказалась от NVIDIA для собственной AI-инфраструктуры и строит вертикально-интегрированный стек. 10 000 GPU в production - это не эксперимент, это промышленный масштаб.

Для российского рынка PG1 открывает окно в экосистему, которая уже обеспечивает 61% мирового потребления AI-токенов (по данным OpenRouter, февраль 2026). Когда крупнейшие модели мира (Qwen, DeepSeek) тренируются и работают на китайском железе.

 

Ali PG1 1536GB - это не просто сервер, а ключевой элемент стратегии технологического суверенитета и лидерства Alibaba Cloud в области искусственного интеллекта. Внедрение собственного чипа Zhenwu 810E, проприетарного интерконнекта и глубокой интеграции с облачными сервисами и моделями Qwen демонстрирует зрелость китайской AI-экосистемы и её способность конкурировать с западными аналогами на глобальном уровне. Для корпоративных заказчиков это означает не только доступ к передовым вычислительным мощностям, но и независимость от экспортных ограничений, а также возможность развивать собственные LLM и мультимодальные модели без риска потери доступа к критической инфраструктуре. В условиях стремительного роста спроса на AI-решения и ужесточения глобальной конкуренции, Ali PG1 становится стратегическим выбором для компаний, ориентированных на долгосрочное развитие в рамках китайской цифровой экономики и готовых инвестировать в интеграцию с уникальной экосистемой Alibaba Cloud.