Ali PG1 1536GB сервер для ресурсоемких задач

Ali PG1 - флагманский AI тренировочный сервер от Alibaba Cloud с 16 GPU Zhenwu 810E, 1536 GB HBM2e, 2×Intel 725C, 2TB RAM. Это не сервер на чужих GPU - Alibaba контролирует всю вертикаль: чип (Zhenwu), сервер (PG1), софт (PAI), модели (Qwen).

Технические характеристики Ali PG1 1536GB

Производитель: Alibaba Cloud;

GPU: 16 × Zhenwu 810E;

Общая VRAM: 1536 GB HBM2e;

CPU: 2 × Intel 725C;

Оперативная память: 2 TB (32 × 64 GB);

Накопители: 2 × 960 GB SATA SSD + 4 × 7.68 TB NVMe SSD;

Форм-фактор: Стандартная серверная стойка.

GPU: Zhenwu 810E

Архитектура (DSA (Domain-Specific)) - Оптимизирована под Transformer операции;

Техпроцесс (7 нм (SMIC)) - Китайское производство;

VRAM (96 GB HBM2e) - На карту;

Memory BW (~3 TB/s) - Конкурентно H100 80GB;

FP16/BF16 (~600 - 900 TFLOPS) - Не раскрыто официально;

Интерфейс (Проприетарный / OAM-) - Не стандартный PCIe;

TDP (~350 - 500W) - Требует жидкостного охлаждения.

Сервер PG1 (полная конфигурация)

GPU - 16 × Zhenwu 810E;

Общая VRAM - 1536 GB HBM2e;

CPU - 2 × Intel 725C;

CPU cores ~64 ядер;

System RAM - 2 TB DDR4/DDR5;

Системное хранилище - 2 × 960 GB SATA SSD (OS) + 4 × 7.68 TB NVMe SSD;

Форм-фактор - 8U - 10U;

Охлаждение - Жидкостное (обязательно для 16 GPU);

Потребление ~8–12 кВт на сервер.

Ключевая особенность: Alibaba контролирует всю вертикаль - от кристалла до API вывода. Это позволяет оптимизировать pipeline на всех уровнях.

Сервер Ali PG1 1536GB предназначен для самых ресурсоёмких задач искусственного интеллекта, включая обучение и инференс крупных языковых, мультимодальных и генеративных моделей. В его основе - 16 ускорителей Pingtou Ge Zhenwu 810E с суммарным объёмом видеопамяти HBM2e 1536 ГБ и производительностью 1968 TFLOPS в формате FP16. Пропускная способность памяти достигает 2765 ГБ/с, а проприетарный интерконнект с пропускной способностью 700 ГБ/с (ICN) обеспечивает почти линейное масштабирование при работе с моделями на сотни миллиардов параметров.

Вычислительная часть построена на двух процессорах Intel® Xeon® 8558P (96 ядер) и 2 ТБ оперативной памяти ECC DDR5. Сетевая подсистема включает десять портов 200 Гбит/с Ethernet и два порта 25 Гбит/с для управления. Сервер полностью оптимизирован для экосистем DeepSeek, Qwen и совместим с PyTorch/TensorFlow, что делает его идеальным решением для построения масштабных AI кластеров и сложной аналитики.

Особенности архитектуры Ali PG1 1536GB

Архитектура чипа - Zhenwu 810E

Zhenwu (Чжэньу) - серия AI ускорителей от Pingtou Gezhe (T-Head), полупроводникового дивизиона Alibaba Group. Модель 810E - тренировочный чип с 96 GB HBM2e.

Архитектурные решения

• Domain-Specific Architecture (DSA): Отказ от универсальности GPU в пользу максимизации площади кристалла под матричные операции (GEMM). Классический компромисс: меньше универсальности - выше эффективность на тензорных workloadах.

• Многоячеечная архитектура (chiplet): Несколько кристаллов на одной подложке. Масштабируемость производства без зависимости от монолитного кристалла.

• Проприетарный интерконнект: Высокоскоростная шина класса NVIDIA NVLink. Масштабируется за пределы одного сервера - кластер 10 000 GPU.

• 7 нм техпроцесс SMIC: Уступает NVIDIA H100 (4 нм TSMC), но DSA архитектура частично компенсирует разницу.

• 256-бит HBM2e контроллер: ~96 GB на карту, пропускная способность ~3 TB/s (оценка, конкурентно H100 80GB).

Серверная архитектура PG1

• 16 GPU в одном узле с mesh- или torus топологией связи;

• 2 × Intel 725C - CPU с высоким PCIe throughput для feed данных;

• 2 TB системной RAM для датасетов и промежуточных активаций;

• 4 × 7.68 TB NVMe SSD ~15 TB быстрого хранилища для checkpoint'ов;

• Сетевые интерфейсы - вероятно 8 × 200GbE/RoCE или проприетарный RDMA (не подтверждено).

Чип Zhenwu 810E построен на полностью проприетарной аппаратно-программной архитектуре T-Head, что исключает зависимость от сторонних лицензий и позволяет гибко оптимизировать решения под задачи искусственного интеллекта. Ключевым элементом является собственный PPU (Parallel Processing Unit), специально разработанный для параллельных матричных вычислений и эффективного обслуживания больших языковых моделей.

Ускоритель оснащён 96 ГБ памяти HBM2e с пропускной способностью до 1,2 ТБ/с, а также семью линками проприетарного интерконнекта ICN (до 700 ГБ/с между чипами), что обеспечивает масштабируемость кластеров и минимизирует задержки при обмене данными. Для подключения используется интерфейс PCIe 5.0 x16. Внутренние тесты и независимые оценки показывают, что Zhenwu 810E превосходит NVIDIA A800 и способен конкурировать с NVIDIA H20, особенно в задачах обучения и инференса нейросетей нового поколения. Такой подход подтверждает стремление Alibaba к технологическому суверенитету и усилению позиций на рынке ИИ ускорителей, предлагая альтернативу западным решениям при сопоставимой производительности

Предварительная оценка производительности Ali PG1 1536GB

Один GPU - сравнение

Zhenwu 810E - FP16/BF16: ~600 - 900 TFLOPS; VRAM: 96 GB; Memory BW: ~3 TB/s; TDP: ~400W.

NVIDIA H100 SXM: FP16/BF16: 989 TFLOPS; VRAM: 80 GB; Memory BW: 3.35 TB/s; TDP: 700W.

Huawei Ascend 910B: FP16/BF16: 320 TFLOPS; VRAM: 64 GB; Memory BW: 1.6 TB/s; TDP: 310W.

Вывод: Zhenwu 810E конкурентоспособен с H100 по пиковой производительности, но реальная эффективность (FLOPS utilization) зависит от софтстека.

Сервер PG1 (16 GPU)

Тренировка LLM 70B: Возможна на одном сервере (1536 GB > требуемому); H100 DGX: 8×80GB = 640 GB - нужно 2 - 3 сервера.

Тренировка LLM 405B: Кластер 4 - 8 серверов; Аналогично кластеру H100.

Инференс Qwen 72B: Высокая throughput при batch > 32; Конкурентно с 8×H100.

Инференс DeepSeek V3/R1 671B: Возможен на одном сервере с квантованием; Уникальное преимущество по памяти.

Ключевое преимущество PG1: 1536 GB VRAM на одном сервере позволяет разместить крупные модели (400B+) без кластеризации по GPU - это снижает накладные расходы на связь и упрощает развертывание.

Особенности сервера Ali PG1 1536GB

Вертикальная интеграция

С PG1 клиент получает не просто железо, а часть экосистемы:

• Готовый кластер с предустановленным софтом;

• Интеграция с PAI (Platform of AI) - ML платформой Alibaba;

• Доступ к Qwen-семейству моделей, оптимизированных под Zhenwu;

• One-click fine-tuning через облачный интерфейс.

Память как ключевой дифференциатор

96 GB на GPU - больше, чем у H100 (80 GB) и значительно больше Ascend 910B (64 GB). Для инференса крупных моделей с длинным контекстом - критическое преимущество.

Под какие задачи можно использовать сервер Ali PG1 1536GB

Прямое назначение (high match)

Тренировка LLM 70B - 400B - Хватает памяти на одном сервере для 70B, на кластере - для 400B+;

Fine-tuning LLM - Высокая память GPU позволяет larger batch sizes, быстрее сходимость;

Инференс Qwen / китайских моделей - Нативная оптимизация, нет overhead портажа;

Мультимодальные модели (vision + text) - Большая память необходима для multimodal transformers;

RLHF / DPO тренировка - Требует хранения policy + reference + reward моделей одновременно.

Инференс западных моделей (Llama, Mistral) - Требует компиляции под Zhenwu, не гарантирована полная совместимость;

Scientific computing (HPC) - DSA архитектура не оптимизирована под non AI workloads;

Видеогенерация - Возможно, но требует проверки поддержки операторов

Информация о проведённых тестированиях

Публично доступные тесты

• Кластер из 10 000 Zhenwu чипов развёрнут в апреле 2026 для тренировки моделей Qwen;

• Alibaba заявляет о надежности уровня production, но конкретные цифры пропускной способности не раскрывает;

• Публично заявлено: кластер обеспечивает тренировку моделей уровня GPT-4.

Оценка на основе архитектуры

Тренировка Transformer (FP16): Предполагаемая производительность vs. H100;

Инференс Qwen (INT8/FP8): 80 - 95% от H100 (благодаря оптимизации);

Тренировка с длинным контекстом (>32K) – 80 - 95% от H100 (благодаря оптимизации);

Мелкобатчевый инференс: 60 - 75% от H100 (latency bound, компилятор менее зрелый).

Проекты, в которых уже используется

Alibaba Cloud AI Datacenter (10 000 GPU) - Production кластер для тренировки Qwen. Первое крупномасштабное развёртывание Zhenwu.

Qwen 2.5 / 3.0 тренировка (10 000 GPU) - Флагманские модели Alibaba на Zhenwu инфраструктуре;

Alibaba Cloud PAI (Облачный сервис) - MLaaS платформа с инстансами на Zhenwu;

Тренировка моделей экосистемы Alibaba (DingTalk, Tmall Genie) - логично предположить;

Китайские стартапы через Alibaba Cloud (Облачный сервис) - доступ через облако.

Рейтинг сервера

Пиковая производительность (★★★★☆) - Архитектурно конкурентно H100, но реальная эффективность не подтверждена тестами;

Память GPU (★★★★★) - 96 GB на GPU - лучше в классе. 1536 GB на сервер решает memory bound для крупных моделей;

Экосистема ПО (★★★☆☆) - Интеграция с Alibaba Cloud отличная. Универсальность слабая;

Наличие / логистика (★★★☆☆) - Ограниченная доступность, проприетарная архитектура, зависимость от Alibaba;

Энергоэффективность (★★★☆☆) - 7 нм техпроцесс - штраф vs. 4 нм NVIDIA. DSA архитектура частично компенсирует;

Стоимость владения (TCO) (★★★★☆) - Вероятно ниже H100 по цене, но выше по стоимости интеграции.

Общая оценка: 3.5 / 5

PG1 - специализированное решение для enterprise, которые уже выбрали (или готовы выбрать) китайскую AI экосистему. Это оптимальный сервер для тренировки крупных моделей в рамках Alibaba экосистемы.

Энергоэффективность

16 × Zhenwu 810E ~ 6400 W (400W на GPU (оценка));

2 × Intel 725C ~400 W;

Системная плата, память, SSD ~300 W;

Сетевые карты ~200 W;

Итого (средняя загрузка) ~7300 W.

Итого (пиковая загрузка) ~9000 - 10000 W.

Эффективность на ватт

TFLOPS/W (FP16) ~130 - 175;

Tokens/W (инференс LLM) - Не тестировалось;

PUE-зависимость - При типичном PUE 1.2 - 1.3: ~ 8.8 - 13 кВт на сервер.

Выводы и заключения

Ali PG1 1536GB - узкоспециализированный AI тренировочный кластер в форм-факторе одного сервера. Это не универсальный GPU сервер, а интегрированное решение для крупномасштабного AI в рамках экосистемы Alibaba.

Для кого подходит

• Enterprise, развивающие AI стратегию в рамках китайской экосистемы - доступ к Qwen, оптимизация под китайские модели, независимость от NVIDIA;

• Компании, тренирующие собственные LLM 70B+ - 1536 GB VRAM снимает узкие места в памяти;

• Организации с требованиями data sovereignty - китайский стек, не попадающий под экспортные ограничения США.

• Команды на CUDA/PyTorch без ресурсов на портаж - потребуется адаптация моделей под Zhenwu;

• Задачи за пределами AI-training/inference - DSA архитектура не универсальна;

• Бюджеты без запаса на инфраструктуру - требует жидкостного охлаждения и специализированных дата-центров

Сервер доступен для предзаказа в каталоге Chaitex

Стратегическая оценка

Ali PG1 - это не просто продукт, это сигнал. Alibaba демонстрирует, что крупнейшая китайская облачная платформа полностью отказалась от NVIDIA для собственной AI инфраструктуры и строит вертикально интегрированный стек. 10 000 GPU в production - это не эксперимент, это промышленный масштаб.

Для российского рынка PG1 открывает окно в экосистему, которая уже обеспечивает 61% мирового потребления AI токенов (по данным OpenRouter, февраль 2026). Когда крупнейшие модели мира (Qwen, DeepSeek) тренируются и работают на китайском железе.

Ali PG1 1536GB - это не просто сервер, а ключевой элемент стратегии технологического суверенитета и лидерства Alibaba Cloud в области искусственного интеллекта. Внедрение собственного чипа Zhenwu 810E, проприетарного интерконнекта и глубокой интеграции с облачными сервисами и моделями Qwen демонстрирует зрелость китайской AI экосистемы и её способность конкурировать с западными аналогами на глобальном уровне.

Для корпоративных заказчиков это означает не только доступ к передовым вычислительным мощностям, но и независимость от экспортных ограничений, а также возможность развивать собственные LLM и мультимодальные модели без риска потери доступа к критической инфраструктуре. В условиях стремительного роста спроса на AI решения и ужесточения глобальной конкуренции, Ali PG1 становится стратегическим выбором для компаний, ориентированных на долгосрочное развитие в рамках китайской цифровой экономики и готовых инвестировать в интеграцию с уникальной экосистемой Alibaba Cloud.