Обзор сервера Iluvatar Bi-V150 Server 512GB

В условиях стремительного роста объёмов и сложности больших языковых моделей LLM и вычислительных задач в области искусственного интеллекта, требования к серверной инфраструктуре претерпевают фундаментальные изменения. Ключевыми вызовами становятся не только чистая производительность в TFLOPS, но и объём быстрой памяти, энергоэффективность, а также гибкость интеграции в существующую IT экосистему. Традиционные подходы, ориентированные на стандартные GPU кластеры, сталкиваются с ограничениями по пропускной способности интерконнекта и стоимости владения при масштабировании. В этом контексте появление на рынке специализированных платформ, предлагающих альтернативу западным решениям, становится стратегически важным событием для обеспечения технологического суверенитета и оптимизации затрат.

Именно на стыке этих потребностей и позиционируется новый сервер Iluvatar Bi-V150 Server 512GB. Данная платформа предлагает сбалансированное сочетание значительного объёма памяти, CUDA совместимости для упрощения миграции и специализированных функций, что делает её прямым конкурентом решениям от MetaX и Moore Threads, занимая нишу между узкоспециализированными инференс серверами и универсальными вычислительными платформами.

Iluvatar Bi-V150 Server 512GB - серверная платформа для AI нагрузок на базе восьми GPU карт Iluvatar Bi-V150 (天垓150). Общий объём GPU-памяти - 512 ГБ HBM2e (8 × 64 ГБ).

Производитель Shanghai Tianshu Zhixin Semiconductor (Iluvatar CoreX, HK:09903) - одна из трёх крупнейших компаний китайского GPU-рынка наряду с Huawei Ascend и Moore Threads.

Позиционирование:

· AI тренировка моделей до 30B параметров на одном сервере;

· Инференс LLM 70B+ на INT8 без разбиения на шарды;

· Fine-tuning больших моделей через LoRA/QLoRA;

· Распределённая тренировка на кластере серверов;

· HPC нагрузки с CUDA совместимостью.

Стоит между MetaX C500/C550 Server 512GB (фокус на инференс) и Moore Threads MCCX D800 384GB (универсальная платформа). Конкурентное преимущество Iluvatar - поддержка гетерогенной тренировки с NVIDIA и уникальная технология PD разделения для инференса.

Технические характеристики Iluvatar Bi-V150 Server 512GB

GPU-подсистема (8× Iluvatar Bi-V150):

Модель GPU: Значение (на карту) - Bi-V150 (天垓150); Значение (сервер, 8×) – отсутствует;

Архитектура: Значение (на карту) - GPGPU SIMT; Значение (сервер, 8×) – отсутствует;

Техпроцесс: Значение (на карту) - TSMC 7nm FinFET; Значение (сервер, 8×) – отсутствует;

GPU-память: Значение (на карту) - 64 ГБ HBM2e; Значение (сервер, 8×) – 512 ГБ HBM2e;

Пропускная способность памяти: Значение (на карту) - ~1,2 ТБ/с; Значение (сервер, 8×) – ~9,6 ТБ/с агрегированно;

Интерфейс: Значение (на карту) - PCIe Gen4.0 x16; Значение (сервер, 8×) – 8× PCIe Gen4.0 x16;

FP32: Значение (на карту) - ~32 TFLOPS; Значение (сервер, 8×) – ~256 TFLOPS;

FP16: Значение (на карту) - ~128 TFLOPS; Значение (сервер, 8×) – ~1024 TFLOPS (1 PFLOPS);

INT8: Значение (на карту) - ~256 TOPS; Значение (сервер, 8×) – ~2048 TOPS (2 POPS);

TDP: Значение (на карту) - 350 Вт; Значение (сервер, 8×) – 2800 Вт (только GPU);

Форм-фактор: Значение (на карту) - FHFL, dual-slot; Значение (сервер, 8×) 8 карт в 4U.

Системная платформа

Процессоры: 2× Intel Xeon Scalable (Ice Lake/Sapphire Rapids) или 2× AMD EPYC (Milan/Genoa);

Системная память: 1 - 2 ТБ DDR4/DDR5 RDIMM/LRDIMM;

Накопители: 8× NVMe U.2/SATA/SAS hot-swap (до 30+ ТБ);

Сеть: 2× 25GbE/100GbE/200GbE (RoCEv2 или InfiniBand опционально);

PCIe слоты: 8× двойной ширины для GPU + доп. слоты для сетевых карт/NVMe;

Блоки питания: 2× 3000W+ PSU (N+N redundancy);

Управление: IPMI/iKVM, BMC;

Форм-фактор: 4U rackmount;

Вес: ~80 - 100 кг.

Энергопотребление

8× GPU Bi-V150: 2800 Вт;

2× CPU + система: 400 - 600 Вт;

Накопители + сеть: 100 - 200 Вт;

Итого (типичное): 3300 - 3600 Вт.

Пиковое: до 4000 Вт.

Особенности архитектуры сервера

GPU архитектура

Карты Bi-V150 построены на собственной GPGPU архитектуре SIMT это не клон NVIDIA, а независимая разработка с собственной системой команд.

Ключевые архитектурные решения:

· CoWoS 2.5D упаковка - чип и память HBM2e объединены на интерпозере, обеспечивая высокую пропускную способность и низкую задержку;

· Поддержка смешанной точности - FP32, FP16, BF16, INT8, FP8 (заявлено превосходство над Hopper);

· Поддержка гетерогенной тренировки - уникальная технология, позволяющая строить смешанные кластеры (Iluvatar + NVIDIA) с эффективностью до 97.5%;

· PD разделение (Prefill/Decoding Disaggregation) - разделение фаз prefill и decoding на разных GPU для оптимизации инференса, повышение утилизации до 60%;

· DeepSpark - сообщество с 610+ адаптированными моделями.

Серверная архитектура

Серверная платформа обычно построена на базе 4U шасси с PCIe интерконнектом:

· Форм-фактор: 4U rackmount;

· Платформа: Стандартный сервер Intel/AMD с OEM оптимизацией под Iluvatar;

· Интерконнект GPU: PCIe Gen4.0 x16 (карты Bi-V150 не поддерживают NVLink аналог);

· Охлаждение: Пассивное для GPU + активное для серверного шасси (возможно ликвидное охлаждение);

· Блоки питания: Два hot-swap PSU 3000W+ (N+N redundancy).

Отсутствие аналога NVLink - существенный архитектурный минус. В отличие от серверов NVIDIA DGX или Huawei Atlas с фирменным высокоскоростным соединением, серверы Iluvatar на PCIe Gen4 имеют ограниченную пропускную способность между GPU (32 ГБ/с), что влияет на масштабируемость при распределённой тренировке.

Предварительная оценка производительности Iluvatar Bi-V150 Server 512GB

LLM Inference

LLaMA 2 7B: Precision - FP16; Память требуется ~14 ГБ; Память сервера: 512 ГБ; Статус: ✅ Одна.

LLaMA 2 13B: Precision - FP16; Память требуется ~26 ГБ; Память сервера: 512 ГБ; Статус: ✅ Одна.

LLaMA 2 70B: Precision - INT8; Память требуется ~70 ГБ; Память сервера: 512 ГБ; Статус: ✅ Одна.

LLaMA 2 70B: Precision - FP16; Память требуется ~140 ГБ; Память сервера: 512 ГБ; Статус: ✅ 2-3 карты.

Qwen 72B: Precision - INT8; Память требуется ~72 ГБ; Память сервера: 512 ГБ; Статус: ✅ Одна карта.

DeepSeek-V2 236B: Precision - INT8; Память требуется ~236 ГБ; Память сервера: 512 ГБ; Статус: ✅ 4 карты.

GPT-3 класс 175B: Precision - INT8; Память требуется ~175 ГБ; Память сервера: 512 ГБ; Статус: ✅ 3 карты.

Конкурентное преимущество 512 ГБ памяти позволяют разместить модель 70B на одной карте в INT8 без tensor parallelism низкая латентность, простая конфигурация.

Fine-tuning

LLaMA 2 7B: Метод - LoRA; Батч - 8; Память ~32 ГБ; Статус - ✅ Одна карта;

LLaMA 2 13B: Метод - LoRA; Батч - 4; Память ~48 ГБ; Статус - ✅ Одна карта;

LLaMA 2 70B: Метод - QLoRA; Батч - 1; Память ~56 ГБ; Статус - ✅ Одна карта;

Qwen 72B: Метод - QLoRA; Батч - 1; Память ~60 ГБ; Статус - ✅ Одна карта;

LLaMA 3 405B: Метод - LoRA; Батч - 1; Память >200 ГБ; Статус - ⚠️ Нужен кластер.

AI тренировка

GPT-2 класс: Параметры: 1.5B; Конфигурация: 1 сервер, data parallel; Статус: ✅ Комфортно;

LLaMA 2: Параметры: 7B - 13B; Конфигурация: 1 сервер, data parallel; Статус: ✅ Возможно;

LLaMA 2: Параметры: 30B; Конфигурация: 1 сервер, model parallel; Статус: ⚠️ Медленно (нет аналога NVLink);

LLaMA 2: Параметры: 70B; Конфигурация: Кластер серверов; Статус: ⚠️ Нужно 4-8 серверов.

Сравнение с конкурентами

Iluvatar Bi-V150: GPU - 8× Bi-V150; Память GPU - 512 ГБ; FP32 агрег ~256 TF; Интерконнект - PCIe Gen4; CUDA compat - ✅ Да;

MetaX C500: GPU - 8× C500; Память GPU - 512 ГБ; FP32 агрег ~400 TF; Интерконнект - PCIe Gen4; CUDA compat - ✅ Да (MUSA);

Moore Threads MCCX D800: GPU - 8× S4000; Память GPU - 384 ГБ; FP32 агрег ~200 TF; Интерконнект - PCIe Gen4; CUDA compat - ✅ Да (MUSA);

Huawei Atlas 800T: 8× Ascend 910B; Память GPU - н/д; FP32 агрег ~256 TF; Интерконнект - HCCS (аналог NVLink); CUDA compat - ⚠️ CANN;

NVIDIA DGX A100: 8× A100 80GB; Память GPU - 640 ГБ; FP32 агрег ~78 TF; Интерконнект - NVLink 3.0; CUDA compat - ✅ Нативно;

NVIDIA DGX H100: 8× H100 80GB; Память GPU - 640 ГБ; FP32 агрег ~67 TF; Интерконнект - NVLink 4.0; CUDA compat - ✅ Нативно.

Особенности сервера Iluvatar Bi-V150 Server 512GB

Уникальные преимущества

1. Гетерогенная тренировка - возможность строить смешанные кластеры Iluvatar + NVIDIA с эффективностью 97.5%. Это редкое умение среди китайских вендоров.
2. PD-разделение (Prefill/Decode Disaggregation) - разделение фаз prefill и decoding на разных GPU. По заявлениям компании, повышает утилизацию на 60% и даёт 2x производительность инференса по сравнению с гомогенными решениями.
3. CUDA-совместимость - миграция с NVIDIA без переписывания кода. Среднее время миграции на 50% быстрее, чем у других китайских GPU.
4. DeepSpark Day-0 - 610+ адаптированных моделей, включая LLaMA, Qwen, Yi. Поддержка PyTorch, TensorFlow, DeepSpeed, Megatron, Colossal-AI.
5. IX-Attention и IX-QUANT - собственные модули для длинного контекста (+20% эффективности) и квантования (+50% эффективности).

Под какие задачи можно использовать сервер

Оптимальные сценарии

LLM Inference (высший приоритет):

· Модели 7B - 70B в INT8/FP16 на одном сервере;

· Чат-боты, AI ассистенты, генерация текста;

· PD разделение для высокой утилизации в продакшене.

Fine-tuning и адаптация:

· LoRA/QLoRA для моделей до 72B на одном сервере;

· Enterprise адаптация с минимальной инфраструктурой.

HPC и научные вычисления:

· Моделирование, сейсморазведка (совместимость с GeoEast);

· Финансовое моделирование (Black-Scholes, Transformer-based prediction);

· Молекулярная динамика, предсказание структуры белков.

Гетерогенные кластеры:

Дополнение существующего кластера NVIDIA (уникальная возможность Iluvatar);

Постепенная миграция с NVIDIA на внутренние GPU.

AI-тренировка (малые модели):

· Модели до 13B на одном сервере;

· Распределённая тренировка до 30B на кластере (с оговоркой по PCIe).

Мультимодальный инференс:

· Обработка изображений, видеоаналитика;

· Цифровые аватары (генерация речи + изображения).

Информация о проведенных тестированиях

· 340+ клиентов, 1000+ решений развёрнуто (на конец 2025);

· PD разделение: +60% утилизации ресурсов (заявление);

· IX-Attention: +20% эффективности на длинном контексте;

· IX-QUANT: +50% эффективности квантования;

· Гетерогенная тренировка: 97.5% эффективность (Iluvatar + NVIDIA).

Примеры известных деплойментов

· Кластер 800× Bi-V150 + 120× Bi-V100 + 24× A800 + 24× A30 - университетский кластер для fine-tuning (40P FLOPS);

· Shenyang, Beijing, Hohhot, Taiyuan - 10K+ кардные кластеры (данные Q1 2026);

· Fraud Detection в финансах - риск-моделирование на Bi-V150;

· Медицинская визуализация - AI-диагностика.

Примеры проектов и внедрений

Iluvatar заявляет о поставке 10K+ кардных кластеров в 15+ городах Китая:

· Shenyang (Шэньян);

· Beijing (Пекин);

· Hohhot (Хух-Хото);

· Taiyuan (Тайюань);

· Suzhou (Сучжоу);

· Shanghai (Шанхай);

· Changsha (Чанша);

· Hangzhou (Ханчжоу);

Управление: собственная платформа "Quanxiang Bo" (全向箔).

Финансовый сектор:

· Smart research appliance на базе DeepSeek/FinGPT;

· OCR + верификация цифровой идентичности (<1с, >98% recognition);

· Смарт-рискмоделирование.

Государственный сектор:

· Обслуживание клиентов для бюро рыночного надзора;

· Автоматическая генерация отчётов (4 мин против 2 часов);

· Платформа обработки 9200 предложений и 269 законопроектов;

· Прокуратура: интеллектуальный контроль (50× эффективность).

Здравоохранени:

· Госпитальный LLM (электронные медкарты, интерпретация анализов);

· Геномное секвенирование;

· Quzhou hospital + DeepSeek.

Образование:

· 40P кластер для fine-tuning (12 серверов, 192 GPU);

· Партнёрство с CVTE для учебных продуктов.

Транспорт:

· Интеграция облачная транспортная карта (330 перекрёстков);

· Видеоаналитика железнодорожного транспорта (vGPU: 1 карта равна 100 shares).

Энергетика:

· Сейсморазведка (RTM, PSTM, PSDM) - совместимость с GeoEast;

· Результаты в пределах 3.5% от международных GPU.

Количественные показатели

· 53 000+ GPU-карт поставлено суммарно (Bi-V100 + Bi-V150 + MR-V100);

· Выручка тренировочных серий (天垓) в 2025: ¥5,84 млрд (+117% YoY);

· Выручка инференсных серий (智铠) в 2025: ¥3,39 млрд (+238% YoY);

· 700+ сотрудников, 350+ enterprise-клиентов, 20+ отраслей.

Рейтинг сервера

Вычислительная мощность (FP32) (★★★☆☆) ~256 TFLOPS - уступает MetaX C500, достаточно для инференса;

Объём GPU-памяти (★★★★★) - 512 ГБ HBM2e конкурентное преимущество;

Масштабируемость тренировки (★★★☆☆) - Нет NVLink аналога, PCIe bottleneck;

Экосистема (★★★★☆) - CUDA compat, DeepSpark, но не NVIDIA;

Гетерогенность (★★★★★) - Уникальная поддержка Iluvatar+NVIDIA (97.5%);

Инференс оптимизации (★★★★☆) - PD разделение, IX-Attention, IX-QUANT;

Энергоэффективность (★★★☆☆) - 3500+ Вт на сервер - высокое энергопотребление;

Зрелость продукта (★★★☆☆) - 53K+ поставок, нет MLPerf;

Цена/производительность (★★★★☆) - Дешевле западных аналогов при сопоставимой памяти

Общий рейтинг: 3,4 / 5

Cервер доступен для предзаказа в каталоге Chaitex

Для каких задач:

· LLM inference 70B+: ⭐⭐⭐⭐⭐ (отлично);

· Fine-tuning 7B - 72B: ⭐⭐⭐⭐ (хорошо);

· AI тренировка <30B: ⭐⭐⭐ (приемлемо);

· AI тренировка 70B+: ⭐⭐ (ограниченно - нет NVLink);

· HPC: ⭐⭐⭐ (приемлемо).

Энергоэффективность

· Пиковое потребление сервера ~4000 Вт;

· Типичное потребление (inference) ~3000 Вт;

· Типичное потребление (training) ~3600 Вт;

· PUE типового дата центра 1,2 - 1,5;

· Эффективное потребление (с PUE 1,3) ~3900 - 5200 Вт.

Показатели эффективности

· FP32 на ватт (GPU) ~0,091 TFLOPS/Вт;

· Память GPU на ватт - 146 МБ/Вт (512 ГБ / 3500 Вт);

· Сравнение: A100 сервер ~0,065 TFLOPS/Вт, 183 МБ/Вт;

· Сравнение: H100 сервер ~0,13 TFLOPS/Вт, 183 МБ/Вт.

Охлаждение

· Воздушное: стандартное для 4U, требует хорошей инфраструктуры ЦОД;

· Жидкостное: рекомендуется для плотной установки (PW > 15 кВт/стойку);

· TDP GPU: 350 Вт на карту - пассивное охлаждение GPU требует активного воздушного потока в шасси.

Сервер не является лидером по энергоэффективности вычислений, но для инференсных нагрузок, где память это бутылочное горлышко, показатели приемлемы. Ликвидное охлаждение рекомендуется для плотной установки.

Выводы и заключения

Сильные стороны

512 ГБ HBM2e по цене ниже западных аналогов - ключевое конкурентное преимущество для LLM inference;
Гетерогенная тренировка с NVIDIA - уникальная возможность, которую не предлагают другие китайские вендоры;
PD-разделение для инференса - повышение утилизации до 60%, снижение стоимости inference;
CUDA-совместимость - низкий порог входа для миграции с NVIDIA;
DeepSpark экосистема - 610+ моделей, Day-0 поддержка новых релизов;
Широкая отраслевая экспертиза - финансы, медицина, госsector, образование, энергетика.

Рекомендации по применению

Когда выбирать Iluvatar Bi-V150 Server 512GB:
inference LLM 7B - 70B в production - отличная память, PD-разделение, хорошая цена

· Fine-tuning моделей до 72B через LoRA/QLoRA;

· Гетерогенные кластеры с существующим парком NVIDIA;

· HPC-нагрузки с CUDA совместимостью.

Подводя итог, Iluvatar Bi-V150 Server 512GB представляет собой зрелое и конкурентоспособное решение, которое успешно решает главную проблему современных LLM дефицит видеопамяти. Ключевым стратегическим преимуществом платформы является её фокус на сценариях инференса и адаптации моделей среднего и крупного масштаба, где объём HBM2e в 512 ГБ позволяет запускать модели до 70B параметров на одной карте без сложной декомпозиции. Это, в сочетании с технологиями оптимизации вроде PD разделения и CUDA совместимостью, делает сервер одним из самых привлекательных предложений на рынке для быстрой и экономически эффективной production разверстки генеративного ИИ, успешно конкурируя с решениями от MetaX и Moore Threads.

Тем не менее, архитектурные ограничения, в первую очередь отсутствие высокоскоростного интерконнекта, аналогичного NVLink, не позволяют рассматривать данную платформу как универсальный инструмент для всех задач. Для распределённой тренировки сверхкрупных моделей (70B+ параметров) её масштабируемость будет уступать решениям от NVIDIA или Huawei, что приведёт к значительным накладным расходам.

Таким образом, выбор в пользу Iluvatar Bi-V150 Server является наиболее оправданным для организаций, чей основной фокус инференс и fine-tuning больших языковых моделей, а также для тех, кто строит гетерогенные кластеры для постепенной миграции с инфраструктуры NVIDIA. Для задач по тренировке foundation моделей с нуля или в сценариях, где критически важна максимальная энергоэффективность и межузловая производительность, следует обратить внимание на альтернативные платформы с более совершенным интерконнектом.