Обзор сервера Iluvatar Bi-V150 Server 512GB
3 июня 2026 г.
В условиях стремительного роста объёмов и сложности больших языковых моделей LLM и вычислительных задач в области искусственного интеллекта, требования к серверной инфраструктуре претерпевают фундаментальные изменения. Ключевыми вызовами становятся не только чистая производительность в TFLOPS, но и объём быстрой памяти, энергоэффективность, а также гибкость интеграции в существующую IT экосистему. Традиционные подходы, ориентированные на стандартные GPU кластеры, сталкиваются с ограничениями по пропускной способности интерконнекта и стоимости владения при масштабировании. В этом контексте появление на рынке специализированных платформ, предлагающих альтернативу западным решениям, становится стратегически важным событием для обеспечения технологического суверенитета и оптимизации затрат.
Именно на стыке этих потребностей и позиционируется новый сервер Iluvatar Bi-V150 Server 512GB. Данная платформа предлагает сбалансированное сочетание значительного объёма памяти, CUDA совместимости для упрощения миграции и специализированных функций, что делает её прямым конкурентом решениям от MetaX и Moore Threads, занимая нишу между узкоспециализированными инференс серверами и универсальными вычислительными платформами.
Iluvatar Bi-V150 Server 512GB - серверная платформа для AI нагрузок на базе восьми GPU карт Iluvatar Bi-V150 (天垓150). Общий объём GPU-памяти - 512 ГБ HBM2e (8 × 64 ГБ).
Производитель Shanghai Tianshu Zhixin Semiconductor (Iluvatar CoreX, HK:09903) - одна из трёх крупнейших компаний китайского GPU-рынка наряду с Huawei Ascend и Moore Threads.
Позиционирование:
· AI тренировка моделей до 30B параметров на одном сервере;
· Инференс LLM 70B+ на INT8 без разбиения на шарды;
· Fine-tuning больших моделей через LoRA/QLoRA;
· Распределённая тренировка на кластере серверов;
· HPC нагрузки с CUDA совместимостью.
Стоит между MetaX C500/C550 Server 512GB (фокус на инференс) и Moore Threads MCCX D800 384GB (универсальная платформа). Конкурентное преимущество Iluvatar - поддержка гетерогенной тренировки с NVIDIA и уникальная технология PD разделения для инференса.
Технические характеристики Iluvatar Bi-V150 Server 512GB
GPU-подсистема (8× Iluvatar Bi-V150):
Модель GPU: Значение (на карту) - Bi-V150 (天垓150); Значение (сервер, 8×) – отсутствует;
Архитектура: Значение (на карту) - GPGPU SIMT; Значение (сервер, 8×) – отсутствует;
Техпроцесс: Значение (на карту) - TSMC 7nm FinFET; Значение (сервер, 8×) – отсутствует;
GPU-память: Значение (на карту) - 64 ГБ HBM2e; Значение (сервер, 8×) – 512 ГБ HBM2e;
Пропускная способность памяти: Значение (на карту) - ~1,2 ТБ/с; Значение (сервер, 8×) – ~9,6 ТБ/с агрегированно;
Интерфейс: Значение (на карту) - PCIe Gen4.0 x16; Значение (сервер, 8×) – 8× PCIe Gen4.0 x16;
FP32: Значение (на карту) - ~32 TFLOPS; Значение (сервер, 8×) – ~256 TFLOPS;
FP16: Значение (на карту) - ~128 TFLOPS; Значение (сервер, 8×) – ~1024 TFLOPS (1 PFLOPS);
INT8: Значение (на карту) - ~256 TOPS; Значение (сервер, 8×) – ~2048 TOPS (2 POPS);
TDP: Значение (на карту) - 350 Вт; Значение (сервер, 8×) – 2800 Вт (только GPU);
Форм-фактор: Значение (на карту) - FHFL, dual-slot; Значение (сервер, 8×) 8 карт в 4U.
Системная платформа
Процессоры: 2× Intel Xeon Scalable (Ice Lake/Sapphire Rapids) или 2× AMD EPYC (Milan/Genoa);
Системная память: 1 - 2 ТБ DDR4/DDR5 RDIMM/LRDIMM;
Накопители: 8× NVMe U.2/SATA/SAS hot-swap (до 30+ ТБ);
Сеть: 2× 25GbE/100GbE/200GbE (RoCEv2 или InfiniBand опционально);
PCIe слоты: 8× двойной ширины для GPU + доп. слоты для сетевых карт/NVMe;
Блоки питания: 2× 3000W+ PSU (N+N redundancy);
Управление: IPMI/iKVM, BMC;
Форм-фактор: 4U rackmount;
Вес: ~80 - 100 кг.
Энергопотребление
8× GPU Bi-V150: 2800 Вт;
2× CPU + система: 400 - 600 Вт;
Накопители + сеть: 100 - 200 Вт;
Итого (типичное): 3300 - 3600 Вт.
Пиковое: до 4000 Вт.
Особенности архитектуры сервера
GPU архитектура
Карты Bi-V150 построены на собственной GPGPU архитектуре SIMT это не клон NVIDIA, а независимая разработка с собственной системой команд.
Ключевые архитектурные решения:
· CoWoS 2.5D упаковка - чип и память HBM2e объединены на интерпозере, обеспечивая высокую пропускную способность и низкую задержку;
· Поддержка смешанной точности - FP32, FP16, BF16, INT8, FP8 (заявлено превосходство над Hopper);
· Поддержка гетерогенной тренировки - уникальная технология, позволяющая строить смешанные кластеры (Iluvatar + NVIDIA) с эффективностью до 97.5%;
· PD разделение (Prefill/Decoding Disaggregation) - разделение фаз prefill и decoding на разных GPU для оптимизации инференса, повышение утилизации до 60%;
· DeepSpark - сообщество с 610+ адаптированными моделями.
Серверная архитектура
Серверная платформа обычно построена на базе 4U шасси с PCIe интерконнектом:
· Форм-фактор: 4U rackmount;
· Платформа: Стандартный сервер Intel/AMD с OEM оптимизацией под Iluvatar;
· Интерконнект GPU: PCIe Gen4.0 x16 (карты Bi-V150 не поддерживают NVLink аналог);
· Охлаждение: Пассивное для GPU + активное для серверного шасси (возможно ликвидное охлаждение);
· Блоки питания: Два hot-swap PSU 3000W+ (N+N redundancy).
Отсутствие аналога NVLink - существенный архитектурный минус. В отличие от серверов NVIDIA DGX или Huawei Atlas с фирменным высокоскоростным соединением, серверы Iluvatar на PCIe Gen4 имеют ограниченную пропускную способность между GPU (32 ГБ/с), что влияет на масштабируемость при распределённой тренировке.
Предварительная оценка производительности Iluvatar Bi-V150 Server 512GB
LLM Inference
LLaMA 2 7B: Precision - FP16; Память требуется ~14 ГБ; Память сервера: 512 ГБ; Статус: ✅ Одна.
LLaMA 2 13B: Precision - FP16; Память требуется ~26 ГБ; Память сервера: 512 ГБ; Статус: ✅ Одна.
LLaMA 2 70B: Precision - INT8; Память требуется ~70 ГБ; Память сервера: 512 ГБ; Статус: ✅ Одна.
LLaMA 2 70B: Precision - FP16; Память требуется ~140 ГБ; Память сервера: 512 ГБ; Статус: ✅ 2-3 карты.
Qwen 72B: Precision - INT8; Память требуется ~72 ГБ; Память сервера: 512 ГБ; Статус: ✅ Одна карта.
DeepSeek-V2 236B: Precision - INT8; Память требуется ~236 ГБ; Память сервера: 512 ГБ; Статус: ✅ 4 карты.
GPT-3 класс 175B: Precision - INT8; Память требуется ~175 ГБ; Память сервера: 512 ГБ; Статус: ✅ 3 карты.
Конкурентное преимущество 512 ГБ памяти позволяют разместить модель 70B на одной карте в INT8 без tensor parallelism низкая латентность, простая конфигурация.
Fine-tuning
LLaMA 2 7B: Метод - LoRA; Батч - 8; Память ~32 ГБ; Статус - ✅ Одна карта;
LLaMA 2 13B: Метод - LoRA; Батч - 4; Память ~48 ГБ; Статус - ✅ Одна карта;
LLaMA 2 70B: Метод - QLoRA; Батч - 1; Память ~56 ГБ; Статус - ✅ Одна карта;
Qwen 72B: Метод - QLoRA; Батч - 1; Память ~60 ГБ; Статус - ✅ Одна карта;
LLaMA 3 405B: Метод - LoRA; Батч - 1; Память >200 ГБ; Статус - ⚠️ Нужен кластер.
AI тренировка
GPT-2 класс: Параметры: 1.5B; Конфигурация: 1 сервер, data parallel; Статус: ✅ Комфортно;
LLaMA 2: Параметры: 7B - 13B; Конфигурация: 1 сервер, data parallel; Статус: ✅ Возможно;
LLaMA 2: Параметры: 30B; Конфигурация: 1 сервер, model parallel; Статус: ⚠️ Медленно (нет аналога NVLink);
LLaMA 2: Параметры: 70B; Конфигурация: Кластер серверов; Статус: ⚠️ Нужно 4-8 серверов.
Сравнение с конкурентами
Iluvatar Bi-V150: GPU - 8× Bi-V150; Память GPU - 512 ГБ; FP32 агрег ~256 TF; Интерконнект - PCIe Gen4; CUDA compat - ✅ Да;
MetaX C500: GPU - 8× C500; Память GPU - 512 ГБ; FP32 агрег ~400 TF; Интерконнект - PCIe Gen4; CUDA compat - ✅ Да (MUSA);
Moore Threads MCCX D800: GPU - 8× S4000; Память GPU - 384 ГБ; FP32 агрег ~200 TF; Интерконнект - PCIe Gen4; CUDA compat - ✅ Да (MUSA);
Huawei Atlas 800T: 8× Ascend 910B; Память GPU - н/д; FP32 агрег ~256 TF; Интерконнект - HCCS (аналог NVLink); CUDA compat - ⚠️ CANN;
NVIDIA DGX A100: 8× A100 80GB; Память GPU - 640 ГБ; FP32 агрег ~78 TF; Интерконнект - NVLink 3.0; CUDA compat - ✅ Нативно;
NVIDIA DGX H100: 8× H100 80GB; Память GPU - 640 ГБ; FP32 агрег ~67 TF; Интерконнект - NVLink 4.0; CUDA compat - ✅ Нативно.
Особенности сервера Iluvatar Bi-V150 Server 512GB
Уникальные преимущества
1. Гетерогенная тренировка - возможность строить смешанные кластеры Iluvatar + NVIDIA с эффективностью 97.5%. Это редкое умение среди китайских вендоров.
2. PD-разделение (Prefill/Decode Disaggregation) - разделение фаз prefill и decoding на разных GPU. По заявлениям компании, повышает утилизацию на 60% и даёт 2x производительность инференса по сравнению с гомогенными решениями.
3. CUDA-совместимость - миграция с NVIDIA без переписывания кода. Среднее время миграции на 50% быстрее, чем у других китайских GPU.
4. DeepSpark Day-0 - 610+ адаптированных моделей, включая LLaMA, Qwen, Yi. Поддержка PyTorch, TensorFlow, DeepSpeed, Megatron, Colossal-AI.
5. IX-Attention и IX-QUANT - собственные модули для длинного контекста (+20% эффективности) и квантования (+50% эффективности).
Под какие задачи можно использовать сервер
Оптимальные сценарии
LLM Inference (высший приоритет):
· Модели 7B - 70B в INT8/FP16 на одном сервере;
· Чат-боты, AI ассистенты, генерация текста;
· PD разделение для высокой утилизации в продакшене.
Fine-tuning и адаптация:
· LoRA/QLoRA для моделей до 72B на одном сервере;
· Enterprise адаптация с минимальной инфраструктурой.
HPC и научные вычисления:
· Моделирование, сейсморазведка (совместимость с GeoEast);
· Финансовое моделирование (Black-Scholes, Transformer-based prediction);
· Молекулярная динамика, предсказание структуры белков.
Гетерогенные кластеры:
Дополнение существующего кластера NVIDIA (уникальная возможность Iluvatar);
Постепенная миграция с NVIDIA на внутренние GPU.
AI-тренировка (малые модели):
· Модели до 13B на одном сервере;
· Распределённая тренировка до 30B на кластере (с оговоркой по PCIe).
Мультимодальный инференс:
· Обработка изображений, видеоаналитика;
· Цифровые аватары (генерация речи + изображения).
Информация о проведенных тестированиях
· 340+ клиентов, 1000+ решений развёрнуто (на конец 2025);
· PD разделение: +60% утилизации ресурсов (заявление);
· IX-Attention: +20% эффективности на длинном контексте;
· IX-QUANT: +50% эффективности квантования;
· Гетерогенная тренировка: 97.5% эффективность (Iluvatar + NVIDIA).
Примеры известных деплойментов
· Кластер 800× Bi-V150 + 120× Bi-V100 + 24× A800 + 24× A30 - университетский кластер для fine-tuning (40P FLOPS);
· Shenyang, Beijing, Hohhot, Taiyuan - 10K+ кардные кластеры (данные Q1 2026);
· Fraud Detection в финансах - риск-моделирование на Bi-V150;
· Медицинская визуализация - AI-диагностика.
Примеры проектов и внедрений
Iluvatar заявляет о поставке 10K+ кардных кластеров в 15+ городах Китая:
· Shenyang (Шэньян);
· Beijing (Пекин);
· Hohhot (Хух-Хото);
· Taiyuan (Тайюань);
· Suzhou (Сучжоу);
· Shanghai (Шанхай);
· Changsha (Чанша);
· Hangzhou (Ханчжоу);
Управление: собственная платформа "Quanxiang Bo" (全向箔).
Финансовый сектор:
· Smart research appliance на базе DeepSeek/FinGPT;
· OCR + верификация цифровой идентичности (<1с, >98% recognition);
· Смарт-рискмоделирование.
Государственный сектор:
· Обслуживание клиентов для бюро рыночного надзора;
· Автоматическая генерация отчётов (4 мин против 2 часов);
· Платформа обработки 9200 предложений и 269 законопроектов;
· Прокуратура: интеллектуальный контроль (50× эффективность).
Здравоохранени:
· Госпитальный LLM (электронные медкарты, интерпретация анализов);
· Геномное секвенирование;
· Quzhou hospital + DeepSeek.
Образование:
· 40P кластер для fine-tuning (12 серверов, 192 GPU);
· Партнёрство с CVTE для учебных продуктов.
Транспорт:
· Интеграция облачная транспортная карта (330 перекрёстков);
· Видеоаналитика железнодорожного транспорта (vGPU: 1 карта равна 100 shares).
Энергетика:
· Сейсморазведка (RTM, PSTM, PSDM) - совместимость с GeoEast;
· Результаты в пределах 3.5% от международных GPU.
Количественные показатели
· 53 000+ GPU-карт поставлено суммарно (Bi-V100 + Bi-V150 + MR-V100);
· Выручка тренировочных серий (天垓) в 2025: ¥5,84 млрд (+117% YoY);
· Выручка инференсных серий (智铠) в 2025: ¥3,39 млрд (+238% YoY);
· 700+ сотрудников, 350+ enterprise-клиентов, 20+ отраслей.
Рейтинг сервера
Вычислительная мощность (FP32) (★★★☆☆) ~256 TFLOPS - уступает MetaX C500, достаточно для инференса;
Объём GPU-памяти (★★★★★) - 512 ГБ HBM2e конкурентное преимущество;
Масштабируемость тренировки (★★★☆☆) - Нет NVLink аналога, PCIe bottleneck;
Экосистема (★★★★☆) - CUDA compat, DeepSpark, но не NVIDIA;
Гетерогенность (★★★★★) - Уникальная поддержка Iluvatar+NVIDIA (97.5%);
Инференс оптимизации (★★★★☆) - PD разделение, IX-Attention, IX-QUANT;
Энергоэффективность (★★★☆☆) - 3500+ Вт на сервер - высокое энергопотребление;
Зрелость продукта (★★★☆☆) - 53K+ поставок, нет MLPerf;
Цена/производительность (★★★★☆) - Дешевле западных аналогов при сопоставимой памяти
Общий рейтинг: 3,4 / 5
Для каких задач:
· LLM inference 70B+: ⭐⭐⭐⭐⭐ (отлично);
· Fine-tuning 7B - 72B: ⭐⭐⭐⭐ (хорошо);
· AI тренировка <30B: ⭐⭐⭐ (приемлемо);
· AI тренировка 70B+: ⭐⭐ (ограниченно - нет NVLink);
· HPC: ⭐⭐⭐ (приемлемо).
Энергоэффективность
· Пиковое потребление сервера ~4000 Вт;
· Типичное потребление (inference) ~3000 Вт;
· Типичное потребление (training) ~3600 Вт;
· PUE типового дата центра 1,2 - 1,5;
· Эффективное потребление (с PUE 1,3) ~3900 - 5200 Вт.
Показатели эффективности
· FP32 на ватт (GPU) ~0,091 TFLOPS/Вт;
· Память GPU на ватт - 146 МБ/Вт (512 ГБ / 3500 Вт);
· Сравнение: A100 сервер ~0,065 TFLOPS/Вт, 183 МБ/Вт;
· Сравнение: H100 сервер ~0,13 TFLOPS/Вт, 183 МБ/Вт.
Охлаждение
· Воздушное: стандартное для 4U, требует хорошей инфраструктуры ЦОД;
· Жидкостное: рекомендуется для плотной установки (PW > 15 кВт/стойку);
· TDP GPU: 350 Вт на карту - пассивное охлаждение GPU требует активного воздушного потока в шасси.
Сервер не является лидером по энергоэффективности вычислений, но для инференсных нагрузок, где память это бутылочное горлышко, показатели приемлемы. Ликвидное охлаждение рекомендуется для плотной установки.
Выводы и заключения
Сильные стороны
512 ГБ HBM2e по цене ниже западных аналогов - ключевое конкурентное преимущество для LLM inference;
Гетерогенная тренировка с NVIDIA - уникальная возможность, которую не предлагают другие китайские вендоры;
PD-разделение для инференса - повышение утилизации до 60%, снижение стоимости inference;
CUDA-совместимость - низкий порог входа для миграции с NVIDIA;
DeepSpark экосистема - 610+ моделей, Day-0 поддержка новых релизов;
Широкая отраслевая экспертиза - финансы, медицина, госsector, образование, энергетика.
Рекомендации по применению
Когда выбирать Iluvatar Bi-V150 Server 512GB:
inference LLM 7B - 70B в production - отличная память, PD-разделение, хорошая цена
· Fine-tuning моделей до 72B через LoRA/QLoRA;
· Гетерогенные кластеры с существующим парком NVIDIA;
· HPC-нагрузки с CUDA совместимостью.
Подводя итог, Iluvatar Bi-V150 Server 512GB представляет собой зрелое и конкурентоспособное решение, которое успешно решает главную проблему современных LLM дефицит видеопамяти. Ключевым стратегическим преимуществом платформы является её фокус на сценариях инференса и адаптации моделей среднего и крупного масштаба, где объём HBM2e в 512 ГБ позволяет запускать модели до 70B параметров на одной карте без сложной декомпозиции. Это, в сочетании с технологиями оптимизации вроде PD разделения и CUDA совместимостью, делает сервер одним из самых привлекательных предложений на рынке для быстрой и экономически эффективной production разверстки генеративного ИИ, успешно конкурируя с решениями от MetaX и Moore Threads.
Тем не менее, архитектурные ограничения, в первую очередь отсутствие высокоскоростного интерконнекта, аналогичного NVLink, не позволяют рассматривать данную платформу как универсальный инструмент для всех задач. Для распределённой тренировки сверхкрупных моделей (70B+ параметров) её масштабируемость будет уступать решениям от NVIDIA или Huawei, что приведёт к значительным накладным расходам.
Таким образом, выбор в пользу Iluvatar Bi-V150 Server является наиболее оправданным для организаций, чей основной фокус инференс и fine-tuning больших языковых моделей, а также для тех, кто строит гетерогенные кластеры для постепенной миграции с инфраструктуры NVIDIA. Для задач по тренировке foundation моделей с нуля или в сценариях, где критически важна максимальная энергоэффективность и межузловая производительность, следует обратить внимание на альтернативные платформы с более совершенным интерконнектом.
