Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb - GPU для AI-тренировки

Iluvatar Bi-V150 (天垓150) - тренировочная GPU-карта второго поколения от компании Iluvatar CoreX (天数智芯, HK:09903). Построена на собственной GPGPU-архитектуре, является преемником Bi-V100 (天垓100). Карта оснащена 64 ГБ памяти HBM2e, предназначена для AI-тренировки и инференса крупных моделей.

Производитель Shanghai Tianshu Zhixin Semiconductor (上海天数智芯半导体股份有限公司), основана в 2015 году, штаб-квартира - Шанхай. IPO на Гонконгской бирже в январе 2026 года (09903.HK).

Ключевое позиционирование, тренировка и inference LLM, гибридные AI/HPC нагрузки. Совместима с CUDA-экосистемой, карта поддерживает миграцию без переписывания кода.

Разберемся подробнее в особенностях карты.

Технические характеристики Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb

Архитектура - GPGPU (SIMT);

Техпроцесс - TSMC 7nm FinFET;

Транзисторы ~24 млрд (оценка);

Память - 64 ГБ HBM2e;

Пропускная способность памяти ~1,2 ТБ/с (оценка);

Упаковка - 2.5D CoWoS;

Интерфейс - PCIe Gen4.0 x16;

FP32 ~32 TFLOPS (оценка);

FP16 ~128 TFLOPS (оценка);

INT8 ~256 TOPS (оценка);

TDP - 350 Вт;

Форм-фактор - Полная высота, полная длина, двойной слот;
Охлаждение - Пассивное.

Особенности архитектуры Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb

GPGPU на базе SIMT - масштабируемый вычислительный движок с собственной системой команд. Не является клоном архитектуры NVIDIA это полностью самостоятельная разработка от сбора заказов до программного стека.

Ключевые архитектурные особенности:

CoWoS 2.5D - упаковка - чип и память HBM2e объединены на интерпозере, что обеспечивает высокую пропускную способность и низкую задержку;
Поддержка смешанной точности - FP32, FP16, BF16, INT8 - для AI-тренировки и инференса;
Экосистемная совместимость - PyTorch, TensorFlow, DeepSpeed, Megatron-DeepSpeed, Megatron-LM, Colossal-AI;
Инференс-фреймворки – собственный логической основы с совместимостью vLLM и TGI;
PD-разделение (Prefill/Decoding Disaggregation) - технология, разделяющая фазы prefill и decoding для оптимизации инференса, повышающая утилизацию ресурсов до 60%;
DeepSpark - открытое сообщество с 610+ адаптированными моделями алгоритмов, Day-0 поддержка новых моделей.

Особенности карты Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb

CUDA-совместимость - миграция кода с NVIDIA без переписывания. По данным компании, среднее время миграции сокращено на 50%+ по сравнению с другими китайскими GPU;
PD-разделение - уникальная технология для инференса, разделяющая prefill и decoding на разных GPU. Повышает утилизацию на 60%;
DeepSpark Day-0 - 610+ адаптированных моделей, включая поддержку LLaMA, Qwen, Yi последних версий;
Поддержка DeepSpeed/Megatron - распределённая тренировка на кластерах;
vLLM/TGI совместимость - бесшовный инференс через популярные фреймворки;
Гетерогенная тренировка - поддержка смешанных кластеров (Iluvatar + NVIDIA).

Предварительная оценка производительности Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb

Уровень FP32 (~32 TFLOPS) - сопоставимо с NVIDIA V100 (15,7 TFLOPS) и ниже A100 (19,5 TFLOPS), но при 64 ГБ памяти Bi-V150 может обрабатывать модели, которые не влезают на A100 40 ГБ;
Уровень FP16 (~128 TFLOPS) - примерно на уровне A100 80 ГБ (312 TFLOPS с Tensor Core), но без аналога Tensor Core реальное преимущество может быть ниже;
Память 64 ГБ HBM2e - ключевой козырь. Позволяет запускать модели 70B+ в INT8 на одной карте, что критично для инференса;
Пропускная способность памяти ~1,2 ТБ/с - на уровне A100 (2 ТБ/с) и выше V100 (900 ГБ/с).

По «чистой» вычислительной мощности Bi-V150 уступает A100 и H100. Но для задач, где критичен объём памяти (LLM inference, fine-tuning больших моделей), 64 ГБ по цене значительно ниже A100 80 ГБ - это реальное конкурентное преимущество.

Задачи для использования карты

Оптимальные сценарии:

LLM Inference - модели 7B - 70B в INT8/FP16, генерация текста, чат-боты;
Fine-tuning - LoRA/QLoRA адаптация моделей 7B–30B на одной карте;
AI-тренировка - распределённая тренировка моделей до 30B параметров на кластере;
HPC - научные вычисления, моделирование (SIMT-архитектура);
Мультимодальный инференс - обработка изображений, видеоаналитика;
Цифровые аватары - генерация речи и изображения в реальном времени;
AI-агенты - orchestration нескольких моделей (Agent workflows).

Информация о проведённых тестированиях

340+ клиентов, 1000+ решений развёрнуто;
Утилизация ресурсов повышена на 60% с PD-разделением (заявление компании);
Миграция кода на 80% быстрее с новым SDK (заявление компании);
Bi-V150 поддерживает LLaMA, Qwen, Yi - подтверждено клиентскими деплойментами.

В каких проектах уже используется

Интернет и AI - облачные провайдеры, AI-компании (модели Qwen, Yi);
Финансы - риск-моделирование, Fraud Detection;
Медицина - медицинская визуализация, AI-диагностика;
Образование - интеллектуальные обучающие системы;
Транспорт - autonomous driving inference;
Энергетика - сейсморазведка, моделирование месторождений;
Государственный сектор – Мудрая политика (интеллектуальное госуправление).

Масштаб: 53 000+ GPU-карт поставлено суммарно (Bi-V100 + Bi-V150 + MR-V100). Выручка от тренировочных серий (天垓) в 2025 году - ¥5,84 млрд. (+117% г/г), от инференсных (智铠) - ¥3,39 млрд. (+238% г/г).

Рейтинг карты

Вычислительная мощность (★★★☆☆) - Уступает A100/H100, достаточно для инференса и fine-tuning;

Объём памяти (★★★★☆) - 64 ГБ HBM2e, конкурентное преимущество в ценовом сегменте;

Экосистема (★★★★☆) - CUDA-совместимость, DeepSpark 610+ моделей, но не NVIDIA;

Энергоэффективность (★★★☆☆) - 350 Вт при ~32 TFLOPS FP32 - хуже, чем у A100;

Цена/производительность (★★★★☆) - Дешевле A100 80 ГБ при сопоставимом объёме памяти;

Зрелость продукта (★★★☆☆) - 53K+ поставок, но нет MLPerf .

Общий оценка: 3,3 / 5

Энергоэффективность карты

TDP: 350 Вт;
FP32 на ватт: ~0,091 TFLOPS/Вт (оценка);
Память на ватт: 183 МБ/Вт (64 ГБ / 350 Вт);
Для сравнения: NVIDIA A100 - 0,065 TFLOPS/Вт, NVIDIA H100 - 0,13 TFLOPS/Вт.

Карта не лидер по энергоэффективности вычислений, но показатель памяти на ватт конкурентоспособен. Для инференсных нагрузок, где бутылочное горлышко - память, энергоэффективность Bi-V150 приемлема.

Выводы и заключения

64 ГБ HBM2e по цене ниже A100 - реальное преимущество для LLM inference;
CUDA-совместимость с минимальной миграцией (50%+ быстрее, чем у конкурентов);
PD-разделение - уникальная технология оптимизации инференса;
Серийное производство, 53K+ поставок - не «лабораторный» продукт;
DeepSpark с 610+ моделями - самая большая библиотека адаптаций среди китайских GPU.

Bi-V150 - это «карта памяти», а не «карта вычислений». Её конкурентное преимущество - 64 ГБ HBM2e по доступной цене. Для инференса LLM, где бутылочное горлышко - размер модели, а не скорость генерации токенов, это оптимальный выбор в нише «дешевле A100, но с достаточным объёмом памяти». Для тренировки - подходит, но не претендует на лидерство. Рейтинг 3,3/5 отражает зрелость продукта.