Chaitex
Chaitex
Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb - GPU для AI-тренировки
Back to Blog

Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb - GPU для AI-тренировки

May 14, 2026

Iluvatar Bi-V150 (天垓150) - тренировочная GPU-карта второго поколения от компании Iluvatar CoreX (天数智芯, HK:09903). Построена на собственной GPGPU-архитектуре, является преемником Bi-V100 (天垓100). Карта оснащена 64 ГБ памяти HBM2e, предназначена для AI-тренировки и инференса крупных моделей.

Производитель Shanghai Tianshu Zhixin Semiconductor (上海天数智芯半导体股份有限公司), основана в 2015 году, штаб-квартира - Шанхай. IPO на Гонконгской бирже в январе 2026 года (09903.HK).

Ключевое позиционирование, тренировка и inference LLM, гибридные AI/HPC нагрузки. Совместима с CUDA-экосистемой, карта поддерживает миграцию без переписывания кода.

Разберемся подробнее в особенностях карты.

Технические характеристики Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb

Архитектура - GPGPU (SIMT);

Техпроцесс - TSMC 7nm FinFET;

Транзисторы ~24 млрд (оценка);

Память - 64 ГБ HBM2e;

Пропускная способность памяти ~1,2 ТБ/с (оценка);

Упаковка - 2.5D CoWoS;

Интерфейс - PCIe Gen4.0 x16;

FP32 ~32 TFLOPS (оценка);

FP16 ~128 TFLOPS (оценка);

INT8 ~256 TOPS (оценка);

TDP - 350 Вт;

Форм-фактор - Полная высота, полная длина, двойной слот;
Охлаждение - Пассивное.

Особенности архитектуры Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb

GPGPU на базе SIMT - масштабируемый вычислительный движок с собственной системой команд. Не является клоном архитектуры NVIDIA это полностью самостоятельная разработка от сбора заказов до программного стека.

Ключевые архитектурные особенности:

  • CoWoS 2.5D - упаковка - чип и память HBM2e объединены на интерпозере, что обеспечивает высокую пропускную способность и низкую задержку;

  • Поддержка смешанной точности - FP32, FP16, BF16, INT8 - для AI-тренировки и инференса;

  • Экосистемная совместимость - PyTorch, TensorFlow, DeepSpeed, Megatron-DeepSpeed, Megatron-LM, Colossal-AI;

  • Инференс-фреймворки – собственный логической основы с совместимостью vLLM и TGI;

  • PD-разделение (Prefill/Decoding Disaggregation) - технология, разделяющая фазы prefill и decoding для оптимизации инференса, повышающая утилизацию ресурсов до 60%;

  • DeepSpark - открытое сообщество с 610+ адаптированными моделями алгоритмов, Day-0 поддержка новых моделей.

Особенности карты Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb

  • CUDA-совместимость - миграция кода с NVIDIA без переписывания. По данным компании, среднее время миграции сокращено на 50%+ по сравнению с другими китайскими GPU;

  • PD-разделение - уникальная технология для инференса, разделяющая prefill и decoding на разных GPU. Повышает утилизацию на 60%;

  • DeepSpark Day-0 - 610+ адаптированных моделей, включая поддержку LLaMA, Qwen, Yi последних версий;

  • Поддержка DeepSpeed/Megatron - распределённая тренировка на кластерах;

  • vLLM/TGI совместимость - бесшовный инференс через популярные фреймворки;

  • Гетерогенная тренировка - поддержка смешанных кластеров (Iluvatar + NVIDIA).

 

Предварительная оценка производительности Iluvatar Tianshu Zhixin Tiangai Bi-V150 64 Gb

  • Уровень FP32 (~32 TFLOPS) - сопоставимо с NVIDIA V100 (15,7 TFLOPS) и ниже A100 (19,5 TFLOPS), но при 64 ГБ памяти Bi-V150 может обрабатывать модели, которые не влезают на A100 40 ГБ;

  • Уровень FP16 (~128 TFLOPS) - примерно на уровне A100 80 ГБ (312 TFLOPS с Tensor Core), но без аналога Tensor Core реальное преимущество может быть ниже;

  • Память 64 ГБ HBM2e - ключевой козырь. Позволяет запускать модели 70B+ в INT8 на одной карте, что критично для инференса;

  • Пропускная способность памяти ~1,2 ТБ/с - на уровне A100 (2 ТБ/с) и выше V100 (900 ГБ/с).

По «чистой» вычислительной мощности Bi-V150 уступает A100 и H100. Но для задач, где критичен объём памяти (LLM inference, fine-tuning больших моделей), 64 ГБ по цене значительно ниже A100 80 ГБ - это реальное конкурентное преимущество.

Задачи для использования карты

Оптимальные сценарии:

  • LLM Inference - модели 7B - 70B в INT8/FP16, генерация текста, чат-боты;

  • Fine-tuning - LoRA/QLoRA адаптация моделей 7B–30B на одной карте;

  • AI-тренировка - распределённая тренировка моделей до 30B параметров на кластере;

  • HPC - научные вычисления, моделирование (SIMT-архитектура);

  • Мультимодальный инференс - обработка изображений, видеоаналитика;

  • Цифровые аватары - генерация речи и изображения в реальном времени;

  • AI-агенты - orchestration нескольких моделей (Agent workflows).

Информация о проведённых тестированиях

  • 340+ клиентов, 1000+ решений развёрнуто;

  • Утилизация ресурсов повышена на 60% с PD-разделением (заявление компании);

  • Миграция кода на 80% быстрее с новым SDK (заявление компании);

  • Bi-V150 поддерживает LLaMA, Qwen, Yi - подтверждено клиентскими деплойментами.

В каких проектах уже используется

  • Интернет и AI - облачные провайдеры, AI-компании (модели Qwen, Yi);

  • Финансы - риск-моделирование, Fraud Detection;

  • Медицина - медицинская визуализация, AI-диагностика;

  • Образование - интеллектуальные обучающие системы;

  • Транспорт - autonomous driving inference;

  • Энергетика - сейсморазведка, моделирование месторождений;

  • Государственный сектор – Мудрая политика (интеллектуальное госуправление).

Масштаб: 53 000+ GPU-карт поставлено суммарно (Bi-V100 + Bi-V150 + MR-V100). Выручка от тренировочных серий (天垓) в 2025 году - ¥5,84 млрд. (+117% г/г), от инференсных (智铠) - ¥3,39 млрд. (+238% г/г).

Рейтинг карты

Вычислительная мощность (★★★☆☆) - Уступает A100/H100, достаточно для инференса и fine-tuning;

Объём памяти (★★★★☆) - 64 ГБ HBM2e, конкурентное преимущество в ценовом сегменте;

Экосистема (★★★★☆) - CUDA-совместимость, DeepSpark 610+ моделей, но не NVIDIA;

Энергоэффективность (★★★☆☆) - 350 Вт при ~32 TFLOPS FP32 - хуже, чем у A100;

Цена/производительность (★★★★☆) - Дешевле A100 80 ГБ при сопоставимом объёме памяти;

Зрелость продукта (★★★☆☆) - 53K+ поставок, но нет MLPerf .

Общий оценка: 3,3 / 5

Энергоэффективность карты

  • TDP: 350 Вт;

  • FP32 на ватт: ~0,091 TFLOPS/Вт (оценка);

  • Память на ватт: 183 МБ/Вт (64 ГБ / 350 Вт);

  • Для сравнения: NVIDIA A100 - 0,065 TFLOPS/Вт, NVIDIA H100 - 0,13 TFLOPS/Вт.

Карта не лидер по энергоэффективности вычислений, но показатель памяти на ватт конкурентоспособен. Для инференсных нагрузок, где бутылочное горлышко - память, энергоэффективность Bi-V150 приемлема.

Выводы и заключения

  • 64 ГБ HBM2e по цене ниже A100 - реальное преимущество для LLM inference;

  • CUDA-совместимость с минимальной миграцией (50%+ быстрее, чем у конкурентов);

  • PD-разделение - уникальная технология оптимизации инференса;

  • Серийное производство, 53K+ поставок - не «лабораторный» продукт;

  • DeepSpark с 610+ моделями - самая большая библиотека адаптаций среди китайских GPU.

Bi-V150 - это «карта памяти», а не «карта вычислений». Её конкурентное преимущество - 64 ГБ HBM2e по доступной цене. Для инференса LLM, где бутылочное горлышко - размер модели, а не скорость генерации токенов, это оптимальный выбор в нише «дешевле A100, но с достаточным объёмом памяти». Для тренировки - подходит, но не претендует на лидерство. Рейтинг 3,3/5 отражает зрелость продукта.