Review of the Enflame CloudBlazer T20 32Gb inference card

Enflame CloudBlazer T20 32Gb - ускоритель вычислений искусственного интеллекта (AI ускоритель) китайской компании Enflame Technology, предназначенный для задач inference (инференса) больших языковых моделей и других AI нагрузок.

Производитель Enflame Technology, основана в 2018 году в Шанхае. Основатели бывшие инженеры AMD и Qualcomm. Компания позиционируется как разработчик облачных AI чипов (облачные AI chips) и входит в "большую четверку" китайских GPU вендоров наряду с Moore Threads, MetaX и Iluvatar.

Позиционирование CloudBlazer T20 32Gb Inference ускоритель среднего уровня. Оптимизирован для развертывания уже обученных моделей в production, но не предназначен для обучения (training) моделей с нуля, но . Конкурент NVIDIA H20 по целевому применению, но с собственной архитектурой, несовместимой с CUDA.

Статус компании, подача на IPO STAR Market: Оценка перед IPO: $2,8 - 2,9 млрд; Объём привлечения - $830 млн; Ключевой акционер и заказчик - Tencent (более 84% выручки). Enflame Technology - последний из "большой четвёрки" китайских производителей GPU, вышедших на биржу. Его размещение рассматривается как важный этап в развитии национальной индустрии AI чипов и снижении зависимости от западных технологий. Успешное IPO компании подогревает интерес инвесторов к сектору и подтверждает тренд на технологическую самостоятельность Китая.

Технические характеристики Enflame CloudBlazer T20 32Gb

Архитектура: GCU-CARE 2.0 (DTU);

Техпроцесс: 12 нм FinFET (GlobalFoundries);

Видеопамять: 32 GB HBM2e;

Пропускная способность памяти: ~819 ГБ/с;

FP32: 32 TFLOPS;

FP16 / BF16: 128 TFLOPS;

INT8: 256 TOPS;

TDP: ~300 Вт;

Межпроцессорное соединение: 300 ГБ/с;

Форм-фактор: PCIe карта (стандартный размер);

Программный стек: TopsRider;

Поддержка фреймворков: TensorFlow, PyTorch, ONNX;

API: C++, Python.

По совокупности технических характеристик карта сопоставима с NVIDIA A100, однако уступает решениям NVIDIA H100/H200 и флагманам Huawei по ряду параметров, прежде всего по энергоэффективности и зрелости программного стека. Ключевым преимуществом T20 является использование полностью проприетарной архитектуры GCU-CARE 2.0 (DTU), что обеспечивает независимость от западных экосистем, но требует от разработчиков дополнительной каcтомизации под собственные программные инфраструктуры.

Особенности архитектуры карты Enflame CloudBlazer T20 32Gb

Самописная архитектура DTU / GCU

В отличие от большинства китайских конкурентов (Moore Threads с MUSA/CUDA совместимостью, Huawei с CANN), Enflame пошла путем полностью самостоятельной архитектуры:

• DTU (Deep Thinking Unit) - базовая вычислительная архитектура;

• GCU (General Compute Unit) - вычислительные ядра, аналог CUDA ядра в NVIDIA;

• GCU-CARE 2.0 - обновленная архитектура вычислительных ядер (начиная с поколения i20/T20).

Особенности карты Enflame CloudBlazer T20 32Gb

1. 12-нанометровый процесс GlobalFoundries - сознательный выбор более зрелого техпроцесса для снижения зависимости от передовых foundry (TSMC, Samsung) и снижения себестоимости.
2. Тензорные, векторные и скалярные вычисления в одном блоке - универсальные вычислительные блоки GCU поддерживают все типы операций, требуемых для AI инференса.
3. Оптимизация под HBM2e - архитектура заточена под высокоскоростную память HBM2e с максимальной загрузкой шины памяти.
4. Несовместимость с CUDA - принципиальное решение. Вместо эмуляции CUDA Enflame строит собственный стек TopsRider с прямой поддержкой фреймворков TensorFlow, PyTorch, ONNX.

Для задач инференса средних моделей и построения корпоративных AI кластеров T20 уже сегодня демонстрирует конкурентоспособную производительность и стабильность. Пассивное охлаждение и оптимизация под HBM2e делают карту привлекательной для крупных дата-центров, где важны энергоэффективность и плотность размещения оборудования.

Особенности карты Enflame CloudBlazer T20 32Gb

Программный стек TopsRider

Главная особенность Enflame - собственный программный стек TopsRider, который является полной альтернативой CUDA:

• Поддержка основных фреймворков: TensorFlow, PyTorch, ONNX - без необходимости переписывать модели.

• API на C++ и Python - стандартные интерфейсы для разработчиков.

• Виртуализация - поддержка технологий виртуализации для облачных развертываний.

• Мультипользовательская и многозадачная среда - безопасная изоляция процессов.

• Автоматизация миграции моделей - инструменты для переноса моделей с NVIDIA на Enflame.

Day 1 адаптация DeepSeek V4

Ключевой маркетинговый факт: Enflame обеспечила Day-1 (в день релиза) адаптацию DeepSeek V4 на своих чипах с поддержкой FP8. Это сигнализирует о достаточной зрелости программного стека для поддержки frontier моделей.

Интеграция с Tencent Cloud

Тесная связь с Tencent (основной акционер и >84% выручки) обеспечивает:

• Гарантированный канал сбыта а соответственно развития продукта;

• Оптимизацию под нагрузки Tencent (WeChat, Tencent Games, Tencent Meeting);

• Облачные инстансы с T20 на Tencent Cloud.

Сравнение с ближайшим аналогом

Enflame CloudBlazer T20 32Gb: FP16: 128 TFLOPS; TDP: 300 Вт; Interconnect: 300 ГБ/с; Память: 32 GB HBM2e; CUDA совместимость: Нет.

NVIDIA H20: FP16: 148 TFLOPS; TDP: 400 Вт; Interconnect: 900 ГБ/с; Память: 96 GB HBM3; CUDA совместимость: Да.

Примечание: T20 уступает H20 по абсолютной производительности и пропускной способности межпроцессорного соединения, но превосходит по энергоэффективности (TFLOPS на ватт) и имеет существенно более низкий TDP.

Экосистема TopsRider активно развивается: Enflame делает ставку на открытость и совместимость с основными AI фреймворками, что снижает порог входа для новых пользователей. Важным преимуществом является наличие инструментов для автоматизации миграции моделей с NVIDIA, что ускоряет переход на собственные ускорители. Виртуализация и поддержка многопользовательских сред делают T20 привлекательным для облачных провайдеров и крупных корпоративных клиентов, где требуется безопасная изоляция вычислительных задач.

Предварительная оценка производительности Enflame CloudBlazer T20 32Gb

• Относительно предыдущего поколения (i10): FP производительность выросла в 1.8 раза, INT вычисления в 3.6 раза.

• Оптимизация TopsRider: средняя производительность выполнения моделей выросла в 3.5 раза по сравнению с первым поколением за счет снижения нагрузки на подсистему памяти.

• Эффективность использования вычислительных ресурсов: увеличена в 2 раза.

Позиционирование на рынке

T20 - это inference ускоритель среднего уровня. По производительности FP16 он примерно на уровне 85 - 90% от NVIDIA H20, но с существенно меньшим энергопотреблением. Для большинства inference задач (LLM serving, RAG, AI Agents) этого достаточно.

Задачи для использования карты

Прямое назначение (оптимально):

· Инференс LLM - развертывание больших языковых моделей (DeepSeek, Qwen, ChatGLM и др.) для чат-ботов, ассистентов, генерации текста;

· RAG-системы (retrieval augmented generation) - с векторными базами данных;

· AI Agents - многошаговые агенты с промежуточным инференсом;

· Компьютерное зрение - inference моделей классификации, детекции, сегментации.

· Рекомендательные системы - inference в реальном времени для персонализации.

Непрямое назначение (возможно, но не оптимально):

· Fine-tuning моделей возможен, но ограничен по сравнению с training ускорителями;

· Обучение с нуля не рекомендуется - архитектура заточена под inference, но реализация возможна.

Информация о проведенных тестированиях

· Сравнение с первым поколением: FP производительность +1.8x, INT +3.6x;

· Оптимизация TopsRider: средняя производительность моделей +3.5x;

· Эффективность использования вычислительных ресурсов: +2x;

· Производительность на единицу ватта: заявляется как сопоставимая с 7-нм GPU при использовании 12-нм процесса.

В каких проектах уже используется

· Tencent Cloud предлагает облачные инстансы с Enflame T20;

· Оптимизация под нагрузки Tencent: WeChat, Tencent Games, Tencent Meeting;

· Совместная разработка программного стека;

· Enflame реализовала проект «Практика создания технологического фундамента на базе кластера с 10 000 GPU Enflame», включенный в перечень типовых применений MIIT (Министерство промышленности и информатизации Китая) за 2025 год.

Это подтверждение масштабируемости: T20 работает не только в single-node конфигурациях, но и в больших кластерах.

Day-1 адаптация DeepSeek V4 с поддержкой FP8 (апрель 2026) - демонстрация способности поддерживать frontier модели в день релиза.

Рейтинг карты

Производительность (★★★☆☆) - На уровне 85 - 90% от H20 по FP16, но уступает по bandwidth и interconnect;

Энергоэффективность (★★★★☆) - 300 Вт при 128 TFLOPS FP16 - лучше, чем H20 (400 Вт при 148 TFLOPS);

Экосистема / ПО (★★★☆☆) - TopsRider поддерживает основные фрейморки, но нет CUDA совместимости. Экосистема существенно уступает Moore Threads (MUSA) и Huawei (CANN);

Масштабируемость (★★★★☆) - 10K GPU кластер подтвержден. Но interconnect bandwidth (300 ГБ/с) ограничивает пересчет для очень больших моделей;

Надежность поставщика (★★★★☆) - IPO в процессе, Tencent за спиной - финансовая стабильность обеспечена. Но 84% от одного клиента - риск концентрации;

Цена / TCO (★★★☆☆) - Конкурентная цена на inference задачи. Но ограниченная экосистема может увеличить стоимость владения (обучение персонала, миграция моделей).

Общая оценка: 3.3 / 5

Позиция в рейтинге ChaiTeX: 6-е место из 8 рассмотренных китайских GPU (после Moore Threads S5000, Huawei Ascend 910C, MetaX C600, Iluvatar BiV150, Baidu Kunlun P800; перед YH001 и ранними поколениями Moore Threads).

Ускоритель доступен для предзаказа в каталоге Chaitex

Энергоэффективность карты

Сравнение с конкурентами:

Enflame CloudBlazer T20 32Gb: FP16 TFLOPS: 128; TDP (Вт): 300; TFLOPS/Вт: 0.427.

NVIDIA H20: FP16 TFLOPS: 148; TDP (Вт): 400; TFLOPS/Вт: 0.370;

NVIDIA H100: FP16 TFLOPS: 989; TDP (Вт): 700; TFLOPS/Вт: 1.413;

Huawei Ascend 910C: FP16 TFLOPS: ~800; TDP (Вт): - 400; TFLOPS/Вт: ~2.0.

Вывод: T20 демонстрирует лучшую энергоэффективность, чем NVIDIA H20 (0.427 vs 0.370 TFLOPS/Вт), но существенно уступает топовым training ускорителям (H100, Ascend 910C). Это обусловлено позиционированием: T20 - inference чип, оптимизированный не для пиковой производительности, а для эффективной работы при реальных нагрузках.

Архитектурные решения для снижения энергопотребления

· 12-нм процесс - сознательный отказ от передовых 7/5 нм в пользу зрелого, энергоэффективного процесса.

· Оптимизация TopsRider - снижение нагрузки на подсистему памяти уменьшает энергопотребление при выполнении реальных моделей.

· Динамическое управление питанием - адаптация частоты и напряжения под нагрузку.

Выводы и заключения

Для кого подходит Enflame T20:

Tencent Cloud users - если вы уже используете Tencent Cloud, T20 предлагает нативную интеграцию.

Inference-only workloads - если ваши задачи ограничены инференсом (нет training либо fine-tuning).

Энергосбережение - если TCO включает значимую статью расходов на электроэнергию и охлаждение.

DeepSeek ecosystem - если вы используете DeepSeek модели, Day-1 адаптация обеспечена.

Enflame CloudBlazer T20 32Gb - это специализированный inference ускоритель среднего уровня с конкурентной энергоэффективностью, но ограниченной экосистемой. Для российских enterprise заказчиков он может быть интересен в сценариях, где приоритетны:

· Низкое энергопотребление;

· Инференс DeepSeek-моделей;

· Интеграция с Tencent совместимыми облачными решениями.

В долгосрочной перспективе успех Enflame CloudBlazer T20 32Gb на российском и мировом рынках будет определяться не только аппаратными характеристиками, но и скоростью развития собственной программной экосистемы. Для российских enterprise и облачных провайдеров карта представляет интерес как элемент стратегии технологической независимости, особенно в условиях санкционных ограничений и удорожания западных решений. Следует учитывать при выборе T20 для массового внедрения потребуется адаптация внутренних процессов, обучение персонала и, возможно, доработка моделей под стек TopsRider.

В ближайшие 1 - 2 года карта будет наиболее востребована в проектах, где критичны низкое энергопотребление, интеграция с китайскими облачными платформами и поддержка frontier моделей вроде DeepSeek, а также в государственных и финансовых структурах, ориентированных на импортозамещение.

Обзор inference карты Enflame CloudBlazer T20 32Gb

Технические характеристики Enflame CloudBlazer T20 32Gb

Особенности архитектуры карты Enflame CloudBlazer T20 32Gb

Особенности карты Enflame CloudBlazer T20 32Gb

Особенности карты Enflame CloudBlazer T20 32Gb

Программный стек TopsRider

Day 1 адаптация DeepSeek V4

Интеграция с Tencent Cloud

Сравнение с ближайшим аналогом

Предварительная оценка производительности Enflame CloudBlazer T20 32Gb

Позиционирование на рынке

Задачи для использования карты

Информация о проведенных тестированиях

В каких проектах уже используется

Рейтинг карты

Энергоэффективность карты

Архитектурные решения для снижения энергопотребления

Выводы и заключения