Enflame CloudBlazer T20 32Gb inference-карта для высокопроизводительных вычислений

Enflame CloudBlazer T20 32Gb - ускоритель вычислений искусственного интеллекта (AI ускоритель) китайской компании Enflame Technology, предназначенный для задач inference (инференса) больших языковых моделей и других AI-нагрузок.

Производитель Enflame Technology, основана в 2018 году в Шанхае. Основатели бывшие инженеры AMD и Qualcomm. Компания позиционируется как разработчик облачных AI-чипов (облачные AI chips) и входит в «большую четверку» китайских GPU-вендоров наряду с Moore Threads, MetaX и Iluvatar.

Позиционирование CloudBlazer T20 32Gb Inference-ускоритель среднего уровня. Не предназначен для обучения (training) моделей с нуля, но оптимизирован для развертывания уже обученных моделей в production. Конкурент NVIDIA H20 по целевому применению, но с собственной архитектурой, несовместимой с CUDA.

Статус компании, подача на IPO STAR Market: Оценка перед IPO: $2,8–2,9 млрд; Объём привлечения - $830 млн; Ключевой акционер и заказчик - Tencent (более 84% выручки). Enflame Technology - последний из «большой четвёрки» китайских производителей GPU, вышедших на биржу. Его размещение рассматривается как важный этап в развитии национальной индустрии AI-чипов и снижении зависимости от западных технологий. Успешное IPO компании подогревает интерес инвесторов к сектору и подтверждает тренд на технологическую самостоятельность Китая.

Технические характеристики Enflame CloudBlazer T20 32Gb

Архитектура - GCU-CARE 2.0 (DTU);

Техпроцесс - 12 нм FinFET (GlobalFoundries);

Видеопамять - 32 GB HBM2e;

Пропускная способность памяти ~819 ГБ/с;

FP32 - 32 TFLOPS;

FP16 / BF16 - 128 TFLOPS;

INT8 - 256 TOPS;

TDP ~300 Вт;

Межпроцессорное соединение: 300 ГБ/с;

Форм-фактор - PCIe карта (стандартный размер);

Программный стек - TopsRider;

Поддержка фреймворков - TensorFlow, PyTorch, ONNX;

API - C++, Python.

По совокупности технических характеристик карта сопоставима с NVIDIA A100, однако уступает решениям NVIDIA H100/H200 и флагманам Huawei по ряду параметров, прежде всего по энергоэффективности и зрелости программного стека. Ключевым преимуществом T20 является использование полностью проприетарной архитектуры GCU-CARE 2.0 (DTU), что обеспечивает независимость от западных экосистем, но требует от разработчиков дополнительной катомизации под собственные программные инфраструктуры.

Особенности архитектуры карты Enflame CloudBlazer T20 32Gb

Самописная архитектура DTU / GCU

В отличие от большинства китайских конкурентов (Moore Threads с MUSA/CUDA-совместимостью, Huawei с CANN), Enflame пошла путем полностью самостоятельной архитектуры:

• DTU (Deep Thinking Unit) - базовая вычислительная архитектура;

• GCU (General Compute Unit) - вычислительные ядра, аналог CUDA cores в NVIDIA;

• GCU-CARE 2.0 - обновленная архитектура вычислительных ядер (начиная с поколения i20/T20).

Особенности карты Enflame CloudBlazer T20 32Gb

1. 12-нанометровый процесс GlobalFoundries - сознательный выбор более зрелого техпроцесса для снижения зависимости от передовых foundry (TSMC, Samsung) и снижения себестоимости.
2. Тензорные, векторные и скалярные вычисления в одном блоке - универсальные вычислительные блоки GCU поддерживают все типы операций, требуемых для AI-инференса.
3. Оптимизация под HBM2e - архитектура заточена под высокоскоростную память HBM2e с максимальной загрузкой шины памяти.
4. Несовместимость с CUDA - принципиальное решение. Вместо эмуляции CUDA Enflame строит собственный стек TopsRider с прямой поддержкой фреймворков TensorFlow, PyTorch, ONNX.

Для задач инференса средних моделей и построения корпоративных AI-кластеров T20 уже сегодня демонстрирует конкурентоспособную производительность и стабильность. Пассивное охлаждение и оптимизация под HBM2e делают карту привлекательной для крупных дата-центров, где важны энергоэффективность и плотность размещения оборудования.

Особенности карты Enflame CloudBlazer T20 32Gb

Программный стек TopsRider

Главная особенность Enflame - собственный программный стек TopsRider, который является полной альтернативой CUDA:

• Поддержка основных фреймворков: TensorFlow, PyTorch, ONNX - без необходимости переписывать модели.

• API на C++ и Python - стандартные интерфейсы для разработчиков.

• Виртуализация - поддержка технологий виртуализации для облачных развертываний.

• Мультипользовательская и многозадачная среда - безопасная изоляция процессов.

• Автоматизация миграции моделей - инструменты для переноса моделей с NVIDIA на Enflame.

Day 1 адаптация DeepSeek V4

Ключевой маркетинговый факт: Enflame обеспечила Day-1 (в день релиза) адаптацию DeepSeek V4 на своих чипах с поддержкой FP8. Это сигнализирует о достаточной зрелости программного стека для поддержки frontier-моделей.

Интеграция с Tencent Cloud

Тесная связь с Tencent (основной акционер и >84% выручки) обеспечивает:

• Гарантированный канал сбыта а соответственно развития продукта;

• Оптимизацию под нагрузки Tencent (WeChat, Tencent Games, Tencent Meeting);

• Облачные инстансы с T20 на Tencent Cloud.

Сравнение с ближайшим аналогом

Enflame CloudBlazer T20 32Gb: FP16 - 128 TFLOPS; TDP - 300 Вт; Interconnect - 300 ГБ/с; Память - 32 GB HBM2e; CUDA-совместимость - Нет.

NVIDIA H20: FP16 - 148 TFLOPS; TDP - 400 Вт; Interconnect - 900 ГБ/с; Память - 96 GB HBM3; CUDA-совместимость - Да.

Примечание: T20 уступает H20 по абсолютной производительности и пропускной способности межпроцессорного соединения, но превосходит по энергоэффективности (TFLOPS на ватт) и имеет существенно более низкий TDP.

Экосистема TopsRider активно развивается: Enflame делает ставку на открытость и совместимость с основными AI-фреймворками, что снижает порог входа для новых пользователей. Важным преимуществом является наличие инструментов для автоматизации миграции моделей с NVIDIA, что ускоряет переход на собственные ускорители. Виртуализация и поддержка многопользовательских сред делают T20 привлекательным для облачных провайдеров и крупных корпоративных клиентов, где требуется безопасная изоляция вычислительных задач.

Предварительная оценка производительности Enflame CloudBlazer T20 32Gb

• Относительно предыдущего поколения (i10): FP-производительность выросла в 1.8 раза, INT-вычисления в 3.6 раза.

• Оптимизация TopsRider: средняя производительность выполнения моделей выросла в 3.5 раза по сравнению с первым поколением за счет снижения нагрузки на подсистему памяти.

• Эффективность использования вычислительных ресурсов: увеличена в 2 раза.

Позиционирование на рынке

T20 - это inference-ускоритель среднего уровня. По производительности FP16 он примерно на уровне 85 - 90% от NVIDIA H20, но с существенно меньшим энергопотреблением. Для большинства inference-задач (LLM serving, RAG, AI Agents) этого достаточно.

Задачи для использования карты

Прямое назначение (оптимально):

· Инференс LLM - развертывание больших языковых моделей (DeepSeek, Qwen, ChatGLM и др.) для чат-ботов, ассистентов, генерации текста;

· RAG-системы (retrieval augmented generation) - с векторными базами данных;

· AI Agents - многошаговые агенты с промежуточным инференсом;

· Компьютерное зрение - inference моделей классификации, детекции, сегментации.

· Рекомендательные системы - inference в реальном времени для персонализации.

Непрямое назначение (возможно, но не оптимально):

· Fine-tuning моделей возможен, но ограничен по сравнению с training-ускорителями;

· Обучение с нуля не рекомендуется - архитектура заточена под inference, но реализация возможна.

Информация о проведенных тестированиях

· Сравнение с первым поколением: FP-производительность +1.8x, INT +3.6x;

· Оптимизация TopsRider: средняя производительность моделей +3.5x;

· Эффективность использования вычислительных ресурсов: +2x;

· Производительность на единицу ватта: заявляется как сопоставимая с 7-нм GPU при использовании 12-нм процесса.

В каких проектах уже используется

· Tencent Cloud предлагает облачные инстансы с Enflame T20;

· Оптимизация под нагрузки Tencent: WeChat, Tencent Games, Tencent Meeting;

· Совместная разработка программного стека;

· Enflame реализовала проект «Практика создания технологического фундамента на базе кластера с 10 000 GPU Enflame», включенный в перечень типовых применений MIIT (Министерство промышленности и информатизации Китая) за 2025 год.

Это подтверждение масштабируемости: T20 работает не только в single-node конфигурациях, но и в больших кластерах.

Day-1 адаптация DeepSeek V4 с поддержкой FP8 (апрель 2026) - демонстрация способности поддерживать frontier-модели в день релиза.

Рейтинг карты

Производительность (★★★☆☆) - На уровне 85-90% от H20 по FP16, но уступает по bandwidth и interconnect;

Энергоэффективность (★★★★☆) - 300 Вт при 128 TFLOPS FP16 - лучше, чем H20 (400 Вт при 148 TFLOPS);

Экосистема / ПО (★★★☆☆) - TopsRider поддерживает основные фрейморки, но нет CUDA-совместимости. Экосистема существенно уступает Moore Threads (MUSA) и Huawei (CANN);

Масштабируемость (★★★★☆) - 10K GPU кластер подтвержден. Но interconnect bandwidth (300 ГБ/с) ограничивает scaling для очень больших моделей;

Надежность поставщика (★★★★☆) - IPO в процессе, Tencent за спиной — финансовая стабильность обеспечена. Но 84% от одного клиента - риск концентрации;

Цена / TCO (★★★☆☆) - Конкурентная цена на inference-задачи. Но ограниченная экосистема может увеличить стоимость владения (обучение персонала, миграция моделей).

Общая оценка: 3.3 / 5

Позиция в рейтинге ChaiTeX: 6-е место из 8 рассмотренных китайских GPU (после Moore Threads S5000, Huawei Ascend 910C, MetaX C600, Iluvatar BiV150, Baidu Kunlun P800; перед YH001 и ранними поколениями Moore Threads).

Энергоэффективность карты

Сравнение с конкурентами:

Enflame CloudBlazer T20 32Gb: FP16 TFLOPS - 128; TDP (Вт) - 300; TFLOPS/Вт - 0.427.

NVIDIA H20: FP16 TFLOPS - 148; TDP (Вт) - 400; TFLOPS/Вт - 0.370;

NVIDIA H100: FP16 TFLOPS - 989; TDP (Вт) - 700; TFLOPS/Вт - 1.413;

Huawei Ascend 910C: FP16 TFLOPS ~800; TDP (Вт) - 400; TFLOPS/Вт ~2.0.

Вывод: T20 демонстрирует лучшую энергоэффективность, чем NVIDIA H20 (0.427 vs 0.370 TFLOPS/Вт), но существенно уступает топовым training-ускорителям (H100, Ascend 910C). Это обусловлено позиционированием: T20 - inference-чип, оптимизированный не для пиковой производительности, а для эффективной работы при реальных нагрузках.

Архитектурные решения для снижения энергопотребления

· 12-нм процесс - сознательный отказ от передовых 7/5 нм в пользу зрелого, энергоэффективного процесса.

· Оптимизация TopsRider - снижение нагрузки на подсистему памяти уменьшает энергопотребление при выполнении реальных моделей.

· Динамическое управление питанием - адаптация частоты и напряжения под нагрузку.

Выводы и заключения

Для кого подходит Enflame T20:

Tencent Cloud users - если вы уже используете Tencent Cloud, T20 предлагает нативную интеграцию.

Inference-only workloads - если ваши задачи ограничены инференсом (нет training/fine-tuning).

Энергосбережение - если TCO включает значимую статью расходов на электроэнергию и охлаждение.

DeepSeek ecosystem - если вы используете DeepSeek-модели, Day-1 адаптация обеспечена.

Выводы и заключение:

Enflame CloudBlazer T20 32Gb - это специализированный inference-ускоритель среднего уровня с конкурентной энергоэффективностью, но ограниченной экосистемой. Для российских enterprise-заказчиков он может быть интересен в сценариях, где приоритетны:

· Низкое энергопотребление;

· Инференс DeepSeek-моделей;

· Интеграция с Tencent-совместимыми облачными решениями.

В долгосрочной перспективе успех Enflame CloudBlazer T20 32Gb на российском и мировом рынках будет определяться не только аппаратными характеристиками, но и скоростью развития собственной программной экосистемы. Для российских enterprise и облачных провайдеров карта представляет интерес как элемент стратегии технологической независимости, особенно в условиях санкционных ограничений и удорожания западных решений. Следует учитывать при выборе T20 для массового внедрения потребуется адаптация внутренних процессов, обучение персонала и, возможно, доработка моделей под стек TopsRider.

В ближайшие 1 - 2 года карта будет наиболее востребована в проектах, где критичны низкое энергопотребление, интеграция с китайскими облачными платформами и поддержка frontier-моделей вроде DeepSeek, а также в государственных и финансовых структурах, ориентированных на импортозамещение.