Huawei Atlas 300I Duo (96 ГБ) inference-карта на архитектуре Ascend

Atlas 300I Duo - PCIe-карта для AI-инference и видеоанализа, выпускаемая Huawei в рамках линейки Ascend. Карту встраивают в серверы (Atlas 800, Atlas 500), она не продаётся как отдельный потребительский продукт - только через серверные конфигурации или по проектным запросам.

Ключевое позиционирование: объединение универсального процессора, AI Core и кодека-декодера на одной карте. Это не чистый AI-акселератор: карта содержит собственный ARM-CPU (16 ядер), два AI-чипа Ascend 310P и аппаратные видео-кодеки. По сути это мини-компьютер для inference, который можно вставить в любой PCIe-слот.

Суффикс Duo означает два чипа Ascend 310P на одной карте. Версия 96 ГБ - вариант с максимальным объёмом LPDDR4X-памяти (присутствует также версия 48 ГБ).

Разберемся подробнее в особенностях карты.

Технические характеристики Huawei Atlas 300I Duo (96 ГБ)

AI-вычислительная мощность - 280 TOPS INT8 / 140 TFLOPS FP16;

CPU - 16 ядер ARM, 1,9 ГГц;

Память - LPDDR4X 96 ГБ (или 48 ГБ), общая пропускная способность 408 ГБ/с, поддержка ECC;

PCIe - Gen4.0 x16 (совместим с x8/x4/x2, обратно совместим с Gen3.0/2.0/1.0);

Видеодекодирование H.264 - 256 каналов 1080p 30 fps (32 канала 4K 60 fps);

Видеодекодирование H.265 - 256 каналов 1080p 30 fps (32 канала 4K 60 fps);

Видеокодирование H.264 - 48 каналов 1080p 30 fps (6 каналов 4K 60 fps);

Видеокодирование H.265 - 48 каналов 1080p 30 fps (6 каналов 4K 60 fps);

JPEG-декодирование - 4K 1024 fps;

JPEG-кодирование - 4K 512 fps;

Максимальное разрешение - 8192 × 8192;

Потребляемая мощность - 150 Вт;

Форм-фактор - однослотовая, полноразмерная (10,5 дюймов);

Размеры - 266,7 × 111,15 × 18,46 мм;

Рабочая температура - 0–55 °C.

Особенности архитектуры Huawei Atlas 300I Duo (96 ГБ)

Чип Ascend 310P - inference-ориентированный чип третьего поколения архитектуры Da Vinci, разработанной Huawei. Da Vinci - унифицированная архитектура, используемая во всей линейке Ascend (от 310 для edge-инference до 910 для обучения).

Ключевые элементы архитектуры Da Vinci:

· AI Core - вычислительный блок, содержащий куб-матричный движок (Cube Engine) для операций INT8/FP16 матричного умножения и векторный движок (Vector Engine) для скалярных и векторных операций. Cube Engine реализует матричное умножение 16×16×16 (INT8) или 16×16 (FP16) за один такт

· AI CPU - специализированный процессор для сложных операций, неэффективных на Cube/Vector Engine (softmax, layernorm, сложные функции активации)

· DVPP (Digital Vision Pre-Processing) - аппаратный блок предобработки изображений и видео: декодирование, ресайз, цветокоррекция, обрезка. Работает независимо от AI Core

· Scalar Engine - для управления потоком вычислений и координации между блоками

На Atlas 300I Duo установлены два чипа Ascend 310P, каждый со своим набором AI Core, AI CPU и DVPP. Это позволяет параллельно обрабатывать два независимых потока inference или распределять одну задачу между чипами.

ARM-CPU на карте

16 ARM-ядер (частота 1,9 ГГц) - встроенный универсальный процессор. Задачи: координация inference-потоков, предобработка данных, управление DVPP, выполнение логики приложения. Это делает карту самостоятельным вычислительным узлом - хост-сервер не тратит ресурсы на вспомогательные операции.

Взаимодействие чипов

Два 310P работают через внутреннюю коммуникационную шину. Каждый чип имеет собственный канал к LPDDR4X-памяти (общая пропускная способность 408 ГБ/с). Карта подключается к хосту через PCIe Gen4 x16.

Предварительная оценка производительности Huawei Atlas 300I Duo (96 ГБ)

INT8 inference

280 TOPS INT8 - теоретический пик. Реальная throughput для конкретных моделей зависит от:

· эффективности использования Cube Engine (типичная утилизация 70–85% для CNN-моделей);

· накладных расходов на передачу данных между AI Core и памятью;

· необходимости векторных операций (softmax, layernorm в трансформерах).

Ориентировочные оценки для типичных моделей (на основе архитектуры Da Vinci и данных по Ascend 310):

· ResNet-50: Ориентировочный throughput (INT8) ~5000 fps (batch=32); CNN хорошо укладываются на Cube Engine;

· YOLOv5/YOLOv8: Ориентировочный throughput (INT8) ~2000 - 3000 fps; Зависит от размера входного изображения;

· BERT-base (SQuAD): Ориентировочный throughput (INT8) ~800 - 1200 seq/s; Трансформеры менее эффективны на Cube Engine из-за softmax/layernorm;

· EfficientNet-B0: Ориентировочный throughput (INT8) ~6000 fps; Лёгкие модели - высокая утилизация;

· OCR (CRNN): Ориентировочный throughput (INT8) ~3000 fps; Небольшая модель, высокая throughput.

FP16

140 TFLOPS FP16 - вдвое ниже INT8, что типично для inference-чипов. FP16 используется для моделей, где INT8-квантизация недопустима (критичные к точности задачи).

Видеоанализ карты

256 каналов 1080p 30 fps - это мощная заявка. Для сравнения: NVIDIA T4 декодирует до 38 каналов 1080p 30 fps. Atlas 300I Duo заявляет 256 - почти 7× больше. Однако это суммарная пропускная способность двух DVPP-блоков, и реальная пропускная способность зависит от сложности пост-обработки.

Особенности карты Huawei Atlas 300I Duo (96 ГБ)

1. Два чипа на одной карте - уникальная конфигурация для PCIe-карт. Два 310P дают 280 TOPS при 150 Вт - это 1,86 TOPS/Вт, один из лучших показателей в классе inference-карт;
2. Встроенный ARM-CPU - карта не требует ресурсов хоста для вспомогательных операций. Можно запускать pipeline «декодирование - предобработка - inference - постобработка» полностью на карте;
3. DVPP + AI Core + CPU в одном устройстве - полный pipeline видеоанализа на одной карте без внешних зависимостей;
4. 96 ГБ LPDDR4X - рекордный объём памяти для inference-карты. Позволяет загрузить несколько крупных моделей одновременно или работать с большими контекстами (LLM);
5. Однослотовый форм-фактор, 150 Вт - в один сервер можно установить до 8 карт (8 × 280 = 2240 TOPS INT8 в одном сервере;
6. Поддержка ECC - критично для корпоративных и государственных deployments.

Задачи для использования карты

Оптимальные задачи

1. Видеоанализ в реальном времени - основное позиционирование Huawei. 256 каналов 1080p + inference на одной карте. Сценарии: видеонаблюдение, мониторинг транспорта, контроль доступа, анализ производственных процессов;
2. OCR и распознавание документов - DVPP предобработка + CNN/CRNN inference. Высокая throughput для массовой обработки;
3. Классификация и поиск изображений - retrieval, clustering, content moderation. CNN-модели хорошо укладываются на Cube Engine;
4. Рекомендательные системы - Wide&Deep, DeepFM и подобные модели. Huawei заявляет поддержку recommendation-моделей в ModelZoo;
5. NLP-inference (BERT и аналоги) - классификация текста, NER, sentiment analysis. BERT-base работает, но менее эффективно, чем CNN;
6. Edge- и on-premise inference - 150 Вт, однослотовый форм-фактор, встроенный CPU - идеально для deployment вне дата-центров.

Ограниченно подходящие задачи

1. LLM-inference (GPT-подобные модели) - 96 ГБ памяти позволяют загрузить модель до ~7B параметров (INT8), но пропускная способность памяти (408 ГБ/с) ограничивает пропускной способностью для длинных контекстов. Поддержка LLM-архитектур в CANN ограничена;
2. Diffusion models / генерация изображений - поддержка в CANN зависит от версии; архитектура не оптимизирована для таких задач
3. Обучение (training) - Ascend 310P не предназначен для training. Для обучения нужен Atlas 300T (Ascend 910)

Информация о проведённых тестированиях

· Внутренние тесты Huawei: заявленные 280 TOPS INT8, 140 TFLOPS FP16, 256 каналов видео (MLPerf, AI Benchmark);

· MLPerf Inference: Ascend-платформы участвовали в MLPerf (Atlas 800 с Ascend 910), но результаты для Atlas 300I Duo с 310P не опубликованы в открытых результатах MLPerf;

· ModelZoo Ascend: GitHub-репозиторий Ascend/modelzoo содержит реализации моделей для Ascend, но без стандартизированных бенчмарков - только инструкции по запуску

· Китайские технические сообщества (CSDN, Zhihu): отдельные пользователи публикуют результаты тестов ResNet-50, YOLOv3 на Ascend 310, но для 310P/Duo систематизированных данных нет

В каких проектах уже используется

Huawei позиционирует Atlas-платформы для следующих вертикалей (по официальным материалам):

1. Умный город (智慧城市) - видеоаналитика для городских систем наблюдения. Массовое развертывание в китайских городах: распознавание лиц, мониторинг трафика, обнаружение инцидентов;
2. Умный транспорт (智慧交通) - анализ транспортных потоков, контроль скорости, распознавание номеров. Atlas 500 (edge-сервер с Ascend 310) развертывание на перекрестках;
3. Интернет-сервисы - рекомендательные системы, модерация контента, OCR для крупных китайских платформ;
4. Финансы - OCR для обработки документов, KYC-аналитика, выявление мошенничества. Китайские банки используют Atlas-серверы;
5. Производство - контроль качества через видеоаналитику, предиктивное обслуживание.

· Хайнань, Китай - умный город с видеоаналитикой на Atlas-платформах;

· Шэньчжэнь - транспортная аналитика;

· China Mobile - AI-eSIM и MoMA-платформа используют Ascend-инфраструктуру для inference;

· Huawei Cloud (ModelArts) - облачный AI-сервис Huawei работает на Ascend-инфраструктуре, включая inference на 310P.

Энергоэффективность карты

Заявленные показатели

- 1,86 TOPS/Вт (280 TOPS / 150 Вт) - Huawei заявляет это как «лидирующий в отрасли».

Сравнение с конкурентами:

Atlas 300I Duo - TOPS INT8: 280; Потребление - 150 Вт; TOPS/Вт - 1,86; Память - 96 ГБ; Тип памяти - LPDDR4X.

NVIDIA T4 - TOPS INT8: 130; Потребление - 70 Вт; TOPS/Вт - 1,86; Память - 16 ГБ; Тип памяти - GDDR6;

NVIDIA L4 - TOPS INT8: 120; Потребление - 72 Вт; TOPS/Вт - 1,67; Память - 24 ГБ; Тип памяти - GDDR6;

NVIDIA A10 - TOPS INT8: 250; Потребление - 150 Вт; TOPS/Вт - 1,67; Память - 24 ГБ; Тип памяти - GDDR6;

NVIDIA A2 - TOPS INT8: 20; Потребление - 15 Вт; TOPS/Вт - 1,33; Память - 16 ГБ; Тип памяти - GDDR6.

Atlas 300I Duo и NVIDIA T4 показывают одинаковый TOPS/Вт (1,86), но Duo даёт вдвое больше абсолютных TOPS при том же потреблении. Это значительное преимущество для плотных развертываний (8 карт в одном сервере = 2240 TOPS при 1200 Вт только на карты).

Реальная энергоэффективность зависит от утилизации AI Core. Если модель не полностью использует Cube Engine, эффективный TOPS/Вт снижается. Для CNN-моделей утилизация типично 70 - 85%, для трансформеров - ниже.

Дополнительный фактор встроенный CPU и DVPP

ARM-CPU и DVPP работают внутри тех же 150 Вт - хост-сервер не тратит дополнительные ватты на предобработку. В сценариях видеоаналитики это даёт реальное преимущество: весь pipeline от декодирования до inference на 150 Вт.

Рейтинг карты

Вычислительная мощность (★★★★☆) - 25%; 280 TOPS INT8 - конкурентно для inference, но ниже NVIDIA L4 (30 TOPS INT8 с HBM) в абсолютных TOPS. Однако Duo даёт 280 TOPS при 150 Вт, значительно выше по энергоэффективности;

Объём и пропускная способность памяти (★★★★☆) - 20%; 96 ГБ - рекорд для inference-карты. Но LPDDR4X (408 ГБ/с) медленнее HBM. Для CNN - отлично, для LLM – ограничение;

Энергоэффективность (★★★★☆) - 20%; 1,86 TOPS/Вт - один из лучших показателей в классе;

Экосистема и поддержка (★★☆☆☆) - 15%; CANN - проприетарный, ограниченная поддержка новых моделей, сложная конвертация, малое сообщество;

Универсальность задач (★★★☆☆) - 20%; Отлично для видеоаналитики и CNN-inference, ограниченно для LLM и генеративных моделей.

Общая оценка: 3,9 / 5

Карта получает высокий рейтинг за энергоэффективность и объём памяти, но низкий за экосистему. Для задач видеоаналитики и CNN-inference в китайской экосистеме - 4/5. Для LLM-inference и работы вне CANN-экосистемы - 3/5.

Выводы и заключения

Для кого эта карта

Atlas 300I Duo 96 ГБ - специализированная inference-карта с уникальным набором характеристик. Она не является универсальным заменителем NVIDIA-акселераторов, но в своей нише - видеоаналитика и массовый CNN-inference - предлагает лучшее соотношение TOPS/Вт и объёма памяти в классе.

1. Энергоэффективность - главный козырь. 1,86 TOPS/Вт при 280 TOPS и 150 Вт позволяет строить плотные inference-кластеры без экстенсивного роста энергопотребления. 8 карт в одном сервере - 2240 TOPS при 1200 Вт.

2. 96 ГБ памяти - уникально для inference-карт. Ни одна NVIDIA-карта в этом классе не предлагает 96 ГБ. Это позволяет загружать несколько моделей одновременно или работать с крупными моделями (до ~7B INT8).

3. Видеоаналитика - естественная ниша. 256 каналов 1080p + DVPP + AI Core + CPU на одной карте - полный pipeline без внешних зависимостей. Это основное конкурентное преимущество.

4. Экосистема CANN - проприетарный, сложный в освоении, с ограниченной поддержкой новых архитектур. Переход от PyTorch/TensorFlow к CANN требует значительных усилий. Для команд, работающих с NVIDIA-стеком, переход на Ascend - серьёзный проект.

5. LLM-inference - ограниченно. 96 ГБ памяти позволяют, но LPDDR4X (408 ГБ/с) и ограниченная поддержка LLM-архитектур в CANN делают карту неоптимальной для этой задачи. Для LLM лучше рассматривать Atlas 300T (Ascend 910) с HBM.

6. Геополитический фактор. Санкции ограничивают доступ для компаний из США и ряда других стран. Для российского рынка — доступ возможен, но требует проектного.

Рекомендация

- Рассмотреть для deployment, если: основная задача - видеоаналитика или массовый CNN-inference; есть готовность инвестировать в освоение CANN;

- Не рассматривать, если: основная задача - LLM-inference; команда не готова к переходу на проприетарный стек; нужна совместимость с CUDA-экосистемой.