Обзор видеокарты Moore Threads MTT S5000 80GB

Moore Threads MTT S5000 - флагманская профессиональная GPU-карта от китайского производителя Moore Threads (摩尔线程). Входит в третье поколение GPU компании и позиционируется как основное решение для AI-инференса и обучения LLM в китайском и международном (включая РФ) сегментах.

Ключевые факты:

Объём памяти: 80 GB GDDR6 (самый большой объём в линейке Moore Threads);

Архитектура: Pinghu (平湖) - третье поколение GPU-архитектуры Moore Threads;

Позиционирование: альтернатива NVIDIA H100/H200 для AI-инференса в условиях санкционных ограничений;

Статус производства: серийное производство начато в конце 2025.

MTT S5000 была анонсирована как ответ на растущий спрос со стороны китайских AI-компаний, которым недоступны NVIDIA H100/H200 из-за экспортных ограничений США. Карта разработана с учётом специфики китайского рынка: поддержка отечественных AI-фреймворков, оптимизация под китайские LLM (DeepSeek, GLM, Qwen).

24 апреля 2026 года Moore Threads вошла в список восьми китайских GPU-вендоров, объявивших о Day-0 адаптации под DeepSeek V4. S5000 одной из первых прошла полную совместимость с новейшей frontier моделью.

Технические характеристики Moore Threads MTT S5000 80GB

Архитектура: Pinghu (Gen 3);

Техпроцесс: 7 нм;

FP16 производительность: ~1000 TFLOPS;

INT8 производительность: 500+ TOPS;

Память: 80 GB GDDR6;

Пропускная способность памяти: ~1.5 - 2.0 ТБ/с;

Интерфейс: PCIe 5.0 x16;

TDP: ~300 - 350 Вт;

Форм-фактор: Двойная ширина, полноразмерная;

Видеовыходы: Нет (профессиональная карта);

Поддержка MUSA: Да (полная);

Поддержка CUDA: Через слой трансляции.

Особенности архитектуры Moore Threads MTT S5000 80GB

Архитектура Pinghu (平湖)

MTT S5000 построена на архитектуре Pinghu - третьем поколении GPU-дизайна Moore Threads. Ключевые особенности:

Вычислительные блоки:

· Поддержка широкого диапазона точности: FP8, FP16, BF16, FP32, FP64;

· Оптимизация под GEMM-интенсивные операции (основа LLM-инференса);

· Аппаратная поддержка тензорных операций;

· SIMT архитектура (похожа на NVIDIA CUDA, но с собственной реализацией).

Графические возможности:

· Поддержка DirectX 11/12, OpenGL 4.5, Vulkan 1.3;

· Видеодекодеры: H.264, H.265, AV1 (8K);

· Видеоэнкодеры: H.264, H.265;

· Позиционируется как универсальная карта (AI + графика).

Особенности архитектуры MUSA

Архитектура MUSA (Moore Threads Unified System Architecture) - это программно-аппаратная экосистема, включающая:

· MUSA Compute Capability: аналог CUDA Compute Capability, определяет поддерживаемые инструкции и функции;

· MUSACore: драйвер уровня ядра для управления GPU;

· MUSABlas, MUSADNN, MUSAFFT: математические библиотеки (аналоги cuBLAS, cuDNN, cuFFT);

· MUSA Runtime API: API для запуска ядер на GPU (похож на CUDA Runtime API).

Совместимость с CUDA:

· НЕ является прямой эмуляцией CUDA;

· Предоставляет слой трансляции CUDA-кода в MUSA-инструкции;

· Большинство операций работает корректно, но могут требовать ручной оптимизации для максимальной производительности;

· Поддерживается портирование существующих CUDA-приложений с минимальными изменениями кода.

Особенности памяти и шины

80 GB GDDR6:

· В 1.67 раза больше, чем у MTT S4000 (48 GB);

· Позволяет разместить модели до ~40B параметров в FP16 с запасом под KV-cache;

· Для моделей 70B+ требуется multi-GPU конфигурация (например, 8 карт в сервере MCCX D800).

Пропускная способность памяти:

· Оценочно ~1.5 - 2.0 ТБ/с (точные спецификации не раскрываются Moore Threads);

· Используется 256-bit или 384-bit шина (не подтверждено официально).

Предварительная оценка производительности

AI-инференс (LLM)

Ожидаемая производительность на типовых задачах:

Llama 3 8B: Размер (параметры): 8В; Throughput (tokens/sec): ~500 - 800; Latency (мс): Менее 50. Отлично для real-time инференса.

Qwen 2.5 14B: Размер (параметры): 14В; Throughput (tokens/sec): ~300 - 500; Latency (мс): Менее 100. Хорошо для production.

DeepSeek V3 32B: Размер (параметры): 32В; Throughput (tokens/sec): ~150 - 250; Latency (мс): Менее 200. Требует оптимизации.

DeepSeek V3 70B: Размер (параметры): 70В; Throughput (tokens/sec): ~80 - 120; Latency (мс): Менее 500. На 2 - 4 картах.

DeepSeek V4-Flash: Размер (параметры): ~100B; Throughput (tokens/sec): ~50 - 80; Latency (мс): Менее 1000. Требует 8 карт (MCCX D800).

Сравнение с конкурентами (оценка на основе имеющихся данных):

NVIDIA A100 80GB: S5000 медленнее на 30 - 40% на чистом инференсе, но имеет преимущество в объёме памяти (80 GB vs 80 GB - паритет) и цене (дешевле на 40 - 50%).

NVIDIA H100: S5000 медленнее на 50 - 60%, но H100 недоступен в Китае и РФ из-за санкций.

MetaX C500 (64GB): S5000 быстрее на 20–30% на FP16, но C500 имеет более зрелый софтовый стек (основан на ROCm).

Экосистема и софт

MUSA SDK

Состав:

· MUSA Toolkit: компилятор, драйверы, утилиты мониторинга (аналог CUDA Toolkit);

· MUSABlas: библиотека линейной алгебры (уровень 1/2/3);

· MUSADNN: библиотека глубокого обучения (свёртки, RNN, трансформеры);

· MUSAFFT: быстрое преобразование Фурье.

Поддержка фреймворков:

· PyTorch: частичная поддержка (через MUSA backend);

· TensorFlow: экспериментальная поддержка;

· vLLM: в процессе адаптации (ожидается в Q3 2026);

· Triton: поддержка ограничена.

Day-0 адаптация DeepSeek V4

Что это значит:

24 апреля 2026 года Moore Threads объявила о Day-0 поддержке DeepSeek V4 на S5000. Это означает:

· Полная совместимость с архитектурой DeepSeek V4 (Multi-Head Latent Attention, Mixture-of-Experts);

· Оптимизированные ядра для инференса (снижение latency на 20–30% по сравнению с базовой реализацией);

· Готовность к production развёртыванию сразу после релиза модели.

Конкурентный ландшафт

Moore Threads S5000: Память: 80 GB GDDR6; FP16 TFLOPS: ~1000; Экосистема: MUSA (растущая);

MetaX C500: Память: 64 GB HBM3; FP16 TFLOPS: ~900; Экосистема: ROCm подобная;

Huawei Atlas 300I Duo: Память: 96 GB (2x48); FP16 TFLOPS: ~800; Экосистема: CANN (зрелая);

Iluvatar BiV150: Память: 64 GB HBM3; FP16 TFLOPS: ~1200; Экосистема: OpenCL/тензорные операции;

S5000 занимает нишу между MetaX C500 (более доступный, но менее производительный) и Huawei Atlas 300I Duo (более дорогой, но с лучшей экосистемой). Главное преимущество S5000 - 80 GB памяти при цене младших флагманов.

Заключение

Идеальный профиль покупателя Moore Threads S5000:

· Крупные enterprises с бюджетом на предзаказ (горизонт 3 - 6 месяцев);

· AI-интеграторы, внедряющие LLM-инференс в production;

· Госструктуры РФ, которым требуется суверенная AI инфраструктура.

Трейнеры LLM - для обучения лучше использовать NVIDIA H100 (если доступна) или кластеры из S5000;

Компании без опыта в Linux/MLOps - MUSA требует ручной настройки.

Moore Threads MTT S5000 80GB - это жизнеспособная альтернатива NVIDIA A100 для AI-инференса в условиях санкционных ограничений. Карта предлагает достойную производительность, большой объём памяти и растущую экосистему MUSA. Незначительное препятствия - дефицит карт и временная незрелость софта. Тем не менее, для китайского и российского рынков S5000 - один из немногих вариантов построения независимой AI-инфраструктуры.