Обзор видеокарты Moore Threads MTT S5000 80GB
2 июля 2026 г.
Moore Threads MTT S5000 - флагманская профессиональная GPU-карта от китайского производителя Moore Threads (摩尔线程). Входит в третье поколение GPU компании и позиционируется как основное решение для AI-инференса и обучения LLM в китайском и международном (включая РФ) сегментах.
Ключевые факты:
Объём памяти: 80 GB GDDR6 (самый большой объём в линейке Moore Threads);
Архитектура: Pinghu (平湖) - третье поколение GPU-архитектуры Moore Threads;
Позиционирование: альтернатива NVIDIA H100/H200 для AI-инференса в условиях санкционных ограничений;
Статус производства: серийное производство начато в конце 2025.
MTT S5000 была анонсирована как ответ на растущий спрос со стороны китайских AI-компаний, которым недоступны NVIDIA H100/H200 из-за экспортных ограничений США. Карта разработана с учётом специфики китайского рынка: поддержка отечественных AI-фреймворков, оптимизация под китайские LLM (DeepSeek, GLM, Qwen).
24 апреля 2026 года Moore Threads вошла в список восьми китайских GPU-вендоров, объявивших о Day-0 адаптации под DeepSeek V4. S5000 одной из первых прошла полную совместимость с новейшей frontier моделью.
Технические характеристики Moore Threads MTT S5000 80GB
Архитектура: Pinghu (Gen 3);
Техпроцесс: 7 нм;
FP16 производительность: ~1000 TFLOPS;
INT8 производительность: 500+ TOPS;
Память: 80 GB GDDR6;
Пропускная способность памяти: ~1.5 - 2.0 ТБ/с;
Интерфейс: PCIe 5.0 x16;
TDP: ~300 - 350 Вт;
Форм-фактор: Двойная ширина, полноразмерная;
Видеовыходы: Нет (профессиональная карта);
Поддержка MUSA: Да (полная);
Поддержка CUDA: Через слой трансляции.
Особенности архитектуры Moore Threads MTT S5000 80GB
Архитектура Pinghu (平湖)
MTT S5000 построена на архитектуре Pinghu - третьем поколении GPU-дизайна Moore Threads. Ключевые особенности:
Вычислительные блоки:
· Поддержка широкого диапазона точности: FP8, FP16, BF16, FP32, FP64;
· Оптимизация под GEMM-интенсивные операции (основа LLM-инференса);
· Аппаратная поддержка тензорных операций;
· SIMT архитектура (похожа на NVIDIA CUDA, но с собственной реализацией).
Графические возможности:
· Поддержка DirectX 11/12, OpenGL 4.5, Vulkan 1.3;
· Видеодекодеры: H.264, H.265, AV1 (8K);
· Видеоэнкодеры: H.264, H.265;
· Позиционируется как универсальная карта (AI + графика).
Особенности архитектуры MUSA
Архитектура MUSA (Moore Threads Unified System Architecture) - это программно-аппаратная экосистема, включающая:
· MUSA Compute Capability: аналог CUDA Compute Capability, определяет поддерживаемые инструкции и функции;
· MUSACore: драйвер уровня ядра для управления GPU;
· MUSABlas, MUSADNN, MUSAFFT: математические библиотеки (аналоги cuBLAS, cuDNN, cuFFT);
· MUSA Runtime API: API для запуска ядер на GPU (похож на CUDA Runtime API).
Совместимость с CUDA:
· НЕ является прямой эмуляцией CUDA;
· Предоставляет слой трансляции CUDA-кода в MUSA-инструкции;
· Большинство операций работает корректно, но могут требовать ручной оптимизации для максимальной производительности;
· Поддерживается портирование существующих CUDA-приложений с минимальными изменениями кода.
Особенности памяти и шины
80 GB GDDR6:
· В 1.67 раза больше, чем у MTT S4000 (48 GB);
· Позволяет разместить модели до ~40B параметров в FP16 с запасом под KV-cache;
· Для моделей 70B+ требуется multi-GPU конфигурация (например, 8 карт в сервере MCCX D800).
Пропускная способность памяти:
· Оценочно ~1.5 - 2.0 ТБ/с (точные спецификации не раскрываются Moore Threads);
· Используется 256-bit или 384-bit шина (не подтверждено официально).
Предварительная оценка производительности
AI-инференс (LLM)
Ожидаемая производительность на типовых задачах:
Llama 3 8B: Размер (параметры): 8В; Throughput (tokens/sec): ~500 - 800; Latency (мс): Менее 50. Отлично для real-time инференса.
Qwen 2.5 14B: Размер (параметры): 14В; Throughput (tokens/sec): ~300 - 500; Latency (мс): Менее 100. Хорошо для production.
DeepSeek V3 32B: Размер (параметры): 32В; Throughput (tokens/sec): ~150 - 250; Latency (мс): Менее 200. Требует оптимизации.
DeepSeek V3 70B: Размер (параметры): 70В; Throughput (tokens/sec): ~80 - 120; Latency (мс): Менее 500. На 2 - 4 картах.
DeepSeek V4-Flash: Размер (параметры): ~100B; Throughput (tokens/sec): ~50 - 80; Latency (мс): Менее 1000. Требует 8 карт (MCCX D800).
Сравнение с конкурентами (оценка на основе имеющихся данных):
NVIDIA A100 80GB: S5000 медленнее на 30 - 40% на чистом инференсе, но имеет преимущество в объёме памяти (80 GB vs 80 GB - паритет) и цене (дешевле на 40 - 50%).
NVIDIA H100: S5000 медленнее на 50 - 60%, но H100 недоступен в Китае и РФ из-за санкций.
MetaX C500 (64GB): S5000 быстрее на 20–30% на FP16, но C500 имеет более зрелый софтовый стек (основан на ROCm).
Экосистема и софт
MUSA SDK
Состав:
· MUSA Toolkit: компилятор, драйверы, утилиты мониторинга (аналог CUDA Toolkit);
· MUSABlas: библиотека линейной алгебры (уровень 1/2/3);
· MUSADNN: библиотека глубокого обучения (свёртки, RNN, трансформеры);
· MUSAFFT: быстрое преобразование Фурье.
Поддержка фреймворков:
· PyTorch: частичная поддержка (через MUSA backend);
· TensorFlow: экспериментальная поддержка;
· vLLM: в процессе адаптации (ожидается в Q3 2026);
· Triton: поддержка ограничена.
Day-0 адаптация DeepSeek V4
Что это значит:
24 апреля 2026 года Moore Threads объявила о Day-0 поддержке DeepSeek V4 на S5000. Это означает:
· Полная совместимость с архитектурой DeepSeek V4 (Multi-Head Latent Attention, Mixture-of-Experts);
· Оптимизированные ядра для инференса (снижение latency на 20–30% по сравнению с базовой реализацией);
· Готовность к production развёртыванию сразу после релиза модели.
Конкурентный ландшафт
Moore Threads S5000: Память: 80 GB GDDR6; FP16 TFLOPS: ~1000; Экосистема: MUSA (растущая);
MetaX C500: Память: 64 GB HBM3; FP16 TFLOPS: ~900; Экосистема: ROCm подобная;
Huawei Atlas 300I Duo: Память: 96 GB (2x48); FP16 TFLOPS: ~800; Экосистема: CANN (зрелая);
Iluvatar BiV150: Память: 64 GB HBM3; FP16 TFLOPS: ~1200; Экосистема: OpenCL/тензорные операции;
S5000 занимает нишу между MetaX C500 (более доступный, но менее производительный) и Huawei Atlas 300I Duo (более дорогой, но с лучшей экосистемой). Главное преимущество S5000 - 80 GB памяти при цене младших флагманов.
Заключение
Идеальный профиль покупателя Moore Threads S5000:
· Крупные enterprises с бюджетом на предзаказ (горизонт 3 - 6 месяцев);
· AI-интеграторы, внедряющие LLM-инференс в production;
· Госструктуры РФ, которым требуется суверенная AI инфраструктура.
Трейнеры LLM - для обучения лучше использовать NVIDIA H100 (если доступна) или кластеры из S5000;
Компании без опыта в Linux/MLOps - MUSA требует ручной настройки.
Moore Threads MTT S5000 80GB - это жизнеспособная альтернатива NVIDIA A100 для AI-инференса в условиях санкционных ограничений. Карта предлагает достойную производительность, большой объём памяти и растущую экосистему MUSA. Незначительное препятствия - дефицит карт и временная незрелость софта. Тем не менее, для китайского и российского рынков S5000 - один из немногих вариантов построения независимой AI-инфраструктуры.
