Moore Threads MTT S4000 48GB, AI-ускоритель для центров обработки
7 мая 2026 г.
Moore Threads MTT S4000 – серверная, дата-центровая AI-ускорительная карта китайской компании Moore Threads (摩尔线程), основанной в 2020 году бывшим генеральным менеджером NVIDIA China. Карта анонсирована в декабре 2023 года и позиционируется как решение для обучения и инференса больших языковых моделей (LLM).
Разберемся подробнее в особенностях ускорителя.
Производитель: Moore Threads Technology Co., Ltd. (Пекин, Китай).
Дата анонса: 19 декабря 2023.
Сегмент: Data Center / AI Accelerator.
Архитектура: MUSA 3-го поколения (ядро Chunxiao).
MTT S4000 входит в состав комплексной платформы KUAE для дата-центров, разработанной Moore Threads. Эта платформа объединяет аппаратные серверы (например, MCCX D800), высокоскоростные интерконнекты MTLink (аналог NVLink), распределённое хранилище и программное обеспечение для управления кластерами.
В рамках KUAE реализована поддержка популярных AI-фреймворков и инструмент MUSIFY, позволяющий адаптировать код, написанный для NVIDIA CUDA, под архитектуру MUSA. Благодаря этому ускоритель MTT S4000 может использоваться для обучения и инференса больших языковых моделей с минимальными затратами на миграцию, а также интегрируется в масштабируемые кластеры для задач с триллионными параметрами. Компания делает акцент на быстром развёртывании и высокой эффективности корпоративных AI-инфраструктур, предлагая готовые решения «под ключ» для крупных клиентов.
Технические характеристики Moore Threads MTT S4000 48GB
Архитектура: MUSA Gen 3 (ядро Chunxiao);
Интерфейс: PCIe 5.0 x16
Техпроцесс: 12 нм; Транзисторы: 22 млрд; Шина памяти: 384-bit;
Тактовая частота ядра: 1500 MHz; Частота памяти: 2000 MHz (16 Gbps effective); Вычислительные ядра: 8192; Объём памяти: 48 GB GDDR6;
Tensor Cores: 128; TMU / ROP: 512 / 512; Пропускная способность памяти: 768 GB/s;
FP32 производительность: 25 TFLOPS; TF32 производительность: 50 TFLOPS; FP16 / BF16 производительность: 100 TFLOPS; INT8 производительность: 200 TOPS; L2 кэш: 4 MB;
Одновременные потоки: до 96× 1080p;
Форм-фактор: 2 слота, длина 266 мм;
Межкарточный интерконнект: MTLink 1.0;
TDP: 450 W; Питание: 2× 8-pin (12VHPWR);
Охлаждение: Пассивное;
Видеовыходы: 4× display (до 8K);
Кодеки: Аппаратный encode/decode видео;
Особенности архитектуры ускорителя
Архитектура MUSA 3-го поколения
MUSA (Moore Threads Unified System Architecture) - собственная архитектура компании, третье поколение. Ядро Chunxiao (春晓) изготовлено по техпроцессу 12 нм. и содержит 22 млрд. транзисторов.
Ключевые архитектурные решения:
· 8192 вычислительных ядра - значительно больше, чем у предшественника S3000;
· 128 Tensor Cores - аппаратные блоки для ускорения матричных операций в AI-нагрузках;
· 512 TMU + 512 ROP - текстурные и растровые блоки;
· 4 MB L2 кэш;
· Поддержка точностей: FP32, TF32, FP16, BF16, INT8, INT4.
Архитектура MUSA 3-го поколения (MUSA 3.0) и чип Chunxiao реализуют не только высокую производительность, но и целый комплекс программно-аппаратных решений для корпоративных и облачных AI-инфраструктур. Ключевым элементом экосистемы стал программный стек MUSA SDK, включающий библиотеки muDNN (аналог cuDNN), muFFT, а также MCCL - библиотеку для коллективных коммуникаций между GPU, что критически важно для масштабирования и обучения на кластерах.
MTLink 1.0 межкарточный интерконнект
Позволяет объединять несколько карт S4000 в единый вычислительный пул с высокоскоростной связью. Поддерживает масштабирование до 10 000 GPU в одном кластер.
MUSIFY совместимость с CUDA
Для упрощения миграции с NVIDIA CUDA компания предлагает инструменты MUSIFY, torch_musa и musa_converter, которые позволяют с минимальными изменениями запускать PyTorch-проекты и автоматически транслировать CUDA-код в вызовы MUSA. Инструментарий MUSIFY обеспечивает трансляцию кода с NVIDIA CUDA на MUSA. Это критически важная особенность: разработчики могут переносить существующие CUDA-приложения на S4000 без полного переписывания кода. По заверению Moore Threads стоимость миграции нулевая.
Кроме того, ускоритель поддерживает аппаратную виртуализацию (SR-IOV), доверенную среду исполнения (TEE) и механизмы безопасности MUSA Safety Engine 2.0, что делает его пригодным для облачных и корпоративных задач с высокими требованиями к изоляции и защите данных. Всё это подчёркивает стратегическую нацеленность Moore Threads на создание полноценной, независимой и масштабируемой платформы для искусственного интеллекта, способной конкурировать с западными аналогами не только по «железу», но и по зрелости программной экосистемы
Пассивное охлаждение
Карта выполнена в формате пассивного охлаждения, стандарт для серверных GPU. Охлаждение обеспечивается серверным шасси.
Предварительная оценка производительности Moore Threads MTT S4000 48GB
Moore Threads MTT S4000 48GB - Память: 48 GB GDDR6; Пропускная способность: 768 GB/s; FP32: 25 TFLOPS; FP16: 100 TFLOPS; INT8: 200 TOPS; TDP: 450W; Техпроцесс: 12 нм.
Аналоги:
NVIDIA A100 80GB - Память: 80 GB HBM2e; Пропускная способность: 2039 GB/s; FP32: 19.5 TFLOPS; FP16: 312 TFLOPS*; INT8: 624 TOPS*; TDP: 400W; Техпроцесс: 7 нм.
NVIDIA H100 SXM - Память: 80 GB HBM3; Пропускная способность: 3350 GB/s; FP32: 67 TFLOPS; FP16: 990 TFLOPS*; INT8: 1979 TOPS*; TDP: 700W; Техпроцесс: 4 нм.
Huawei Ascend 910C - Память: 64 GB HBM2e; Пропускная способность: ~1600 GB/s; FP32: ~32 TFLOPS; FP16: ~640 TFLOPS; INT8: ~1280 TOPS; TDP: 350W; Техпроцесс: 7 нм.
* с Tensor Core / Sparse
Вывод по цифрам: S4000 значительно уступает H100 и примерно сопоставим с A100 по отдельным метрикам FP32, но проигрывает A100 по пропускной способности памяти (768 vs 2039 GB/s) и AI-операциям с Tensor Core. Однако для рынка альтернативных китайских GPU это одно из наиболее зрелых решений.
Практические бенчмарки ускорителя
Kua'e Qianka (KUAE) - кластерная тренировка LLM
Moore Threads продемонстрировала тренировку модели на 3 млрд. параметров на кластере KUAE на базе S4000. По данным Tom's Hardware (май 2024), результаты были «сопоставимы с неуказанными решениями NVIDIA» - предположительно A100. Карта заняла 3-е место в AI-тестировании, обогнав некоторые кластеры на NVIDIA GPU.
DeepSeek-R1 – инференс
В феврале 2026 года Moore Threads сообщила об успешном развёртывании модели DeepSeek-R1-Distill-Qwen-7B на S4000 (и даже на клиентской S80). Оценка - «отличная производительность инференса» (Tom's Hardware). Это важно, S4000 поддерживает свежие open-source модели.
Особенности Moore Threads MTT S4000 48GB
· PCIe 5.0 - единственная среди китайских GPU-конкурентов на момент анонса;
· MTLink 1.0 - масштабирование до 10 000 GPU в кластере;
· MUSIFY (CUDA-совместимость) - критический фактор для переноса существующих AI-пайплайнов;
· 48 GB GDDR6 - достаточного для инференса моделей 7B - 30B параметров (с квантизацией);
· Пассивное охлаждение - стандарт для серверных развёртываний;
· Видеовыходы - необычная для AI-карты возможность работы с графикой (до 8K, 96 потоков 1080p);
· Полноценная экосистема - серверы MCCX D800, кластерная платформа KUAE.
Под какие задачи можно использовать карту
Оптимальные сценарии:
Инференс LLM 7B–30B (★★★★☆) - 48 GB достаточно для большинства моделей этого диапазона (FP16/INT8);
Fine-tuning (LoRA/QLoRA) (★★★☆☆) - Поддерживается экосистемой MUSA + MUSIFY;
Обучение LLM (distributed) (★★★☆☆) - Работает в кластере KUAE, но медленнее NVIDIA;
Компьютерное зрение (★★★☆☆) - Инференс CV-моделей, обработка изображений;
Видеообработка (★★★★☆) - 96 потоков 1080p - сильная сторона карты;
Cloud VDI (★★★★☆) - Видеовыходы + GPU-ускорение для виртуальных рабочих столов;
HPC (научные вычисления) (★★☆☆☆) - FP32/FP64 производительность ограничена;
Графический рендеринг (★★★☆☆) - 8K вывод, DirectX 12 Ultimate.
Рекомендуемые модели для инференса на MTT S4000:
· LLaMA 2 7B/13B (FP16);
· Qwen 7B/14B;
· ChatGLM 3/4 6B;
· DeepSeek-R1-Distill 7B/14B;
· Baichuan 2 7B/13B;
· С квантизацией INT8/GPTQ: модели до 30B параметров.
Проведённые тестирования ускорителя
1. Кластер KUAE - тренировка LLM на 3 млрд. параметров (2024)
Moore Threads провела демонстрацию на кластере Kua'e Qianka (千卡集群), состоящем из 1000 карт S4000 (125 серверов MCCX D800).
Результат: карта показала производительность, сопоставимую с NVIDIA A100 в задаче тренировки LLM. Tom's Hardware отметил, что S4000 «заняла третье место в AI-тестировании, опередив некоторые NVIDIA-кластеры».
2. Инференс DeepSeek-R1 (февраль 2026)
Moore Threads продемонстрировала «отличную производительность» при инференсе DeepSeek-R1-Distill-Qwen-7B как на S4000, так и на клиентской S80. Это первый публичный пример работы современной reasoning-модели на китайских GPU Moore Threads.
Проекты и развёртывания
KUAE линейка AI-кластеров
KUAE (快算) - флагманский продукт Moore Threads на базе S4000:
· KUAE Kilocard Cluster - 1000 GPU (125 серверов MCCX D800);
· KUAE Myriacard Cluster - 10 000 GPU (1250 серверов);
· Каждый сервер MCCX D800: 8× S4000, 2× Xeon Gen 4, 1 TB RAM, 15.36 TB NVMe, 2× 400 Gb/s сеть.
Адаптация моделей
По данным GamingDeputy и отчёту Moore Threads, компания завершила три стратегических подписания проектов кластерного развёртывания:
· ¥660 млн (~$90 млн) контракт на кластер KUAE на 10 000 GPU (Q1 2026);
· Развёртывания в нескольких провинциях Китая;
· DeepSeek-R1 - инференс подтверждён (февраль 2026).
· ChatGLM (智谱 AI) - поддержка через экосистему MUSA;
· Qwen (Alibaba) - совместимость подтверждена;
· LLaMA - через MUSIFY/CUDA-трансляцию.
Рейтинг карты
На основе собранной информации, ChaiTex присваивает MTT S4000 следующие оценки.
Производительность (★★★☆☆) - Сравнимо с A100 в отдельных задачах, но без HBM;
Объём памяти (★★★★☆) - 48 GB хорошо для инференса, мало для тренировки;
Масштабируемость (★★★★☆) - MTLink + кластеры до 10K GPU;
Программный стек (★★★☆☆) - MUSIFY работает, но не покрывает всё CUDA;
Open-source экосистема (★★☆☆☆) - Существует, но community малочисленна;
Готовность к production (★★★☆☆) - Контракты есть, но независимых верификаций мало;
Доступность на рынке (★★★★☆) - Доступна через китайских поставщиков;
Энергоэффективность (★★☆☆☆) - 12 нм - серьёзный недостаток
Общая оценка: 3.0 / 5
Сравнения в линейке Moore Threads:
· MTT S3000 (32 GB) - устаревший, для лёгких задач;
· MTT S4000 (48 GB) - основная рабочая лошадка для AI;
· MTT S5000 (80 GB, архитектура Pinghu) - новый флагман, 1000 TFLOPS, вытесняет S4000 с верхнего сегмента.
Энергоэффективность карты
Moore Threads MTT S4000 48GB – TDP: 450W; FP32 / Watt: 0.056 TFLOPS/W; INT8 / Watt: 0.44 TOPS/W; Техпроцесс: 12 нм.
Аналоги:
NVIDIA A100 80GB - TDP: 400W; FP32 / Watt: 0.049 TFLOPS/W; INT8 / Watt: 1.56 TOPS/W; Техпроцесс: 7 нм;
NVIDIA H100 SXM - TDP: 700W; FP32 / Watt: 0.096 TFLOPS/W; INT8 / Watt: 2.83 TOPS/W; Техпроцесс: 4 нм.
Выводы и заключение
Moore Threads MTT S4000 - это критически важный элемент китайской GPU-экосистемы, но с имеющимися компромиссами.
Что работает:
· Для инференса LLM 7B - 30B - S4000 является рабочим инструментом. 48 GB GDDR6 достаточно, экосистема MUSA поддерживает основные китайские модели (DeepSeek, Qwen, ChatGLM), а MUSIFY обеспечивает частичную совместимость с CUDA.
· Для масштабных развёртываний - кластерная платформа KUAE с MTLink позволяет строить кластеры до 10 000 GPU. Это реальные, а не теоретические решения - подписаны контракты на сотни миллионов юаней.
· Для российского рынка - S4000 доступна через китайских дистрибьюторов, не подпадает под американские экспортные ограничения, и имеет зрелую (пусть и не идеальную) программную платформу.
MTT S4000 подходит как основная карта для AI-инференса и fine-tuning в российских дата-центрах, где недоступны NVIDIA A100/H100. Рекомендуемая конфигурация - серверы MCCX D800 (8 карт), что даёт 384 GB GPU-памяти в пуле. Для задач, требующих более высокой плотности вычислений, стоит рассмотреть MTT S5000 (80 GB, архитектура Pinghu, 1000 TFLOPS) - новый флагман, который уже доступен для заказа.
Moore Threads MTT S4000 - это один из самых зрелых и технологически насыщенных китайских AI-ускорителей, появившихся в условиях глобальных ограничений на поставку западных решений. Карта выделяется весомым объёмом памяти (48 ГБ GDDR6), поддержкой современных форматов вычислений, развитой кластерной инфраструктурой MTLink и собственной программной экосистемой MUSA, включающей инструменты миграции с CUDA (MUSIFY), библиотеки для AI и средства виртуализации. Несмотря на то, что по ряду технических параметров (пропускная способность памяти, энергоэффективность, производительность на Tensor-операциях) S4000 уступает флагманам NVIDIA, для задач инференса и дообучения средних и крупных языковых моделей, а также для построения масштабируемых AI-кластеров в России и Китае, этот ускоритель представляет собой реальную и экономически выгодную альтернативу. Особенно важно, что S4000 уже внедряется в реальные проекты, подтверждена совместимость с ведущими китайскими и международными open-source моделями, а программный стек активно развивается.
В текущих условиях Moore Threads MTT S4000 - оптимальный выбор для российских дата-центров и корпоративных заказчиков, которым недоступны ускорители NVIDIA. Карта хорошо подходит для инференса и fine-tuning моделей до 30 млрд. параметров, а также для построения собственных кластерных решений на базе платформы KUAE. Для задач, требующих максимальной производительности и энергоэффективности, рекомендуется следить за выходом новых моделей (например, S5000), однако по совокупности характеристик, зрелости экосистемы и доступности S4000 сегодня - один из лучших вариантов на рынке альтернативных AI-ускорителей.
