Moore Threads MTT S4000 48GB, AI-ускоритель для центров обработки

Moore Threads MTT S4000 – серверная, дата-центровая AI-ускорительная карта китайской компании Moore Threads (摩尔线程), основанной в 2020 году бывшим генеральным менеджером NVIDIA China. Карта анонсирована в декабре 2023 года и позиционируется как решение для обучения и инференса больших языковых моделей (LLM).

Разберемся подробнее в особенностях ускорителя.

Производитель: Moore Threads Technology Co., Ltd. (Пекин, Китай).

Дата анонса: 19 декабря 2023.

Сегмент: Data Center / AI Accelerator.

Архитектура: MUSA 3-го поколения (ядро Chunxiao).

MTT S4000 входит в состав комплексной платформы KUAE для дата-центров, разработанной Moore Threads. Эта платформа объединяет аппаратные серверы (например, MCCX D800), высокоскоростные интерконнекты MTLink (аналог NVLink), распределённое хранилище и программное обеспечение для управления кластерами.

В рамках KUAE реализована поддержка популярных AI-фреймворков и инструмент MUSIFY, позволяющий адаптировать код, написанный для NVIDIA CUDA, под архитектуру MUSA. Благодаря этому ускоритель MTT S4000 может использоваться для обучения и инференса больших языковых моделей с минимальными затратами на миграцию, а также интегрируется в масштабируемые кластеры для задач с триллионными параметрами. Компания делает акцент на быстром развёртывании и высокой эффективности корпоративных AI-инфраструктур, предлагая готовые решения «под ключ» для крупных клиентов.

Технические характеристики Moore Threads MTT S4000 48GB

Архитектура: MUSA Gen 3 (ядро Chunxiao);

Интерфейс: PCIe 5.0 x16

Техпроцесс: 12 нм; Транзисторы: 22 млрд; Шина памяти: 384-bit;

Тактовая частота ядра: 1500 MHz; Частота памяти: 2000 MHz (16 Gbps effective); Вычислительные ядра: 8192; Объём памяти: 48 GB GDDR6;

Tensor Cores: 128; TMU / ROP: 512 / 512; Пропускная способность памяти: 768 GB/s;

FP32 производительность: 25 TFLOPS; TF32 производительность: 50 TFLOPS; FP16 / BF16 производительность: 100 TFLOPS; INT8 производительность: 200 TOPS; L2 кэш: 4 MB;

Одновременные потоки: до 96× 1080p;

Форм-фактор: 2 слота, длина 266 мм;

Межкарточный интерконнект: MTLink 1.0;

TDP: 450 W; Питание: 2× 8-pin (12VHPWR);

Охлаждение: Пассивное;

Видеовыходы: 4× display (до 8K);

Кодеки: Аппаратный encode/decode видео;

Особенности архитектуры ускорителя

Архитектура MUSA 3-го поколения

MUSA (Moore Threads Unified System Architecture) - собственная архитектура компании, третье поколение. Ядро Chunxiao (春晓) изготовлено по техпроцессу 12 нм. и содержит 22 млрд. транзисторов.

Ключевые архитектурные решения:

· 8192 вычислительных ядра - значительно больше, чем у предшественника S3000;

· 128 Tensor Cores - аппаратные блоки для ускорения матричных операций в AI-нагрузках;

· 512 TMU + 512 ROP - текстурные и растровые блоки;

· 4 MB L2 кэш;

· Поддержка точностей: FP32, TF32, FP16, BF16, INT8, INT4.

Архитектура MUSA 3-го поколения (MUSA 3.0) и чип Chunxiao реализуют не только высокую производительность, но и целый комплекс программно-аппаратных решений для корпоративных и облачных AI-инфраструктур. Ключевым элементом экосистемы стал программный стек MUSA SDK, включающий библиотеки muDNN (аналог cuDNN), muFFT, а также MCCL - библиотеку для коллективных коммуникаций между GPU, что критически важно для масштабирования и обучения на кластерах.

MTLink 1.0 межкарточный интерконнект

Позволяет объединять несколько карт S4000 в единый вычислительный пул с высокоскоростной связью. Поддерживает масштабирование до 10 000 GPU в одном кластер.

MUSIFY совместимость с CUDA

Для упрощения миграции с NVIDIA CUDA компания предлагает инструменты MUSIFY, torch_musa и musa_converter, которые позволяют с минимальными изменениями запускать PyTorch-проекты и автоматически транслировать CUDA-код в вызовы MUSA. Инструментарий MUSIFY обеспечивает трансляцию кода с NVIDIA CUDA на MUSA. Это критически важная особенность: разработчики могут переносить существующие CUDA-приложения на S4000 без полного переписывания кода. По заверению Moore Threads стоимость миграции нулевая.

Кроме того, ускоритель поддерживает аппаратную виртуализацию (SR-IOV), доверенную среду исполнения (TEE) и механизмы безопасности MUSA Safety Engine 2.0, что делает его пригодным для облачных и корпоративных задач с высокими требованиями к изоляции и защите данных. Всё это подчёркивает стратегическую нацеленность Moore Threads на создание полноценной, независимой и масштабируемой платформы для искусственного интеллекта, способной конкурировать с западными аналогами не только по «железу», но и по зрелости программной экосистемы

Пассивное охлаждение

Карта выполнена в формате пассивного охлаждения, стандарт для серверных GPU. Охлаждение обеспечивается серверным шасси.

Предварительная оценка производительности Moore Threads MTT S4000 48GB

Moore Threads MTT S4000 48GB - Память: 48 GB GDDR6; Пропускная способность: 768 GB/s; FP32: 25 TFLOPS; FP16: 100 TFLOPS; INT8: 200 TOPS; TDP: 450W; Техпроцесс: 12 нм.

Аналоги:

NVIDIA A100 80GB - Память: 80 GB HBM2e; Пропускная способность: 2039 GB/s; FP32: 19.5 TFLOPS; FP16: 312 TFLOPS*; INT8: 624 TOPS*; TDP: 400W; Техпроцесс: 7 нм.

NVIDIA H100 SXM - Память: 80 GB HBM3; Пропускная способность: 3350 GB/s; FP32: 67 TFLOPS; FP16: 990 TFLOPS*; INT8: 1979 TOPS*; TDP: 700W; Техпроцесс: 4 нм.

Huawei Ascend 910C - Память: 64 GB HBM2e; Пропускная способность: ~1600 GB/s; FP32: ~32 TFLOPS; FP16: ~640 TFLOPS; INT8: ~1280 TOPS; TDP: 350W; Техпроцесс: 7 нм.

* с Tensor Core / Sparse

Вывод по цифрам: S4000 значительно уступает H100 и примерно сопоставим с A100 по отдельным метрикам FP32, но проигрывает A100 по пропускной способности памяти (768 vs 2039 GB/s) и AI-операциям с Tensor Core. Однако для рынка альтернативных китайских GPU это одно из наиболее зрелых решений.

Практические бенчмарки ускорителя

Kua'e Qianka (KUAE) - кластерная тренировка LLM

Moore Threads продемонстрировала тренировку модели на 3 млрд. параметров на кластере KUAE на базе S4000. По данным Tom's Hardware (май 2024), результаты были «сопоставимы с неуказанными решениями NVIDIA» - предположительно A100. Карта заняла 3-е место в AI-тестировании, обогнав некоторые кластеры на NVIDIA GPU.

DeepSeek-R1 – инференс

В феврале 2026 года Moore Threads сообщила об успешном развёртывании модели DeepSeek-R1-Distill-Qwen-7B на S4000 (и даже на клиентской S80). Оценка - «отличная производительность инференса» (Tom's Hardware). Это важно, S4000 поддерживает свежие open-source модели.

Особенности Moore Threads MTT S4000 48GB

· PCIe 5.0 - единственная среди китайских GPU-конкурентов на момент анонса;

· MTLink 1.0 - масштабирование до 10 000 GPU в кластере;

· MUSIFY (CUDA-совместимость) - критический фактор для переноса существующих AI-пайплайнов;

· 48 GB GDDR6 - достаточного для инференса моделей 7B - 30B параметров (с квантизацией);

· Пассивное охлаждение - стандарт для серверных развёртываний;

· Видеовыходы - необычная для AI-карты возможность работы с графикой (до 8K, 96 потоков 1080p);

· Полноценная экосистема - серверы MCCX D800, кластерная платформа KUAE.

Под какие задачи можно использовать карту

Оптимальные сценарии:

Инференс LLM 7B–30B (★★★★☆) - 48 GB достаточно для большинства моделей этого диапазона (FP16/INT8);

Fine-tuning (LoRA/QLoRA) (★★★☆☆) - Поддерживается экосистемой MUSA + MUSIFY;

Обучение LLM (distributed) (★★★☆☆) - Работает в кластере KUAE, но медленнее NVIDIA;

Компьютерное зрение (★★★☆☆) - Инференс CV-моделей, обработка изображений;

Видеообработка (★★★★☆) - 96 потоков 1080p - сильная сторона карты;

Cloud VDI (★★★★☆) - Видеовыходы + GPU-ускорение для виртуальных рабочих столов;

HPC (научные вычисления) (★★☆☆☆) - FP32/FP64 производительность ограничена;

Графический рендеринг (★★★☆☆) - 8K вывод, DirectX 12 Ultimate.

Рекомендуемые модели для инференса на MTT S4000:

· LLaMA 2 7B/13B (FP16);

· Qwen 7B/14B;

· ChatGLM 3/4 6B;

· DeepSeek-R1-Distill 7B/14B;

· Baichuan 2 7B/13B;

· С квантизацией INT8/GPTQ: модели до 30B параметров.

Проведённые тестирования ускорителя

1. Кластер KUAE - тренировка LLM на 3 млрд. параметров (2024)

Moore Threads провела демонстрацию на кластере Kua'e Qianka (千卡集群), состоящем из 1000 карт S4000 (125 серверов MCCX D800).

Результат: карта показала производительность, сопоставимую с NVIDIA A100 в задаче тренировки LLM. Tom's Hardware отметил, что S4000 «заняла третье место в AI-тестировании, опередив некоторые NVIDIA-кластеры».

2. Инференс DeepSeek-R1 (февраль 2026)

Moore Threads продемонстрировала «отличную производительность» при инференсе DeepSeek-R1-Distill-Qwen-7B как на S4000, так и на клиентской S80. Это первый публичный пример работы современной reasoning-модели на китайских GPU Moore Threads.

Проекты и развёртывания

KUAE линейка AI-кластеров

KUAE (快算) - флагманский продукт Moore Threads на базе S4000:

· KUAE Kilocard Cluster - 1000 GPU (125 серверов MCCX D800);

· KUAE Myriacard Cluster - 10 000 GPU (1250 серверов);

· Каждый сервер MCCX D800: 8× S4000, 2× Xeon Gen 4, 1 TB RAM, 15.36 TB NVMe, 2× 400 Gb/s сеть.

Адаптация моделей

По данным GamingDeputy и отчёту Moore Threads, компания завершила три стратегических подписания проектов кластерного развёртывания:

· ¥660 млн (~$90 млн) контракт на кластер KUAE на 10 000 GPU (Q1 2026);

· Развёртывания в нескольких провинциях Китая;

· DeepSeek-R1 - инференс подтверждён (февраль 2026).

· ChatGLM (智谱 AI) - поддержка через экосистему MUSA;

· Qwen (Alibaba) - совместимость подтверждена;

· LLaMA - через MUSIFY/CUDA-трансляцию.

Рейтинг карты

На основе собранной информации, ChaiTex присваивает MTT S4000 следующие оценки.

Производительность (★★★☆☆) - Сравнимо с A100 в отдельных задачах, но без HBM;

Объём памяти (★★★★☆) - 48 GB хорошо для инференса, мало для тренировки;

Масштабируемость (★★★★☆) - MTLink + кластеры до 10K GPU;

Программный стек (★★★☆☆) - MUSIFY работает, но не покрывает всё CUDA;

Open-source экосистема (★★☆☆☆) - Существует, но community малочисленна;

Готовность к production (★★★☆☆) - Контракты есть, но независимых верификаций мало;

Доступность на рынке (★★★★☆) - Доступна через китайских поставщиков;

Энергоэффективность (★★☆☆☆) - 12 нм - серьёзный недостаток

Общая оценка: 3.0 / 5

Сравнения в линейке Moore Threads:

· MTT S3000 (32 GB) - устаревший, для лёгких задач;

· MTT S4000 (48 GB) - основная рабочая лошадка для AI;

· MTT S5000 (80 GB, архитектура Pinghu) - новый флагман, 1000 TFLOPS, вытесняет S4000 с верхнего сегмента.

Энергоэффективность карты

Moore Threads MTT S4000 48GB – TDP: 450W; FP32 / Watt: 0.056 TFLOPS/W; INT8 / Watt: 0.44 TOPS/W; Техпроцесс: 12 нм.

Аналоги:

NVIDIA A100 80GB - TDP: 400W; FP32 / Watt: 0.049 TFLOPS/W; INT8 / Watt: 1.56 TOPS/W; Техпроцесс: 7 нм;

NVIDIA H100 SXM - TDP: 700W; FP32 / Watt: 0.096 TFLOPS/W; INT8 / Watt: 2.83 TOPS/W; Техпроцесс: 4 нм.

Выводы и заключение

Moore Threads MTT S4000 - это критически важный элемент китайской GPU-экосистемы, но с имеющимися компромиссами.

Что работает:

· Для инференса LLM 7B - 30B - S4000 является рабочим инструментом. 48 GB GDDR6 достаточно, экосистема MUSA поддерживает основные китайские модели (DeepSeek, Qwen, ChatGLM), а MUSIFY обеспечивает частичную совместимость с CUDA.

· Для масштабных развёртываний - кластерная платформа KUAE с MTLink позволяет строить кластеры до 10 000 GPU. Это реальные, а не теоретические решения - подписаны контракты на сотни миллионов юаней.

· Для российского рынка - S4000 доступна через китайских дистрибьюторов, не подпадает под американские экспортные ограничения, и имеет зрелую (пусть и не идеальную) программную платформу.

MTT S4000 подходит как основная карта для AI-инференса и fine-tuning в российских дата-центрах, где недоступны NVIDIA A100/H100. Рекомендуемая конфигурация - серверы MCCX D800 (8 карт), что даёт 384 GB GPU-памяти в пуле. Для задач, требующих более высокой плотности вычислений, стоит рассмотреть MTT S5000 (80 GB, архитектура Pinghu, 1000 TFLOPS) - новый флагман, который уже доступен для заказа.

Moore Threads MTT S4000 - это один из самых зрелых и технологически насыщенных китайских AI-ускорителей, появившихся в условиях глобальных ограничений на поставку западных решений. Карта выделяется весомым объёмом памяти (48 ГБ GDDR6), поддержкой современных форматов вычислений, развитой кластерной инфраструктурой MTLink и собственной программной экосистемой MUSA, включающей инструменты миграции с CUDA (MUSIFY), библиотеки для AI и средства виртуализации. Несмотря на то, что по ряду технических параметров (пропускная способность памяти, энергоэффективность, производительность на Tensor-операциях) S4000 уступает флагманам NVIDIA, для задач инференса и дообучения средних и крупных языковых моделей, а также для построения масштабируемых AI-кластеров в России и Китае, этот ускоритель представляет собой реальную и экономически выгодную альтернативу. Особенно важно, что S4000 уже внедряется в реальные проекты, подтверждена совместимость с ведущими китайскими и международными open-source моделями, а программный стек активно развивается.

В текущих условиях Moore Threads MTT S4000 - оптимальный выбор для российских дата-центров и корпоративных заказчиков, которым недоступны ускорители NVIDIA. Карта хорошо подходит для инференса и fine-tuning моделей до 30 млрд. параметров, а также для построения собственных кластерных решений на базе платформы KUAE. Для задач, требующих максимальной производительности и энергоэффективности, рекомендуется следить за выходом новых моделей (например, S5000), однако по совокупности характеристик, зрелости экосистемы и доступности S4000 сегодня - один из лучших вариантов на рынке альтернативных AI-ускорителей.