Обзор сервера Moore Threads MCCX D800 x2 640GB
June 4, 2026
Moore Threads MCCX D800 - вычислительный сервер для масштабных AI нагрузок. Базируется на архитектуре KUAE (快算), китайском аналоге NVIDIA DGX. Конфигурация x2 (2 сервера) с 640GB GPU памяти предполагает использование 16 карт S5000 (80GB каждая) или 16 карт S4000 (48GB) в специальной конфигурации. Позиционируется как enterprise решение для дата центров, требующих масштабируемых AI кластеров.
В условиях стремительно меняющегося технологического ландшафта и растущего спроса на суверенные вычислительные мощности, Moore Threads MCCX D800 выступает флагманским решением для построения независимых AI инфраструктур. Этот сервер воплощает стремление к созданию замкнутой национальной экосистемы высокопроизводительных вычислений, способной конкурировать с глобальными лидерами без опоры на зарубежные технологии. Архитектура KUAE (快算), лежащая в его основе, представляет собой комплексный подход, объединяющий не только аппаратные ускорители нового поколения, но и собственную программную платформу MUSA, инструменты миграции и оптимизированные библиотеки.
Ключевой особенностью данного подхода является глубокая интеграция железа и софта, что позволяет достичь максимальной эффективности при работе с большими языковыми моделями и сложными нейросетевыми задачами. Запуск конфигурации x2 с общим объемом GPU памяти 640 ГБ решает фундаментальную проблему масштабирования инференса, позволяя обрабатывать массивы данных локально, внутри одного узла, без необходимости распределять модель между несколькими серверами. Таким образом, MCCX D800 становится стратегическим активом для дата-центров, нацеленных на обеспечение технологической безопасности, высокую производительность и готовность к будущим вызовам в области искусственного интеллекта.
Разберемся подробнее в особенностях сервера.
Технические характеристики Moore Threads MCCX D800 x2 640GB
Процессоры: 2 × Intel Xeon Gen 4 (на каждый сервер);
GPU-ускорители: 8 × Moore Threads MTT S5000 (на каждый сервер);
GPU-память: 80 ГБ GDDR6 на карту;
Общий объем GPU-памяти (x2): 1280 ГБ (16 карт × 80 ГБ);
Объем системной памяти: 2 ТБ (1 ТБ на сервер);
Система хранения: 12.8 ТБ NVMe SSD на сервер;
Блоки питания: 2 × 3.2 кВт (избыточные);
Поддержка охлаждения: Активное + жидкостное (rear door heat exchanger).
Особенности архитектуры сервера
· Гибридная CPU-GPU архитектура: 2× сервера, каждый - 2× Xeon Gen 4 + 8× GPU S5000 (архитектура Pinghu);
· MTLink: внутрисерверная шина, объединяющая 8 GPU, с пропускной способностью до 64 ГБ/с;
· Кластерная масштабируемость: D800 может объединяться в кластеры до 10 000 GPU через KUAE архитектуру;
· Программная платформа: Контролируется MoAI Studio с поддержкой MUSA и CUDA трансляции;
· Сеть: 2× 400 Gb/s интерфейса на сервер для высокоскоростной межсерверной связи.
Предварительная оценка производительности
Одна карта MTT S5000:
• FP32: 50 TFLOPS;
• FP16: 200 TFLOPS;
• INT8 (Tensor): 1000 TFLOPS.
На сервер (8× S5000):
• Пиковая FP16 производительность: 1.6 PFLOPS;
• Эквивалент ~3× NVIDIA H100 при инференсе (с учетом MUSA и MTLink);
• Сопоставима с DGX H100 при работе с квантизованными моделями.
Для D800 x2: Масштабирование линейное при корректной настройке кластера.
Особенности сервера Moore Threads MCCX D800 x2 640GB
Поддержка MUSA SDK 5.1.0: CUDA совместимость на уровне 90% (по заявлению производителя);
Day-0 адаптация: Поддержка основных open-source моделей (Qwen, DeepSeek, GLM) без дополнительных настроек;
Возможность модернизации с S4000 на S5000: Совместимость с существующей платформой D800;
Энергоэффективный дизайн для HPC: Система охлаждения оптимизирована под продолжительные вычисления;
Поддержка air-gapped deployments: Критично для российских госструктур.
Под какие задачи можно использовать сервер
• Интференс LLM моделей на 70B - 100B+ параметров: 640GB GPU памяти (на один D800) достаточно для запуска таких моделей;
• Fine-tuning среднемасштабных моделей: Отлично подходит по объему памяти и поддержке фреймворков;
• Распределенные тренировки: MTLink и KUAE архитектура позволяют эффективно масштабировать нагрузку;
• RAG системы: Высокая пропускная способность памяти обеспечивает быстрый доступ к векторным базам.
Проведённые тестирования
• Тестирование в рамках кластера KUAE (3 май 2025): 1000 GPU S5000 (125 серверов D800) продемонстрировали эффективность тренировки LLM, сравнимую с 1000 NVIDIA A100 при меньшем TCO;
• Тест DeepSeek-R1-Distill (март 2026): Демонстрация инференса на S5000 - производительность в 1.7 раза выше, чем у A100 по задержке ответа (latency);
• Независимые бенчмарки: Пока отсутствуют. Все данные - от производителя.
Проекты и развёртывания
• Кластер KUAE Kilocard (125 серверов): Развернут как минимум в одном из центров обработки данных на юге Китая;
• Контракты в провинциях: Moore Threads объявила о трёх стратегических контрактах на создание AI инфраструктуры с общей стоимостью ~$120 млн;
• Интеграция с ведущими моделями: Опубликовано тестирование с Qwen-Max, DeepSeek-V2, GLM-4;
Энергоэффективность
S5000 (8× на сервер): Потребляемая мощность - 3.6 кВт (на сервер); Производительность - 0.444 TFLOPS/Вт; INT8 производительность/W - 2.78 TOPS/Вт.
NVIDIA H100: Потребляемая мощность - 5.6 кВт; Производительность - 0.286 TFLOPS/Вт; INT8 производительность/W - 2.83 TOPS/Вт.
S5000 значительно опережает S4000 по энергоэффективности (на ~40%), но пока уступает H100 на INT8. Главный вызов - технологический процесс 7 нм.
Рейтинг сервера
Производительность (★★★★☆) - Выше S4000, но ниже H100;
Энергоэффективность (★★★☆☆) - Улучшена по сравнению с S4000; остается уязвимой по сравнению с 5-нм решением;
Ёмкость памяти (★★★★☆) - 640GB ключевое преимущество;
Программная экосистема (★★★★☆) - MUSA продвинулась в сторону full stack;
Масштабируемость (★★★★★) - KUAE позволяет строить огромные кластеры;
Готовность к продакту (★★★★☆) - Есть контракты, но нет независимых верификаций;
Цена/Производительность (★★★★☆) - Более выгодно, чем импортное аналогичное оборудование.
Общий рейтинг: 4,2 / 5
Выводы и заключения
Moore Threads MCCX D800 x2 с GPU S5000 - это серьезный шаг к созданию полной альтернативы NVIDIA решениям в сфере AI вычислений.
• Высокий объем GPU памяти (640GB на D800) - решает ключевую проблему бутылочного горлышка для LLM interference;
• Масштабируемая архитектура KUAE - позволяет строить кластеры любой сложности;
• Развивающаяся программная экосистема MUSA - постепенно закрывает разрыв с CUDA.
Это решение подходит для инфраструктуры AI инференса в российских дата центрах, где требуется высокая ёмкость памяти и масштабируемость.
Сервер Moore Threads MCCX D800 x2 с ускорителями S5000 представляет собой конкурентоспособное корпоративное решение, нацеленное на создание суверенных AI инфраструктур.
Ключевым преимуществом платформы является беспрецедентный объём GPU памяти (640 ГБ на один сервер), что позволяет запускать инференс сверхкрупных языковых моделей (70 - 100B+ параметров) локально, без необходимости распределять вычисления между несколькими узлами. Архитектура KUAE обеспечивает высокую масштабируемость, позволяя объединять тысячи ускорителей в единый кластер, а глубокая интеграция аппаратной части с программной платформой MUSA и инструментами миграции гарантирует максимальную эффективность при работе со сложными нейросетевыми задачами.
Таким образом, MCCX D800 x2 является стратегическим активом для дата центров, стремящихся к технологической независимости и высокой производительности.
Решение успешно закрывает разрыв с глобальными лидерами по ключевым метрикам: ёмкости памяти и масштабируемости кластера, а развивающаяся экосистема MUSA постепенно устраняет различия в программной совместимости. Хотя по пиковой энергоэффективности на операциях INT8 сервер пока уступает флагманским 5-нм решениям конкурентов, его 40% преимущество над предыдущим поколением S4000 и успешные коммерческие внедрения подтверждают зрелость продукта.
Для российских заказчиков, ориентированных на импортозамещение и локализацию критически важных вычислений, данный сервер представляет собой одно из наиболее перспективных и готовых к промышленной эксплуатации решений на рынке.
