Обзор AI ускорителя MetaX C600 144GB

MetaX C600 144GB - флагманский AI ускоритель от китайской компании MetaX Integrated Circuits (Шанхай). Компания основана в сентябре 2020 бывшими сотрудниками AMD и NVIDIA, вышла на SSE (688802) в декабре 2025.

Ускоритель позиционируется как "универсальный AI GPU для обучения и инференса". Единственный китайский GPU с объёмом памяти на уровне NVIDIA H200 (141 GB).

MetaX C600 144GB идеальный инструмент для новой эры ИИ. Он позволяет одной картой размещать модели масштаба 70B+ в FP16 и модели свыше 120B+ в энергоэффективном FP8, что ранее было доступно только в многомодульных конфигурациях. Таким образом, MetaX C600 решает не столько сделать задачу быстрее, сколько сделать задачу возможной - выводя инференс сверхкрупных моделей из лабораторий в промышленную эксплуатацию на стандартном серверном оборудовании. Это превращает его из простого ускорителя в стратегический актив для любой компании, работающей с передовыми генеративными моделями.

Технические характеристики MetaX C600 144GB

Интерфейс - PCIe 5.0 x16 (Максимальная пропускная способность);

Форм-фактор - PCIe Card / OAM (Два варианта);

Архитектура - Собственная GPU IP (MetaX) (Полностью независимая разработка);

Техпроцесс - Отечественный (SMIC/партнёры) (Полностью отечественный);

Память - 3 - 4 ТБ/с (На уровне NVIDIA H200 (141 GB));

Интерконнект – MetaXLink (Multi-GPU масштабирование);

Пропускная способность памяти - 3–4 ТБ/с (HBM3e стандарт);

Поддержка precision - FP32, FP16, BF16, INT8, FP8 (Включая FP8 для AI);

ECC/RAS – Да (Enterprise-уровень надёжности);

TDP – 300 - 400 Вт (Для HBM3e + FP8 ускорителей).

Сравнение с аналогами:

MetaX C600: Память - 144 GB HBM3e; FP8 - Да; Интерконнект – MetaXLink; Производство – SMIC; TDP: 300 - 400 Вт;

NVIDIA H200: Память - 141 GB HBM3e; FP8 - Да; Интерконнект – NVLink 4.0; Производство – TSMC 4 нм; TDP: 700 Вт;

NVIDIA H100: Память - 80 GB HBM3e; FP8 - Нет; Интерконнект – NVLink 4.0; Производство – TSMC 4 нм; TDP: 700 Вт;

Moore Threads S5000: Память - 80 GB HBM; FP8 - Да; Интерконнект – MTLink; Производство – TSMC 12 нм; TDP: ~350 Вт;

Huawei Ascend 910C: Память - 48 GB HBM2e; FP8 - Да; Интерконнект – HCCS; Производство – SMIC; TDP: 4000 Вт.

Особенности архитектуры MetaX C600 144GB

Архитектура GPU

C600 построен на собственной архитектуре GPU IP с полностью независимым набором команд.

Ключевые решения:

· HBM3e 144 GB - на уровне H200. Модели 70B+ параметров в FP16 на одной карте.

· FP8 - аппаратное ускорение. Снижает энергопотребление на 30 - 50%, модели 120B+ в FP8.

· MetaXLink - собственный мульти-GPU интерконнект для супернодов.

· ECC/RAS - коррекция ошибок, уровень надёжности enterprise.

· Мульти-точность: FP32, FP16, BF16, INT8, FP8.

· Форм-фактор: PCIe Card / OAM.

· Память: 144 GB HBM3e - рекорд среди китайских GPU.

· Техпроцесс: 7 нм. Заявлена полностью отечественная цепочка - SMIC и партнёры.

Программный стек MXMACA

· CUDA совместимость - трансляция CUDA-кода.

· Фреймворки: PyTorch, TensorFlow, vLLM, TGI, ONNX Runtime.

· 500+ AI моделей верифицированы.

· 4000+ open-source проектов протестированы.

· ~50 000 разработчиков в сообществе.

Предварительная оценка производительности

· Объём памяти 144 GB - единственный китайский GPU с конкурентоспособным объёмом на уровне H200.

· FP8 поддержка - критична для эффективного inference крупных моделей.

· Полностью отечественная цепочка - отсутствие зависимости от TSMC снижает санкционные риски.

· Пиковая производительность - оценочно между H100 и H200.

· Зрелость программного стека - MXMACA зрелый, но до CUDA есть gap.

Оценки производительности:

Inference относительно H100: 80 - 90% (CITIC Securities);

Стоимость относительно H100: 40 - 55% (CITIC Securities);

Inference DeepSeek-V3: 75 - 85% от H100 (ChaiTex internal tests);

Inference Qwen-72B: 75 - 85% от H100 (ChaiTex internal tests);

Inference Llama-3-70B: 75 - 85% от H100 (ChaiTex internal tests);

Fine-tuning LoRA 70B: Работает стабильно на 8 карт (ChaiTex internal tests).

Особенности архитектуры ускорителя

· Рекордный объём памяти - 144 GB HBM3e. Для сравнения: S5000 - 80 GB, Ascend 910C - 48 GB, BiV150 - 64 GB.

· Полностью отечественная цепочка - единственная карта в классе с заявленной полной локализацией.

· Два форм-фактора - PCIe Card для стандартных серверов и OAM для высокой плотности.

· MetaXLink - возможность построения кластеров с высокоскоростной связью.

· ECC/RAS - встроенная коррекция ошибок.

· MXMACA совместимость - 500+ моделей верифицированы.

· Day-0 адаптация - DeepSeek, Qwen, Llama оперативно адаптируются.

· PCIe 5.0 - максимальная пропускная способность интерфейса.

Под какие задачи можно использовать

Инференс LLM 70B - 200B+ - одна карта 144 GB размещает модель целиком в FP16. В конфигурации 8× = 1152 GB - для 400B+ моделей в FP8.

Fine-tuning / LoRA - 144 GB позволяет fine-tune модели до 30B на одной карте. На 8× - до 70B.

Тренировка средних моделей - до 7B - 13B на одной карте; до 30B на 8× конфигурации.

RAG-системы - высокий объём памяти позволяет держать embedding-модели и векторные БД в GPU-памяти.

Мультимодальные модели - Обработка изображений + текст с большими контекстными окнами.

AI for Science - Молекулярная динамика, материаловедение, fluid dynamics.

Государственные / регулируемые задачи - Полностью отечественная цепочка удовлетворяет требованиям импортозамещения.

Pre-training foundation models - требуются кластеры из сотен/тысяч карт.

Edge inference - высокое энергопотребление и форм-фактор.

Информация о проведённых тестированиях

Официальные тестирования MetaX:

· 500+ AI-моделей верифицированы на C600 через MXMACA.

· 4000+ open-source проектов протестированы.

· Day-0 адаптация DeepSeek V4 (апрель 2026).

· Day-0 адаптация Qwen3 (май 2026).

Независимые бенчмарки:

· MLPerf - независимые результаты отсутствуют (июнь 2026). MetaX заявила о намерении участвовать в MLPerf Inference 2026.

· CITIC Securities (май 2026) - оценивает производительность в 80 - 90% от H100 при стоимости 40 - 55%.

Реальные deployment-тесты ChaiTex:

Модель: DeepSeek-V3; Фреймворк: vLLM + MXMACA; Результат: 75 - 85% пропускной способности H100;

Модель: Qwen-72B-Chat; Фреймворк: vLLM + MXMACA; Результат: 75 - 85% пропускной способности H100;

Модель: Llama-3-70B-Instruct; Фреймворк: vLLM + MXMACA; Результат: 75 - 85% пропускной способности H100;

Модель: Fine-tuning LoRA 70B; Фреймворк: PyTorch + MXMACA; Результат: Стабильно на 8× C600;

Модель: Embedding (BGE-large); Фреймворк: ONNX Runtime + MXMACA; Результат: Полная утилизация памяти.

Примечание: Все тесты ChaiTex проводились на серверной конфигурации 8× C600.

В каких проектах уже используется

Китай:

1. Muxing-1 (沐星一号) - сервер на 8× C600:

· Презентация 25 мая 2026 в Нинся.

· Партнёрство с Ningxia Radio & TV, China Unicom Ningxia, Kehua Data Energy.

2. Правительственные AI платформы:

· Provincial 智算-центры в рамках "东数西算".

· Требование "полностью отечественного" оборудования.

3. Финансовые учреждения:

· Risk modeling, fraud detection, алгоритмический трейдинг.

· Крупные банки - внутренние LLM.

4. Операторские 智算-центры:

· China Mobile, China Unicom - облачные AI-инфраструктуры.

5. Интеграторы:

· Baixin Information, Xinghan Intelligent.

Россия (через ChaiTex):

· Рекомендуются для enterprise inference, fine-tuning, RAG.

· GPU-аренда в российских и китайских дата-центрах.

· Пилотные проекты с крупными интеграторами (NDA).

· Серверные конфигурации доступны для поставок.

Рейтинг и оценка ускорителя

Производительность (raw compute) (★★★★☆) - Оценочно между H100 и H200;

Объём памяти (★★★★★) - 144 GB HBM3e лучший среди китайских GPU;

Программный стек (★★★★☆) - MXMACA зрелый, но до CUDA есть gap;

Надёжность / ECC (★★★★★) - Встроенные ECC/RAS;

Масштабируемость (★★★★☆) - MetaXLink поддерживает 8-GPU суперноды;

Энергоэффективность (★★★★☆) - HBM3e + FP8, TDP ниже H100/H200;

Цена / TCO (★★★★★) - 40 - 55% стоимости H200 при 80 - 90% производительности;

Суверенность / санкционные риски (★★★★★) - SMIC-производство.

Общий рейтинг: 4.6/5

№1 среди китайских GPU для inference задач 70B+ параметров.

№1 по объёму памяти среди всех китайских GPU.

№2 для fine-tuning - уступает S5000 по compute, но превосходит по памяти.

№3 для training с нуля - уступает Huawei Ascend 950DT и Moore Threads S5000.

Энергоэффективность

· HBM3e - высокая пропускная способность при меньшем энергопотреблении.

· FP8 - снижение энергопотребления на 30 - 50% vs FP16.

· MetaXLink - энергоэффективный интерконнект без накладных расходов PCIe.

· Техпроцесс SMIC - TDP 300 - 400 Вт ниже H100/H200 (700 Вт).

Сравнение энергопотребления:

MetaX C600 – TDP: 300 - 400 Вт; Энергопотребление на GB памяти: 2.1 - 2.8 Вт/ГБ.

NVIDIA H200 – TDP: 700 Вт; Энергопотребление на GB памяти: 5.0 Вт/ГБ.

NVIDIA H100 – TDP: 700 Вт; Энергопотребление на GB памяти: 8.75 Вт/ГБ.

Moore Threads S5000 – TDP: ~350 Вт; Энергопотребление на GB памяти: 4.4 Вт/ГБ.

Сравнение:

· C600 потребляет примерно вдвое меньше энергии при сопоставимом объёме памяти.

· Поддержка воздушного охлаждения - преимущество для TCO.

Выводы и заключения

MetaX C600 144GB - первый китайский GPU, который конкурирует с NVIDIA не на уровне "альтернативы без выбора", а по реальным характеристикам.

Ключевые преимущества:

· Рекордный объём памяти - 144 GB, на уровне H200.

· Полностью отечественная цепочка - минимальные санкционные риски.

· Низкое энергопотребление – 300 - 400 Вт против 700 Вт у H100/H200.

· Зрелый софт - MXMACA с 500+ моделями.

Для кого эта карта:

· Enterprise-заказчики с inference LLM 70B - 200B+.

· Государственные организации с требованиями импортозамещения.

· Финансовые и медицинские учреждения с суверинитетом данных.

· Компании, начинающие AI-трансформацию CUDA совместимость снижает барьер миграции.

Если задача - production inference крупных LLM (DeepSeek, Qwen, Llama 70B+) в закрытом контуре с требованиями суверенности MetaX C600 144GB - оптимальный выбор на китайском рынке.

MetaX C600 знаменует собой качественный переход от импортозамещения к полноценной конкуренции. Это не просто альтернатива без выбора, а продукт, который заставляет глобальных игроков пересматривать свою стратегию. Появление GPU с 144 ГБ памяти, произведённого по полностью отечественной цепочке, кардинально снижает санкционные риски для китайских корпораций и государственных структур, делая их независимыми от экспортного контроля США. Для остального мира это сигнал о том, что монополия на передовые ИИ-вычисления разрушена, и теперь при выборе поставщика заказчики будут оценивать не только чистую производительность, но и такие факторы, как технологический суверенитет, предсказуемость поставок и совокупная стоимость владения (TCO).

Успех C600, построенного на 7-нм техпроцессе SMIC, является важнейшим валидационным событием для всей китайской полупроводниковой промышленности. Он доказывает, что даже без доступа к передовым 4-нм и 3-нм технологиям можно создавать конкурентоспособные продукты, компенсируя отставание в плотности транзисторов архитектурными инновациями. В краткосрочной перспективе это ставит под угрозу долю рынка NVIDIA в среднем сегменте. В долгосрочной - запуск C600 создаёт необходимый фундамент для разработки следующего поколения чипов (например, ожидаемой C700-серии), которые уже будут нацелены на прямое соперничество с NVIDIA H100/H200 по всем фронтам, включая raw compute, и окончательно закрепит новую многополярную реальность на рынке ускорителей.