Обзор AI ускорителя MetaX C600 144GB
17 июня 2026 г.
MetaX C600 144GB - флагманский AI ускоритель от китайской компании MetaX Integrated Circuits (Шанхай). Компания основана в сентябре 2020 бывшими сотрудниками AMD и NVIDIA, вышла на SSE (688802) в декабре 2025.
Ускоритель позиционируется как "универсальный AI GPU для обучения и инференса". Единственный китайский GPU с объёмом памяти на уровне NVIDIA H200 (141 GB).
MetaX C600 144GB идеальный инструмент для новой эры ИИ. Он позволяет одной картой размещать модели масштаба 70B+ в FP16 и модели свыше 120B+ в энергоэффективном FP8, что ранее было доступно только в многомодульных конфигурациях. Таким образом, MetaX C600 решает не столько сделать задачу быстрее, сколько сделать задачу возможной - выводя инференс сверхкрупных моделей из лабораторий в промышленную эксплуатацию на стандартном серверном оборудовании. Это превращает его из простого ускорителя в стратегический актив для любой компании, работающей с передовыми генеративными моделями.
Технические характеристики MetaX C600 144GB
Интерфейс - PCIe 5.0 x16 (Максимальная пропускная способность);
Форм-фактор - PCIe Card / OAM (Два варианта);
Архитектура - Собственная GPU IP (MetaX) (Полностью независимая разработка);
Техпроцесс - Отечественный (SMIC/партнёры) (Полностью отечественный);
Память - 3 - 4 ТБ/с (На уровне NVIDIA H200 (141 GB));
Интерконнект – MetaXLink (Multi-GPU масштабирование);
Пропускная способность памяти - 3–4 ТБ/с (HBM3e стандарт);
Поддержка precision - FP32, FP16, BF16, INT8, FP8 (Включая FP8 для AI);
ECC/RAS – Да (Enterprise-уровень надёжности);
TDP – 300 - 400 Вт (Для HBM3e + FP8 ускорителей).
Сравнение с аналогами:
MetaX C600: Память - 144 GB HBM3e; FP8 - Да; Интерконнект – MetaXLink; Производство – SMIC; TDP: 300 - 400 Вт;
NVIDIA H200: Память - 141 GB HBM3e; FP8 - Да; Интерконнект – NVLink 4.0; Производство – TSMC 4 нм; TDP: 700 Вт;
NVIDIA H100: Память - 80 GB HBM3e; FP8 - Нет; Интерконнект – NVLink 4.0; Производство – TSMC 4 нм; TDP: 700 Вт;
Moore Threads S5000: Память - 80 GB HBM; FP8 - Да; Интерконнект – MTLink; Производство – TSMC 12 нм; TDP: ~350 Вт;
Huawei Ascend 910C: Память - 48 GB HBM2e; FP8 - Да; Интерконнект – HCCS; Производство – SMIC; TDP: 4000 Вт.
Особенности архитектуры MetaX C600 144GB
Архитектура GPU
C600 построен на собственной архитектуре GPU IP с полностью независимым набором команд.
Ключевые решения:
· HBM3e 144 GB - на уровне H200. Модели 70B+ параметров в FP16 на одной карте.
· FP8 - аппаратное ускорение. Снижает энергопотребление на 30 - 50%, модели 120B+ в FP8.
· MetaXLink - собственный мульти-GPU интерконнект для супернодов.
· ECC/RAS - коррекция ошибок, уровень надёжности enterprise.
· Мульти-точность: FP32, FP16, BF16, INT8, FP8.
· Форм-фактор: PCIe Card / OAM.
· Память: 144 GB HBM3e - рекорд среди китайских GPU.
· Техпроцесс: 7 нм. Заявлена полностью отечественная цепочка - SMIC и партнёры.
Программный стек MXMACA
· CUDA совместимость - трансляция CUDA-кода.
· Фреймворки: PyTorch, TensorFlow, vLLM, TGI, ONNX Runtime.
· 500+ AI моделей верифицированы.
· 4000+ open-source проектов протестированы.
· ~50 000 разработчиков в сообществе.
Предварительная оценка производительности
· Объём памяти 144 GB - единственный китайский GPU с конкурентоспособным объёмом на уровне H200.
· FP8 поддержка - критична для эффективного inference крупных моделей.
· Полностью отечественная цепочка - отсутствие зависимости от TSMC снижает санкционные риски.
· Пиковая производительность - оценочно между H100 и H200.
· Зрелость программного стека - MXMACA зрелый, но до CUDA есть gap.
Оценки производительности:
Inference относительно H100: 80 - 90% (CITIC Securities);
Стоимость относительно H100: 40 - 55% (CITIC Securities);
Inference DeepSeek-V3: 75 - 85% от H100 (ChaiTex internal tests);
Inference Qwen-72B: 75 - 85% от H100 (ChaiTex internal tests);
Inference Llama-3-70B: 75 - 85% от H100 (ChaiTex internal tests);
Fine-tuning LoRA 70B: Работает стабильно на 8 карт (ChaiTex internal tests).
Особенности архитектуры ускорителя
· Рекордный объём памяти - 144 GB HBM3e. Для сравнения: S5000 - 80 GB, Ascend 910C - 48 GB, BiV150 - 64 GB.
· Полностью отечественная цепочка - единственная карта в классе с заявленной полной локализацией.
· Два форм-фактора - PCIe Card для стандартных серверов и OAM для высокой плотности.
· MetaXLink - возможность построения кластеров с высокоскоростной связью.
· ECC/RAS - встроенная коррекция ошибок.
· MXMACA совместимость - 500+ моделей верифицированы.
· Day-0 адаптация - DeepSeek, Qwen, Llama оперативно адаптируются.
· PCIe 5.0 - максимальная пропускная способность интерфейса.
Под какие задачи можно использовать
Инференс LLM 70B - 200B+ - одна карта 144 GB размещает модель целиком в FP16. В конфигурации 8× = 1152 GB - для 400B+ моделей в FP8.
Fine-tuning / LoRA - 144 GB позволяет fine-tune модели до 30B на одной карте. На 8× - до 70B.
Тренировка средних моделей - до 7B - 13B на одной карте; до 30B на 8× конфигурации.
RAG-системы - высокий объём памяти позволяет держать embedding-модели и векторные БД в GPU-памяти.
Мультимодальные модели - Обработка изображений + текст с большими контекстными окнами.
AI for Science - Молекулярная динамика, материаловедение, fluid dynamics.
Государственные / регулируемые задачи - Полностью отечественная цепочка удовлетворяет требованиям импортозамещения.
Pre-training foundation models - требуются кластеры из сотен/тысяч карт.
Edge inference - высокое энергопотребление и форм-фактор.
Информация о проведённых тестированиях
Официальные тестирования MetaX:
· 500+ AI-моделей верифицированы на C600 через MXMACA.
· 4000+ open-source проектов протестированы.
· Day-0 адаптация DeepSeek V4 (апрель 2026).
· Day-0 адаптация Qwen3 (май 2026).
Независимые бенчмарки:
· MLPerf - независимые результаты отсутствуют (июнь 2026). MetaX заявила о намерении участвовать в MLPerf Inference 2026.
· CITIC Securities (май 2026) - оценивает производительность в 80 - 90% от H100 при стоимости 40 - 55%.
Реальные deployment-тесты ChaiTex:
Модель: DeepSeek-V3; Фреймворк: vLLM + MXMACA; Результат: 75 - 85% пропускной способности H100;
Модель: Qwen-72B-Chat; Фреймворк: vLLM + MXMACA; Результат: 75 - 85% пропускной способности H100;
Модель: Llama-3-70B-Instruct; Фреймворк: vLLM + MXMACA; Результат: 75 - 85% пропускной способности H100;
Модель: Fine-tuning LoRA 70B; Фреймворк: PyTorch + MXMACA; Результат: Стабильно на 8× C600;
Модель: Embedding (BGE-large); Фреймворк: ONNX Runtime + MXMACA; Результат: Полная утилизация памяти.
Примечание: Все тесты ChaiTex проводились на серверной конфигурации 8× C600.
В каких проектах уже используется
Китай:
1. Muxing-1 (沐星一号) - сервер на 8× C600:
· Презентация 25 мая 2026 в Нинся.
· Партнёрство с Ningxia Radio & TV, China Unicom Ningxia, Kehua Data Energy.
2. Правительственные AI платформы:
· Provincial 智算-центры в рамках "东数西算".
· Требование "полностью отечественного" оборудования.
3. Финансовые учреждения:
· Risk modeling, fraud detection, алгоритмический трейдинг.
· Крупные банки - внутренние LLM.
4. Операторские 智算-центры:
· China Mobile, China Unicom - облачные AI-инфраструктуры.
5. Интеграторы:
· Baixin Information, Xinghan Intelligent.
Россия (через ChaiTex):
· Рекомендуются для enterprise inference, fine-tuning, RAG.
· GPU-аренда в российских и китайских дата-центрах.
· Пилотные проекты с крупными интеграторами (NDA).
· Серверные конфигурации доступны для поставок.
Рейтинг и оценка ускорителя
Производительность (raw compute) (★★★★☆) - Оценочно между H100 и H200;
Объём памяти (★★★★★) - 144 GB HBM3e лучший среди китайских GPU;
Программный стек (★★★★☆) - MXMACA зрелый, но до CUDA есть gap;
Надёжность / ECC (★★★★★) - Встроенные ECC/RAS;
Масштабируемость (★★★★☆) - MetaXLink поддерживает 8-GPU суперноды;
Энергоэффективность (★★★★☆) - HBM3e + FP8, TDP ниже H100/H200;
Цена / TCO (★★★★★) - 40 - 55% стоимости H200 при 80 - 90% производительности;
Суверенность / санкционные риски (★★★★★) - SMIC-производство.
Общий рейтинг: 4.6/5
№1 среди китайских GPU для inference задач 70B+ параметров.
№1 по объёму памяти среди всех китайских GPU.
№2 для fine-tuning - уступает S5000 по compute, но превосходит по памяти.
№3 для training с нуля - уступает Huawei Ascend 950DT и Moore Threads S5000.
Энергоэффективность
· HBM3e - высокая пропускная способность при меньшем энергопотреблении.
· FP8 - снижение энергопотребления на 30 - 50% vs FP16.
· MetaXLink - энергоэффективный интерконнект без накладных расходов PCIe.
· Техпроцесс SMIC - TDP 300 - 400 Вт ниже H100/H200 (700 Вт).
Сравнение энергопотребления:
MetaX C600 – TDP: 300 - 400 Вт; Энергопотребление на GB памяти: 2.1 - 2.8 Вт/ГБ.
NVIDIA H200 – TDP: 700 Вт; Энергопотребление на GB памяти: 5.0 Вт/ГБ.
NVIDIA H100 – TDP: 700 Вт; Энергопотребление на GB памяти: 8.75 Вт/ГБ.
Moore Threads S5000 – TDP: ~350 Вт; Энергопотребление на GB памяти: 4.4 Вт/ГБ.
Сравнение:
· C600 потребляет примерно вдвое меньше энергии при сопоставимом объёме памяти.
· Поддержка воздушного охлаждения - преимущество для TCO.
Выводы и заключения
MetaX C600 144GB - первый китайский GPU, который конкурирует с NVIDIA не на уровне "альтернативы без выбора", а по реальным характеристикам.
Ключевые преимущества:
· Рекордный объём памяти - 144 GB, на уровне H200.
· Полностью отечественная цепочка - минимальные санкционные риски.
· Низкое энергопотребление – 300 - 400 Вт против 700 Вт у H100/H200.
· Зрелый софт - MXMACA с 500+ моделями.
Для кого эта карта:
· Enterprise-заказчики с inference LLM 70B - 200B+.
· Государственные организации с требованиями импортозамещения.
· Финансовые и медицинские учреждения с суверинитетом данных.
· Компании, начинающие AI-трансформацию CUDA совместимость снижает барьер миграции.
Если задача - production inference крупных LLM (DeepSeek, Qwen, Llama 70B+) в закрытом контуре с требованиями суверенности MetaX C600 144GB - оптимальный выбор на китайском рынке.
MetaX C600 знаменует собой качественный переход от импортозамещения к полноценной конкуренции. Это не просто альтернатива без выбора, а продукт, который заставляет глобальных игроков пересматривать свою стратегию. Появление GPU с 144 ГБ памяти, произведённого по полностью отечественной цепочке, кардинально снижает санкционные риски для китайских корпораций и государственных структур, делая их независимыми от экспортного контроля США. Для остального мира это сигнал о том, что монополия на передовые ИИ-вычисления разрушена, и теперь при выборе поставщика заказчики будут оценивать не только чистую производительность, но и такие факторы, как технологический суверенитет, предсказуемость поставок и совокупная стоимость владения (TCO).
Успех C600, построенного на 7-нм техпроцессе SMIC, является важнейшим валидационным событием для всей китайской полупроводниковой промышленности. Он доказывает, что даже без доступа к передовым 4-нм и 3-нм технологиям можно создавать конкурентоспособные продукты, компенсируя отставание в плотности транзисторов архитектурными инновациями. В краткосрочной перспективе это ставит под угрозу долю рынка NVIDIA в среднем сегменте. В долгосрочной - запуск C600 создаёт необходимый фундамент для разработки следующего поколения чипов (например, ожидаемой C700-серии), которые уже будут нацелены на прямое соперничество с NVIDIA H100/H200 по всем фронтам, включая raw compute, и окончательно закрепит новую многополярную реальность на рынке ускорителей.
