NVIDIA is leaving, but the ecosystem remains

Окончательный уход NVIDIA с китайского рынка, закреплённый решением Бюро промышленности и безопасности США (BIS) и закрытием последних логистических лазеек через зарубежные дочерние компании, стал не просто санкционным давлением, а точкой не возврата. Этот шаг мгновенно превратил теоретическую потребность в импортозамещении в острую практическую задачу выживания для всей цифровой экономики КНР. Искусственный интеллект перестал быть привилегией глобальных корпораций и превратился в вопрос национального суверенитета. В ответ на этот вызов китайский ИТ сектор продемонстрировал беспрецедентную мобилизацию: финансовые отчёты фиксируют взрывной рост выручки, а дорожные карты вендоров уплотнились до годового цикла обновлений.

В результате на месте монополиста образовался вакуум, который стремительно заполняет плеяда национальных чемпионов. Однако выбор нового аппаратного фундамента - это уже не сравнение тактовых частот и объёмов памяти. Сегодняшний рынок представляет собой арену столкновения принципиально разных философий построения технологического стека. Заказчик выбирает не просто чип, а целую экосистему, где тесно переплетены архитектура железа, зрелость программного обеспечения и глубина поддержки. Статья предлагает декомпозировать этот сложный выбор по трём ключевым критериям: производительность и память, программный стек (CANN, MUSA, XPU) и готовность экосистемы к enterprise интеграции, чтобы понять, какое решение является оптимальным для конкретной бизнес-задачи в условиях новой реальности.

Huawei Ascend замкнутый сад, но рабочий

Huawei единственный китайский вендор с полным enterprise стеком. Ascend 910C уже крутит Qwen и DeepSeek в промышленной эксплуатации. CANN достиг уровня, когда миграция с CUDA занимает дни, а не месяцы. DeepSeek V4 адаптировался под Ascend с первого дня. Это не маркетинг, это результат прямого сотрудничества Huawei и DeepSeek.

Huawei подтвердила годовой цикл обновления: одно поколение в год с удвоением производительности. Это предсказуемость, которой нет ни у кого на ограниченных рынках. Roadmap на 3 - 5 лет вполне реальный, а не декларативный.

Помимо мощных дата-центров, Huawei активно развивает линейку продуктов для граничных вычислений. Сервер Atlas 500 AI предназначен для развертывания ИИ непосредственно там, где генерируются данные (на заводах, в системах видеонаблюдения, умном транспорте). Благодаря низкому энергопотреблению и высокой вычислительной плотности, он позволяет обрабатывать видеопотоки и сенсорные данные локально, без необходимости отправлять их в облако. Это решает проблемы задержки (latency) и безопасности передачи данных, открывая путь для массового внедрения ИИ в реальный сектор экономики за пределами крупных ЦОД.

На данный момент в линейке Huawei Ascend 910C (inference + fine-tuning), 950DT (обучение, август 2026), Atlas 300 серия (инференс ускорители).

Huawei предлагает рынку концепцию полностью автономного решения «под ключ». Покупая ускоритель Ascend, заказчик получает не только «железо», но и защищенную программно-аппаратную среду. Использование собственной ОС EulerOS и процессоров Kunpeng минимизирует поверхность атаки и исключает наличие скрытых аппаратных закладок или уязвимость на уровне микрокода, что является критически важным требованием для объектов критической информационной инфраструктуры (КИИ). Это превращает зависимость от одного вендора из недостатка в главное преимущество с точки зрения кибербезопасности и технологического суверенитета.

Софт-стек состоит Huawei из CANN, MindSpore. Собственная операционная система EulerOS. Полная вертикальная интеграция: от чипа до облака.

Однако остается замкнутость. Huawei - это не GPU, это экосистема. Если вы берете Ascend, вы берете Kunpeng CPU, EulerOS, MindSpore и Huawei Cloud. Интеграция с Linux инфраструктурой и open-source инструментами возможна, но требует усилий. Это не поставил и заработало - это поставил и адаптировал».

Для кого: Крупные госкомпании, банки, оборонка, где суверенность важнее гибкости, где есть ресурсы на адаптацию, где долгосрочная предсказуемость важнее краткосрочной скорости.

Huawei предлагает рынку концепцию полностью автономного решения «под ключ», для крупных госкомпаний, банков, оборонки - где суверенность важнее гибкости, где есть ресурсы на адаптацию, где долгосрочная предсказуемость важнее краткосрочной скорости.

Покупая ускоритель Ascend, заказчик получает не только «железо», но и защищенную программно-аппаратную среду. Использование собственной ОС EulerOS и процессоров Kunpeng минимизирует поверхность атаки и исключает наличие скрытых аппаратных закладок или уязвимости на уровне микрокода, что является критически важным требованием для объектов критической информационной инфраструктуры (КИИ). Это превращает зависимость от одного вендора из недостатка в главное преимущество с точки зрения кибербезопасности и технологического суверенитета.

Moore Threads набирает массу

В отличие от подхода Nvidia, где масштабирование часто строится вокруг проприетарных решений (NVLink), Moore Threads делает ставку на открытую, но глубоко оптимизированную топологию MTTLINK 2.0. Это не просто шина связи между картами, а основа для создания отказоустойчивых кластеров масштаба дата центра. Ключевая идея - создание ИИ фабрик, где каждый из восьми GPU в узле имеет прямую связь с остальными семью, что кардинально снижает латентность при обмене данными внутри модели. Технология поддерживает агрегацию ресурсов до 100 000 ускорителей, формируя единый вычислительный пул, что позволяет решать задачи предобучения сверхкрупных моделей (trillion-scale) без узких мест в сети.

На данный момент ключевые решения компании: MTT S3000 (32 ГБ), S4000 (48 ГБ), S5000 (80 ГБ)

Софт-стек состоит из MUSA (Moore Threads Unified System Architecture), MUSA SDK. MUSA 2.0 анонсирован в июне 2026 - переход от трансляции CUDA к собственному стеку.

Флагманский ускоритель S5000 знаменует собой смену парадигмы. Если предыдущие поколения были ориентированы на графические задачи и вычисления двойной точности (FP32/64), то S5000 - это первый массовый китайский чип с нативной аппаратной поддержкой режима FP8. Этот переход позволил достичь беспрецедентной плотности вычислений. В тестах инференса модели DeepSeek V3 карта продемонстрировала способность генерировать 100 токенов в секунду, что вдвое превышает показатели западных аналогов и доказывает эффективность нового тензорного движка MATE, встроенного в стек MUSA.

Финансовые показатели говорят о следующем 15 млрд юаней выручки за 2025 - это не стартап на инвестициях, это реальный бизнес. Первый квартальный профит в Q1 2026 (29.4 млн юаней). S5000 уходит в массовое производство. Это значит: производство отлажено, QA пройден, поставки предсказуемы.

MUSA SDK зрелее, чем два года назад. vLLM, PyTorch, TensorFlow - работают через адаптационный слой. CaaS (Computing-as-a-Service) заявка на облачную экосистему.

CUDA совместимость пока видится как трансляция, а не нативная поддержка. Сложные модели с кастомными операциями могут требовать ручного портирования. MUSA 2.0 решает часть проблем, но полный переход займет время. Экосистема хуже, чем у Huawei - нет собственных моделей, нет собственного облака, но подойдет компаниям, которым нужен массовый inference (LLM сервинг, RAG пайплайны) с минимальными затратами на адаптацию. Подходят для дата-центров, телеком, среднего enterprise.

Максимум памяти, минимум компромиссов

В отличие от западных вендоров, которые исторически балансировали между вычислительной мощностью (TFLOPS) и пропускной способностью памяти (HBM), MetaX сделала осознанную ставку на Memory Centric архитектуру. Модель C600 со 144 ГБ HBM - это не просто количественное улучшение, а качественный сдвиг парадигмы. Компания сознательно пошла на компромисс, снизив пиковую пропускную способность (до 440 ГБ/с у C500) ради радикального увеличения объема быстрой памяти на кристалле. Это делает ускорители идеальными для задач, где узким местом является не скорость вычислений, а необходимость хранить огромные state space модели целиком в памяти без обращений к медленной системной RAM или SSD.

В настоящий момент компанией MetaX представлены следующие флагманские модели: C500 (64 ГБ), C550 (64 ГБ), C600 (144 ГБ), C588 (128 ГБ). Софт-стек: XPU SDK, XPU Runtime. Поддержка PyTorch, TensorFlow, vLLM через адаптационные слои.

Главным барьером для использования карт с большим объемом памяти всегда была сложность их объединения в кластер для работы над одной задачей. MetaX решает эту проблему с помощью технологии MetaXLink. В то время как конкуренты полагаются на стандартные шины PCIe, проприетарный интерфейс MetaX обеспечивает прямое соединение карт. Для серверного модуля C550 пропускная способность межчипового соединения в топологии из 8 GPU достигает 896 ГБ/с, что позволяет эффективно распараллеливать вычисления внутри гигантских нейросетей, превращая кластер в единый логический суперускоритель с колоссальным пулом памяти.

Выход за рамки LLM-сервинга не просто декларация. Линейка Xisu X (включая модели X301/X302) представляет собой совершенно иную философию проектирования по сравнению с C-серией. Если C-серия оптимизирована под пропускную способность данных для ИИ, то X-серия изначально создавалась для классических научных вычислений (HPC). Эти чипы имеют аппаратную оптимизацию под задачи молекулярной динамики и гидродинамики, требующие высокой точности операций с плавающей запятой (FP64) и специфических математических алгоритмов, что делает их прямыми конкурентами специализированных решений Nvidia H100 PCIe в научной среде.

Память. C600 с 144 ГБ HBM - максимум среди китайских вендоров. Для inference больших моделей (Llama 70B, Qwen 72B, DeepSeek 67B) память - главный bottleneck. MetaX решает его агрессивно.

X206 из линейки Xisu X - уже в массовом производстве. X301/X302 (HPC, AI for Science) - Q2 2026. MetaX выходит за пределы LLM-сервинга: молекулярная динамика, материаловедение, fluid dynamics.

Экосистема слабее, чем у Huawei и Moore Threads. Меньше enterprise кейсов, меньше интеграторов, меньше документации. Для production нужна команда, которая разберется сама или через прямую поддержку вендора. Российская сертификация уже в процессе.

Решения подойдут для ML-команды, которым нужен inference больших моделей без квантизации. Научные вычисления (HPC, AI for Science). Разработчики, готовые работать с SDK напрямую.

Остальные драконы

Iluvatar (Tianshu Zhixin)

BiV100 (32 ГБ), BiV150 (64 ГБ). Заказы на 45.16 млрд юаней - впечатляющая цифра, но реальная доля рынка неясна. BI Fusion - собственный стек, но зрелость ниже, чем у MUSA или CANN. Подходит для компаний с готовой инфраструктурой Huawei, которые ищут второго поставщика для диверсификации.

Enflame (Suiyuan Technology)

CloudBlazer T20 (32 ГБ). Фокус на inference в облаке. Меньше памяти, но оптимизация под батчинг и latency. Нишевый игрок - хорош для конкретных задач, не универсальный.

Baidu Kunlun

RG800 (32 ГБ), P800 (96 ГБ). Тесная интеграция с PaddlePaddle и Baidu AI Cloud. Если ваш стек на Paddle - логичный выбор. Если на PyTorch/TensorFlow - адаптация.

Yiren Semiconductor (YH)

YH001 PCIe (48 ГБ), YH002 Mezzanine (96 ГБ). Начинающий игрок. Потенциал есть, но готового enterprise пока нет.

Сравнение экосистем

Huawei Ascend: Макс. память GPU - 48 ГБ (300V Pro); Софт-стек зрелость - Высокая (CANN); Экосистема - Замкнутая, но полная; CUDA совместимость - Трансляция CANN; Готовность Enterprise – Да; Roadmap предсказуемость - Высокая (годовой цикл).

Moore Threads: Макс. память GPU - 80 ГБ (S5000); Софт-стек зрелость - Средняя-высокая (MUSA 2.0); Экосистема - Растущая (CaaS); CUDA совместимость - Трансляция MUSA; Готовность Enterprise – Да; Roadmap предсказуемость - Средняя.

MetaX: Макс. память GPU - 144 ГБ (C600); Софт-стек зрелость - Средняя (XPU); Экосистема - Ограниченная; CUDA совместимость - Трансляция XPU; Готовность Enterprise – Пилот/продакшн; Roadmap предсказуемость - Средняя.

Iluvatar: Макс. память GPU - 64 ГБ (BiV150); Софт-стек зрелость - Средняя (BI Fusion); Экосистема - Ограниченная; CUDA совместимость - Частичная; Готовность Enterprise – Пилот; Roadmap предсказуемость - Средняя.

Enflame: Макс. память GPU - 32 ГБ (T20); Софт-стек зрелость - Низкая-средняя; Экосистема - Ограниченная; CUDA совместимость - Частичная; Готовность Enterprise - Пилот; Roadmap предсказуемость - Средняя.

Вывод и заключения

Текущая ситуация на рынке - это не просто смена поставщика оборудования, а фундаментальный сдвиг в парадигме построения ИТ инфраструктуры, где выбор аппаратного обеспечения неразрывно связан с выбором долгосрочной технологической и геополитической стратегии.

Во-первых, эпоха универсального золотого стандарта NVIDIA CUDA безвозвратно уходит. На его месте формируется полицентричная экосистема, состоящая из нескольких самодостаточных стеков (CANN, MUSA, XPU). Это означает, что для enterprise компаний миграция превращается из задачи по замене «железа» в комплексный проект по адаптации софта и перестройке DevOps процессов. Выбор между Huawei, Moore Threads или MetaX сегодня - это, по сути, ставка на одного технологического лидера на горизонте 3–5 лет, так как стоимость обратной миграции будет колоссальной. Заказчики вынуждены принимать философию вендора: будь то полная вертикальная интеграция и кибербезопасность Huawei, масштабируемость ИИ фабрик Moore Threads или беспрецедентный объем памяти MetaX.

Во-вторых, главным драйвером инноваций становится борьба с главным узким местом современных LLM нехваткой памяти. Если западные вендоры исторически фокусировались на росте терафлопс и пропускной способности, то китайские компании, лишенные доступа к самым передовым техпроцессам, совершили асимметричный ответ. Они сделали ставку на архитектурные инновации: агрессивное увеличение объема HBM (до 144 ГБ у MetaX), оптимизацию под форматы низкой точности (FP8) и создание высокоскоростных проприетарных интерконнектов (MetaXLink). Этот подход доказывает свою эффективность, позволяя запускать модели масштаба Llama-70B целиком в памяти одного ускорителя без ресурсоемкой квантизации, что кардинально снижает задержки и упрощает инфраструктуру инференса.

Таким образом, окончательный уход NVIDIA послужил катализатором, который превратил разрозненные разработки китайских чипмейкеров в реальную рыночную силу. Сегодня заказчик выбирает не просто GPU, а целостную концепцию решения своей бизнес-задачи:

Для госсектора и критической инфраструктуры единственным верным выбором остается Huawei Ascend, предлагающий предсказуемый roadmap и защищенный программно-аппаратный контур.
Для массового LLM-сервинга и телеком-операторов, которым важен баланс цены и производительности при масштабировании, оптимальным решением становятся ускорители Moore Threads S-серии.
Для ML-команд и научных вычислений, работающих с моделями-тяжеловесами, где память является ключевым ограничителем, нет альтернативы платформе MetaX C600.

В конечном счёте, новая реальность диктует новый принцип: универсальных победителей больше не существует. Есть лишь правильный инструмент для конкретной задачи. В условиях отсутствия единого стандарта гибкость и возможность тестирования разных платформ через единый API становятся главной компетенцией для выживания и развития бизнеса. Столкновение этих технологических философий только начинается, и ближайшие два года окончательно определят облик нового мирового порядка в сфере искусственного интеллекта.

NVIDIA уходит, остается экосистема

Huawei Ascend замкнутый сад, но рабочий

Moore Threads набирает массу

Максимум памяти, минимум компромиссов

Остальные драконы

Вывод и заключения