Глобальный дефицит GPU: китайские чипы перестают быть запасным вариантом

В 2026 году рынок AI-инфраструктуры переживает системный сдвиг. Глобальный дефицит GPU вышел на новый уровень - цены на аренду H100 выросли на 40% за полгода, мировые облака массово повышают тарифы, а параллельно китайская GPU-индустрия прошла точку невозврата: крупнейшие технологические компании и банки переходят на национальные чипы. Разбираемся, что происходит и что это значит для российского рынка.

Дефицит, который не уйдёт

Год назад рынок надеялся, что с выходом нового поколения NVIDIA Blackwell дефицит чипов Hopper смягчится. Произошло обратное.

По данным SemiAnalysis, годовая контрактная цена на аренду H100 выросла с $1,70 до $2,35 за GPU в час - на 40% за шесть месяцев.

Спот-рынок полностью распродан. Поставки Blackwell (B200) сдвинулись на июнь-июль 2026.

При этом цены на компоненты взлетели ещё сильнее: контрактные цены на DDR5 выросли в 5 раз за год, LPDDR5 - в 4 раза.

OEM-производители серверов переложили эти издержки в ценники AI-серверов, что замкнуло "порочный круг": новые кластеры стали невыгодны; предложение не растёт; цена аренды продолжает ползти вверх.

Что это значит: дефицит GPU - не временный дисбаланс спроса и предложения. Это структурная проблема. AI-спрос растёт экспоненциально (расход токенов ×10 за год), а производство чипов и памяти HBM не успевает за потребностью. Ни одно поколение процессоров эту проблему не решит.

Ответ Китая: Huawei Ascend 950PR

Главное событие марта 2026 - Huawei на партнёрской конференции представила Atlas 350 на базе процессора Ascend 950PR.

Ключевые цифры: 1 PFLOPS (FP8) / 2 PFLOPS (FP4) на карту;

Производительность инференса: ×2,87 против NVIDIA H20;

Интерконнект: 2 TB/s;

Единственный в КНР с нативной поддержкой FP4;

Значительно улучшенная совместимость с CUDA через CANN 8.1;

Для сравнения: H100 SXM - 1 979 TFLOPS (FP8); H200 SXM - те же 1 979 TFLOPS, но с 141 ГБ HBM3e.

Теоретическая производительность 950PR - около 70% от H100 в плотных FP8-вычислениях, но Huawei компенсирует разницу через «суперноды» - объединение карт через высокоскоростной интерконнект в кластерные конфигурации, проверенные на масштабах в десятки тысяч карт.

Результат: ByteDance, Alibaba и Tencent успешно прошли тестирование 950PR и разместили заказы на сотни тысяч чипов.

По данным Reuters, Huawei планирует произвести 600 000 чипов 910C в 2026 году (вдвое больше, чем в 2025) и выйти на 1,6 млн единиц по всей линейке.

DeepSeek V4: точка невозврата для экосистемы

Самый знаковый сигнал - миграция DeepSeek V4 на Huawei Ascend.

V4 - 1 трлн параметров, MoE-архитектура, 37 млрд активных параметров на inference. И она полностью работает на китайских чипах.

Это не маркетинговый ход. По данным The Information, DeepSeek V4 специально отложила релиз на несколько месяцев, чтобы адаптировать модель под Ascend. Основная сложность - не в переписывании вычислительных ядер, а в precision alignment: добиться идентичных результатов на разных чипах при одинаковых входных данных. На масштабе в триллион параметров погрешности операций с плавающей точкой накапливаются через тысячи слоёв и миллионы токенов контекста.

CSDN опубликовал детальный разбор миграции: замена cuda:0 на npu:0, адаптация Flash Attention, верификация расхождений. Работа нетривиальная, но она сделана - и это открывает дорогу всем остальным.

Почему это важно: DeepSeek V4 - де-факто стандарт для open-source LLM в Азии. Если модель работает на Ascend, значит Ascend работает. Для рынка это «сертификат качества», который стоит дороже любого бенчмарка.

Рынок в цифрах: перетасовка карт

Доля рынка (IDC, 2025)

1. Huawei (昇腾) - 20% (81,2 млн)

2. Alibaba (平头哥) - 7% (26,5 млн)

3. AMD ~4%

4. Cambricon (寒武纪) ~4%

5. Остальные (沐曦, 天数智芯, etc.) ~10%

Доля китайских чипов на рынке ИИ-серверов КНР: 41%. NVIDIA потерял позиции с 95% (пик 2022) до 55%. И это при том, что H20 - последний Nvidia-чип, доступный в Китае - был снят с продаж в апреле 2025.

Финансовые показатели «большой четвёрки» (годовые отчёты 2025)

Маржа в 53–69% - на уровне NVIDIA по дискретным GPU. Убытки большие, но сокращаются на 30 – 40% в год. Все четыре компании прошли IPO. Moore Threads достиг рыночной капитализации 500 млрд ¥ (сейчас ~270 млрд). 2026 год - год, когда они начнут реально масштабировать отгрузки.

Облака дорожают - TCO аргумент становится решающим

Март-апрель 2026 - волна повышения цен на AI-облака:

AWS: впервые за 20 лет поднял цены на EC2 (январь 2026);

Облако Alibaba: AI-ресурсы + 5–34% (с 18 апреля);

Облако Tencent: AI-ресурсы + 5% (с 9 мая), ранее - API-токены + 463%;

Облако Baidu: + 5–30%;

Zhipu: API + 20%, затем + 10% - впервые сравнялась с зарубежными ценами.

Основной триггер — экспоненциальный рост спроса на инференс.

По данным OpenRouter, еженедельный расход токенов вырос с 1,62 трлн (март 2025) до 18 трлн (март 2026) - в 11 раз. IDC прогнозирует глобальный рост с 0,0005 PetaTokens (2025) до 152 700 PetaTokens (2030), CAGR 3 418%.

Облачные решения явным образом дорожают и будут дорожать дальше. Владение собственной GPU-инфраструктурой на китайских чипах даёт предсказуемый TCO - без привязки к ценовой политике гиперскейлеров и без риска дефицита арендных мощностей.

Россия: 44% тестируют, 21% внедряют - инфраструктура тормозит

По опросу Arenadata (апрель 2026), 44% российских организаций тестируют ИИ, но только 21% перешли к активному использованию - и этот показатель даже немного снизился за год (с 23,1%).

Проблема не в отсутствии интереса. Проблема в инфраструктуре: российские компании не могут получить доступ к мировым GPU-ресурсам из-за санкционных ограничений, а российские облачные провайдеры сталкиваются с теми же глобальными дефицитами и ростом цен.

Здесь и появляется прямая связь с китайской GPU-индустрией.

Кейс ВТБ - банк заменил Nvidia на китайские GPU для задач компьютерного зрения, NLP и генеративных моделей - и тестирование показало стабильную работу.

Зампред ВТБ Вадим Кулик: «Внедрение проходит без существенных доработок и с высокой производительностью».

Для российского рынка китайские GPU - не «запасной вариант». Это единственный путь к масштабированию AI-инфраструктуры в условиях, когда доступ к NVIDIA закрыт, а мировые облака дорожают и недоступны.

Выводы:

1. Мир AI-инфраструктуры в 2026 году раскололся на два лагеря: те, кто может позволить себе NVIDIA (и платит за это премиальную цену), и те, кто нашёл альтернативу.

2. Китайская GPU-индустрия прошла точку невозврата: 41% рынка, маржа на уровне NVIDIA, крупнейшие LLM работают на национальных чипах, банки переходят в production.

Для российских компаний это не вопрос «хочу или не хочу». Это вопрос выживания и масштабирования. Глобальный дефицит GPU не рассосётся в ближайшие годы.

Облачные решения дорожают.

Китайские чипы - не идеальны, но они доступны, предсказуемы и быстро улучшаются.

Теги: #китайские-gpu #импортозамещение #huawei-昇腾 #moore-threads #meta-x #iluvatar #deepseek #gpu-серверы #рынок-ии #tc-анализ