GPU-инфраструктура Q2.2026: дефицит, рост цен и новые игроки
17 апреля 2026 г.
Серверный рынок вошёл в фазу, когда дефицит перестал быть квартальной проблемой и стал хроническим. Цены на компоненты растут одновременно по всем фронтам, NVIDIA ускоряет цикл обновления, а китайские производители впервые предлагают реальные альтернативы по TCO. Перед выходными разбираемся, что происходит и на что ориентироваться при планировании инфраструктуры.
Дефицит стал системным
К началу 2026 года Dell и Lenovo объявили повышение цен на серверы на 15 - 20%. Samsung и SK Hynix подняли цены на серверную DRAM на 60 - 70%. NAND подорожал на 25% только за февраль. GPU-стойки дорожают на 30 - 50% по оценкам Morgan Stanley, а спрос на AI-серверные стойки удвоится - с 28 000 до 60 000+ единиц в год.
HBM-память распродана до конца 2026 года (Micron подтвердил).
Облачные тарифы неминуемо последуют в рост: OVH Cloud уже поднял цены на 9 - 11% (самый дешёвый план - с $4,9 до $7,6), а для AWS, Azure и GCP базовый прогноз - рост на 5 - 10% во втором полугодии. Это не вопрос «если», а вопрос «когда».
NVIDIA ускоряет GB300 сейчас, Vera Rubin в Q4
Отгрузки GB300 вырастут на 129% - до 55 000 стоек в 2026 году. Четвёртый квартал принесёт Vera Rubin NVL72: GPU Rubin, процессор Vera (88 ядер Olympus, 1,5 ТБ LPDDR5x), шина NvLink-C2C на 1,8 ТБ/с. Supermicro, Foxconn и Gigabyte уже строят платформы.
Для покупателя это окно: GB300 - текущее поколение с предсказуемой ценой. Vera Rubin - следующий виток, но он адресован прежде всего гиперскейлерам. Каждый месяц ожидания - потерянная позиция в гонке внедрения ИИ.
Huawei Ascend 950PR первая по-настоящему конкурентная альтернатива
Главный инфоповод из Китая: Huawei Ascend 950PR оказался значительно востребованнее предшественника 910C.
Причина: улучшенная совместимость с экосистемой NVIDIA CUDA, что критически упрощает миграцию.
План отгрузки: 750 000 ускорителей в 2026 году, массовое производство с апреля. Две конфигурации: DDR ~$6 900 и HBM ~$10 000+.
Для справки: H100 на вторичном рынке в Китае стоит $25 000 - 30 000. Даже с поправкой на реальную производительность - это серьёзная альтернатива по TCO для inference.
Параллельно Alibaba запустила AI-датацентр на 10 000 собственных чипов, а в Шэньчжэне заработал крупный кластер на Ascend 910C. Китайская GPU-инфраструктура масштабируется не теоретически, а фактически.
Экосистема Moore Threads: Day-0 адаптации и фотоника
Moore Threads подтвердила адаптацию MTT S5000 под MiniMax M2.7 - Day-0, без задержки после релиза модели. Ранее S5000 показал 4000 токен/сек (prefill) и 1000 токен/сек (decode) на одной карте при запуске DeepSeek R1 671B.
Компания прогнозирует рост выручки на 230 - 247%, S5000 уже вышел на серийное производство.
Отдельная история - XiZhi Technology, прошедшая слушания в Гонконге и готовящая IPO как «первый мировой производитель AI-кремниевых фотонных чипов». Их LightSphere 128 снижает задержки передачи данных при обучении моделей на 90%. В экосистему вошли Baidu, Tencent, China Mobile и Sequoia - это уже не эксперимент, а коммерческий продукт.
Вопросы и ответы
Нужно ли ждать снижения цен на серверы?
Нет. DRAM, NAND и HBM в хроническом дефиците, NVIDIA ускоряет цикл, облачные провайдеры поднимают тарифы. Единственный путь к оптимизации TCO — рассматривать альтернативные платформы (Huawei Ascend 950PR, Moore Threads S5000), которые дают сравнимую производительность за inference при значительно более низкой стоимости.
GB300 или ждать Vera Rubin?
Vera Rubin — не раньше Q4 2026 и для гиперскейлеров. Оптимальная стратегия для среднего и крупного предприятия — начинать с текущего поколения (GB300 или китайские альтернативы). Инфраструктурный простой стоит дороже разницы в поколениях.
