GPU-инфраструктура Q2.2026: дефицит, рост цен и новые игроки

Серверный рынок вошёл в фазу, когда дефицит перестал быть квартальной проблемой и стал хроническим. Цены на компоненты растут одновременно по всем фронтам, NVIDIA ускоряет цикл обновления, а китайские производители впервые предлагают реальные альтернативы по TCO. Перед выходными разбираемся, что происходит и на что ориентироваться при планировании инфраструктуры.

Дефицит стал системным

К началу 2026 года Dell и Lenovo объявили повышение цен на серверы на 15 - 20%. Samsung и SK Hynix подняли цены на серверную DRAM на 60 - 70%. NAND подорожал на 25% только за февраль. GPU-стойки дорожают на 30 - 50% по оценкам Morgan Stanley, а спрос на AI-серверные стойки удвоится - с 28 000 до 60 000+ единиц в год.

HBM-память распродана до конца 2026 года (Micron подтвердил).

Облачные тарифы неминуемо последуют в рост: OVH Cloud уже поднял цены на 9 - 11% (самый дешёвый план - с $4,9 до $7,6), а для AWS, Azure и GCP базовый прогноз - рост на 5 - 10% во втором полугодии. Это не вопрос «если», а вопрос «когда».

NVIDIA ускоряет GB300 сейчас, Vera Rubin в Q4

Отгрузки GB300 вырастут на 129% - до 55 000 стоек в 2026 году. Четвёртый квартал принесёт Vera Rubin NVL72: GPU Rubin, процессор Vera (88 ядер Olympus, 1,5 ТБ LPDDR5x), шина NvLink-C2C на 1,8 ТБ/с. Supermicro, Foxconn и Gigabyte уже строят платформы.

Для покупателя это окно: GB300 - текущее поколение с предсказуемой ценой. Vera Rubin - следующий виток, но он адресован прежде всего гиперскейлерам. Каждый месяц ожидания - потерянная позиция в гонке внедрения ИИ.

Huawei Ascend 950PR первая по-настоящему конкурентная альтернатива

Главный инфоповод из Китая: Huawei Ascend 950PR оказался значительно востребованнее предшественника 910C.

Причина: улучшенная совместимость с экосистемой NVIDIA CUDA, что критически упрощает миграцию.

План отгрузки: 750 000 ускорителей в 2026 году, массовое производство с апреля. Две конфигурации: DDR ~$6 900 и HBM ~$10 000+.

Для справки: H100 на вторичном рынке в Китае стоит $25 000 - 30 000. Даже с поправкой на реальную производительность - это серьёзная альтернатива по TCO для inference.

Параллельно Alibaba запустила AI-датацентр на 10 000 собственных чипов, а в Шэньчжэне заработал крупный кластер на Ascend 910C. Китайская GPU-инфраструктура масштабируется не теоретически, а фактически.

Экосистема Moore Threads: Day-0 адаптации и фотоника

Moore Threads подтвердила адаптацию MTT S5000 под MiniMax M2.7 - Day-0, без задержки после релиза модели. Ранее S5000 показал 4000 токен/сек (prefill) и 1000 токен/сек (decode) на одной карте при запуске DeepSeek R1 671B.

Компания прогнозирует рост выручки на 230 - 247%, S5000 уже вышел на серийное производство.

Отдельная история - XiZhi Technology, прошедшая слушания в Гонконге и готовящая IPO как «первый мировой производитель AI-кремниевых фотонных чипов». Их LightSphere 128 снижает задержки передачи данных при обучении моделей на 90%. В экосистему вошли Baidu, Tencent, China Mobile и Sequoia - это уже не эксперимент, а коммерческий продукт.

Вопросы и ответы

В: Нужно ли ждать снижения цен на серверы?

О: Нет. DRAM, NAND и HBM в хроническом дефиците, NVIDIA ускоряет цикл, облачные провайдеры поднимают тарифы. Единственный путь к оптимизации TCO - рассматривать альтернативные платформы (Huawei Ascend 950PR, Moore Threads S5000), которые дают сравнимую производительность за inference при значительно более низкой стоимости.

В: GB300 или ждать Vera Rubin?

О: Vera Rubin - не раньше Q4 2026 и для гиперскейлеров. Оптимальная стратегия для среднего и крупного предприятия - начинать с текущего поколения (GB300 или китайские альтернативы). Инфраструктурный простой стоит дороже разницы в поколениях.