Witch's Jelly, Chinese GPUs Stuck on Memory

Пока аналитики сравнивают TFLOPS между NVIDIA H100 и Huawei Ascend 910B, реальное бутылочное горлышко китайских AI ускорителей лежит не в вычислительных блоках, а в памяти. HBM (High Bandwidth Memory) обеспечивает 60 - 80% эффективной производительности GPU на inference больших моделей. У NVIDIA - HBM3E с пропускной способностью до 4.8 ТБ/с. У китайских вендоров - в лучшем случае HBM2E с 1.2 - 1.6 ТБ/с. Разрыв не в 2 - 3 раза, а в порядке при масштабировании на batch inference.

Этот технологический разрыв имеет прямые экономические и стратегические последствия. Ограниченная пропускная способность памяти не просто снижает скорость работы отдельных ускорителей; она вынуждает строить более крупные и дорогие кластеры из китайских GPU для достижения сопоставимой производительности с западными аналогами при обработке больших объёмов данных.

Разберемся подробнее в ситуации.

Память важнее ядер

Векторные процессоры в GPU вычисляют быстро, но им нужно постоянно загружать веса моделей и активации. На inference LLM с 70B+ параметров ~70 - 80% времени GPU проводит в ожидании данных из памяти, а не в вычислениях.

Ключевая метрика - memory bandwidth:

• NVIDIA H100 SXM5: 3.35 ТБ/с (HBM3);

• NVIDIA H200: 4.8 ТБ/с (HBM3E);

• AMD MI300X: 5.3 ТБ/с (HBM3);

• MetaX C500: ~1.2 ТБ/с (HBM2E, 64GB);

• Moore Threads MTT S4000: ~1.2 ТБ/с (HBM2E, 48GB);

• Huawei Ascend 910B: ~1.6 ТБ/с (HBM2E);

• Iluvatar BiV100: ~1.0 ТБ/с (HBM2).

Разрыв в 2.5 - 4x по bandwidth напрямую транслируется в разрыв в пропускной способности. При batch inference с большими моделями (Llama 3 70B, DeepSeek-V3) эта разница становится решающей.

Почему HBM такая проблема:

· HBM - это stack из 4-12 DRAM чипов, соединённых через TSV (through-silicon vias);

· Производство HBM3/HBM3E требует передовой упаковки (2.5D/3D), которую контролируют три игрока: SK Hynix, Samsung, Micron;

· Micron практически не поставляет в Китай из-за санкций;

· SK Hynix и Samsung находятся под давлением США не продавать HBM в Китай.

Этот фундаментальный разрыв в производительности усугубляется беспрецедентным внешним давлением на глобальную цепочку поставок компонентов. Техническая уязвимость китайских производителей, обусловленная зависимостью от иностранных поставщиков HBM, стала рычагом для введения геополитических ограничений.

В результате проблема из плоскости чистой инженерии перешла в область высокой политики и торговых войн, где доступ к критически важным технологиям определяется не только рыночными факторами, но и санкционной политикой США, которая начала оказывать прямое влияние на рынок именно с середины 2026 года.

Американское давление на цепочку HBM

В мае - июне 2026 геополитическое давление на рынок памяти усилился с двух фронтов.

Фронт 1: BIS и лазейки

31 мая BIS опубликовало новое Guidance, которое затрагивает не только AI чипы, но и компонентную базу. Хотя HBM формально не попадает под CCL категорию EAR004.b, практика показывает, что американские регуляторы используют “advisory opinions” для давления на поставщиков. SK Hynix и Samsung рискуют потерять доступ к американским технологиям (оборудование, EDA, материалы), если будут агрессивно поставлять HBM в Китай.

Фронт 2: Конгресс и расследования

В начале июня американские законодатели инициировали расследование поставок HBM китайским компаниям через третьи страны (Южная Корея → Сингапур/Гонконг → материковый Китай). Это создаёт legal risk для Samsung и SK Hynix даже при серых схемах.

Что происходит на практике:

· Samsung сократила прямые поставки HBM3 в Китай на ~40% с начала 2026 года;

· SK Hynix перенаправляет объёмы на NVIDIA и американских hyperscalers;

· Цены HBM2E на китайском сером рынке выросли на 60–80% с января 2026;

· Lead time на HBM заказы из Китая вырос с 8 до 16 - 20 недель.

Столкнувшись с таким беспрецедентным давлением на цепочку поставок, китайский технологический сектор был вынужден перейти от стратегии закупок к форсированному импортозамещению. Искусственно созданный дефицит и экспоненциальный рост цен на сером рынке сделали разработку локальных аналогов HBM не просто вопросом престижа или долгосрочной стратегией, а критическим условием для выживания национальной AI-индустрии. Этот вызов спровоцировал мобилизацию ключевых игроков рынка памяти, которые, несмотря на технологические ограничения, начали активно инвестировать в собственные R&D для создания независимой компонентной базы.

Китайские альтернативы движутся вперёд

Китай не сидит сложа руки. Три игрока работают над локальным HBM:

CXMT (ChangXin Memory Technologies)

· Единственный масштабируемый производитель DRAM в Китае;

· Текущая линейка: DDR4/LPDDR4, работают над HBM2;

· Ограничение: нет доступа к EUV-литографии, упаковочным линиям 2.5D уровня TSMC/SK Hynix;

· Оценки аналитиков: массовое производство HBM2 - не ранее 2027 - 2028;

· Yangtze Memory Technologies (YMTC);

· Специализируется на 3D NAND, но есть R&D по DRAM;

· Пока нет коммерческих образцов HBM.

Fab-less подходы

· Некоторые китайские бесфабричные вендоры GPU рассматривают GDDR6X как fallback;

· GDDR6X даёт ~1.0 ТБ/с пропускной способности - это ниже, чем HBM2E, но дешевле и доступнее;

· Проблема: потребляемая мощность и плотность - на inference больших моделей GDDR не конкурент HBM.

Реальность такая: китайские GPU-вендоры (MetaX, Moore Threads, Iluvatar) берут HBM2E там, где могут - через серые каналы, остатки складских запасов, переброску через третьи страны. Это работает для пилотных развертываний, но не масштабируется на датацентровые кластеры.

Как бутылочное горлышко памяти влияет на российских закупщиков

1. Спецификации TFLOPS - маркетинг

Когда вендор декларирует 512 TFLOPS FP16, это теоретический пик. Реальная пропускная способность на Llama 3 70B inference будет ограничен не ядрами, а тем, как быстро веса загружаются из HBM. MetaX C500 с 1.2 ТБ/с bandwidth покажет эффективная пропускная способность на уровне 30 - 40% от теоретического пика. NVIDIA H100 с 3.35 ТБ/с – 60 - 70%.

2. Размер памяти критичен

При малых размерах партии (1 - 4 запроса) разрыв между китайскими GPU и NVIDIA минимален - преобладает latency сценарий. При больших размерах партии (32 - 64+) разрыв увеличивается экспоненциально. Для enterprise inference (чат-боты, API сервисы) это означает: китайские GPU требуют больше карт на тот же RPS.

3. Модель matters

Модели с меньшим количеством параметров и квантование (INT8, INT4) менее чувствительны к пропускной способности памяти. DeepSeek-V3 671B на китайских GPU - вызов. Llama 3 8B quantized - вполне комфортно.

4. Платформенная оптимизация спасает

АРКА (MoArk) решает часть проблемы через:

· Model parallelism, который распределяет веса моделей через несколько GPUs;

· Квантование и обреззка, уменьшающие объем памяти;

· Кэширование слоев, которые снижают частоту обращений к HBM;

· KV кэш оптимизация для длинных контекстов

Без этих оптимизаций “сырой” GPU - это половина решения.

Как это влияет на российский рынок

1. NVIDIA - не возвращается, но и заменить 1:1 нельзя

HBM бутылочное горлышко означает, что китайские GPU не дадут той же производительности в расчете на доллар, что NVIDIA H100/H200 на больших моделях. ROI расчёты должны включать этот фактор.

2. Выбор вендора - не только GPU, но и memory stack

3. Горизонт планирования 6 - 12 месяцев

Дефицит HBM усугубляется. Заказы, которые можно было выполнить за 6 недель в начале 2025, сейчас требуют 3 - 4 месяцев.

4. АРКА - компенсация hardware ограничений

Когда hardware не дотягивает до NVIDIA, программного обеспечения становится критичным. АРКА даёт уровень enterprise оркестрации, оптимизацию моделей и serving layer, которые извлекают максимум из доступного hardware.

Выводы и заключения

Пока проблема производительности китайских AI ускорителей носит не столько вычислительный, сколько инфраструктурный характер. Разрыв в пропускной способности памяти (HBM) по сравнению с западными аналогами является фундаментальным ограничением, которое невозможно преодолеть простым наращиванием количества ядер или оптимизацией на уровне одного чипа. Эта технологическая уязвимость была усугублена целенаправленным геополитическим давлением, превратившись из инженерной задачи в вопрос стратегической зависимости. В результате китайские производители оказались в ситуации, когда их способность к масштабированию дата-центровых кластеров напрямую зависит от доступа к критически важным компонентам через серые каналы, что делает долгосрочное планирование крайне рискованным и непредсказуемым.

Для конечных заказчиков, в частности на российском рынке, это означает необходимость кардинального пересмотра подходов к построению AI инфраструктуры. Прямая замена оборудования NVIDIA на китайские аналоги без учета этого фактора приведет к кратному падению реальной эффективности при работе с большими моделями. Успех миграции будет определяться не столько выбором конкретного GPU-вендора, сколько способностью платформы компенсировать аппаратные ограничения. Ключевую роль приобретают программные решения уровня оркестрации, технологии квантования и оптимизации моделей, а также гибкость в выборе задач под доступное железо. Игнорирование бутылочного горлышка памяти неизбежно приведет к неоправданным экономическим издержкам и провалу проектов по внедрению искусственного интеллекта.

Вопросы и ответы

В: Можно ли использовать GDDR6X вместо HBM для китайских GPU?

О: Технически - да, некоторые конфигурации начального уровня идут с GDDR. Но для inference моделей от 70B параметров GDDR становится бутылочным горлышков ещё раньше, чем HBM2E. GDDR6X - компромисс для тренировок маленьких моделей и edge inference, не для датацентровых LLM.

В: Когда китайские производители решат проблему HBM?

О: Оценки экспертов: массовое производство локального HBM2 2027 - 2028 годы. HBM3 уровня не ранее 2029 - 2030. До этого момента китайские GPU вендоры будут зависеть от импортной памяти через серые каналы и остатки складских запасов. Это означает: цены на HBM2E будут расти, а доступность - падать.