Обзор YH001 PCIe Server 384GB

YH001 PCIe Server 384GB представляет собой высокопроизводительную вычислительную платформу, разработанную для задач искусственного интеллекта и работы с большими языковыми моделями (LLM). Ключевой особенностью системы является использование восьми ускорителей YH001 собственной разработки на базе инновационной архитектуры RISC-V.

Суммарный объём видеопамяти в 384 ГБ (по 48 ГБ на карту) позволяет запускать inference сложных моделей, без необходимости распределять вычисления между несколькими физическими узлами, что значительно упрощает инфраструктуру. Высокая пропускная способность памяти (1000 ГБ/с на карту), поддержка современных форматов вычислений, а также полная независимость от экосистемы CUDA делают это решение привлекательным для построения суверенной ИИ инфраструктуры.

В основе сервера лежит глубокая оптимизация под трансформерные архитектуры и модели серии DeepSeek, что достигается за счёт специализированных матричных процессоров.

Стандартный форм-фактор PCIe обеспечивает бесшовную интеграцию устройства в существующие дата центры, сохраняя при этом высокую плотность размещения компонентов. Архитектура платформы нацелена не только на эффективный инференс, но и на fine-tuning средних по размеру нейросетей, предлагая корпоративному сегменту хороший баланс производительности и объёма VRAM. Использование собственных протоколов связи YHLink и облачной архитектуры RISC-V гарантирует технологическую автономность, позволяя создавать масштабируемые кластеры ИИ без привязки к западным проприетарным технологиям.

Технические характеристики сервера YH001 PCIe Server 384GB

GPU – Восемь ускорителей YH001 (на базе архитектуры RISC-V с TPU подобной организацией вычислений) в форм-факторе PCIe;

Процесс - RISC-V (точный техпроцесс в открытых источниках не указан);

GPU память - Суммарный объём видеопамяти составляет 384 ГБ (по 48 ГБ на каждую карту). Это позволяет работать с очень большими языковыми моделями (LLM) без необходимости распределять их по нескольким узлам.

Memory Bandwidth - 1000 ГБ/с на одну карту;

FP16 (Tensor) - Поддерживается (включая Blocked FP8 для обучения LLM);

FP32 – Поддерживается;

INT8 – Поддерживается;

TDP - Точное значение для карты YH001 не найдено. Для сравнения, у NVIDIA H100/H200 в PCIe формате TDP достигает 700 Вт.;

Архитектура: Построен на базе инновационной облачной архитектуры RISC-V, что обеспечивает независимость от традиционных цепочек поставок.

Интерфейс - PCIe (для связи между картами используется проприетарный интерфейс YHLink);

Поддержка стека - Полная независимость от CUDA. Нативная поддержка PyTorch и TensorFlow.

Оптимизация: Сервер глубоко оптимизирован для работы с моделями серии DeepSeek. Для ускорения нагрузок используется специализированная матричная обработка, ориентированная на архитектуру Transformer.

Форм-фактор: Стандартный PCIe обеспечивает простоту интеграции в существующую инфраструктуру дата центров при сохранении высокой пропускной способности.

Поддержка вычислений: Поддержка форматов FP8 и INT4 обеспечивает значительный рост вычислительной плотности и энергоэффективности по сравнению со стандартными форматами. Это критически важно для корпоративных ИИ приложений, так как снижает стоимость владения (TCO).

Особенности сервера YH001 PCIe Server 384GB

• Стандартный PCIe формат - интеграция без модификации серверного шасси

• 384 ГБ VRAM - достаточно для inference Llama 3 70B в INT8 (~80-100 ГБ) или batch inference

Ключевые особенности архитектуры Yiren

Платформа YH001 PCIe Server базируется на современной облачной архитектуре RISC-V, что обеспечивает ей технологическую автономность. В одном шасси объединены восемь ускорителей YH001, каждый из которых оснащён 48 ГБ видеопамяти (итого 384 ГБ). Система специально оптимизирована для эффективного выполнения задач с моделями семейства DeepSeek, используя специализированные матричные процессоры для архитектур типа Transformer. Благодаря поддержке вычислений в форматах FP8 и INT4, сервер демонстрирует высокую плотность производительности при низком энергопотреблении. Стандартный форм-фактор PCIe позволяет легко интегрировать устройство в существующие дата центры.

Виртуализация GPU

Архитектура рассчитана на создание масштабируемых кластеров искусственного интеллекта без привязки к экосистеме CUDA, используя собственный протокол связи YHLink, что указывает на развитые механизмы распределения ресурсов.

Удалённый мониторинг

В наличии контроллер управления платой (BMC), поддержки протокола IPMI.

Оптимизация фреймворков машинного обучения

Данная платформа ориентирована на задачи инференса и обучения сложных нейросетей. Поставщики подтверждают возможность поставки систем с готовым набором инструментов (CUDA, WebUI и др.). Архитектура YH001 целенаправленно разрабатывалась для ускорения нагрузок в сфере HPC и работы с большими языковыми моделями (LLM).

Предварительная оценка производительности сервера YH001 PCIe Server 384GB

Inference Large Language Models (LLM)

· Llama 2/3 8B, FP16: ~150-250 tok/s (single GPU);

· Llama 2/3 70B, FP16: ~20-40 tok/s (8-GPU, tensor parallel);

· Llama 3 70B, INT8: ~30-60 tok/s;

· Llama 3 405B, INT8: требует >8 GPU;

· Mixtral 8x22B, INT8: ~15-30 tok/s (8-GPU).

Training / Fine-tuning:

· Full fine-tuning 7B model (Возможен. Зависит от tensor/core performance);

· LoRA fine-tuning 70B (Возможен. Зависит от tensor/core performance);

· Pre-training (Возможен. Inference-ориентированная платформа).

Сравнение с аналогами

Huawei Ascend 910B - VRAM: 64GB; Инференс 70B: Высокий; Оценка позиционирования: Лидер китайского рынка;

MetaX C550 - VRAM: 64GB; Инференс 70B: Высокий; Оценка позиционирования: Production ready;

Moore Threads S4000 - VRAM: 48GB; Инференс 70B: Высокий; Оценка позиционирования: MUSA stack есть ограничения;

Iluvatar BiV100 - VRAM: 32GB; Инференс 70B: Средний; Оценка позиционирования: Стабильный стек;

YH001 - VRAM: 48GB; Инференс 70B: Средний; Оценка позиционирования: новый стек.

Вывод по производительности: Конфигурация 8×48 ГБ - хороший баланс для inference малых и средних LLM (до 70B параметров).

Под какие задачи можно использовать сервер

· LLM Inference (7B - 70B) (Чат-боты, RAG системы, AI ассистенты) - 384 GB VRAM позволяет inference больших моделей;

· Batch Inference (Обработка больших массивов данных) - Параллельная обработка на 8 GPU;

· Мультимодальные модели (Обработка изображений + текст) - Достаточно VRAM для средних моделей;

· Fine-tuning (LoRA, QLoRA) (Адаптация моделей под бизнес) - 384 GB позволяет fine-tune 70B-моделей;

· Компьютерное зрение (Classification, detection, segmentation) - Стандартная задача для GPU;

· Мультитенантная платформа AI платформа (Несколько моделей на одном сервере) - 8 GPU × 48 GB = гибкое распределение;

· Полный fine-tuning 70B+ (Полное обучение больших моделей) – Не быстро без тензорных ядер;

· Video generation / Diffusion (Stable Video, Sora-like) - Зависит от FP16/BF16 performance.

В каких проектах уже используется

Yiren Semiconductor - участник китайской экосистемы AI ускорителей, но менее известен чем Huawei, MetaX, Moore Threads

В каких проектах целесообразно использовать

Обучение и инференс крупных языковых моделей (LLM)

Сервер оптимизирован для работы с моделями серии DeepSeek, что указывает на его целевое использование в проектах по обработке естественного языка (NLP) и созданию собственных LLM решений. Суммарный объём видеопамяти (384 ГБ) позволяет работать с очень большими контекстными окнами и сложными трансформерными архитектурами.

HPC приложения

Платформа предназначена для высокопроизводительных вычислений, что подразумевает её применение в научных исследованиях, инженерных расчётах и других задачах, требующих высокой вычислительной плотности.

Масштабируемые AI кластеры

Архитектура поддерживает создание кластеров без использования технологии CUDA через собственный интерфейс YHLink. Это основной сценарий для построения корпоративной ИИ инфраструктуры в облачных дата центрах, где требуется независимость от западных проприетарных технологий.

Рейтинг сервера

Производительность (estimate) (★★★☆☆);

Зрелость ПО стека (★★★★☆) - Yiren моложе Huawei/Moore Threads/MetaX;

Надёжность/стабильность (★★★☆☆);

Соотношение цена/производительность (★★★☆☆);

Доступность в РФ (★★★★☆) - В портфолио ChaiTex;

Объём VRAM (★★★★☆) - Хорошо для inference

Энергоэффективность (★★★☆☆);

Поддержка/сервис (★★★★★);

Общий рейтинг: 3,8/5

Позиционирование среди китайских GPU серверов

YH001 PCIe Server - GPU: YH001; VRAM - 384 GB; Статус - Реализация; Зрелость - Низкая;

Huawei Atlas 800 - GPU: Ascend 910B; VRAM - 512-1024 GB; Статус – Production; Зрелость - Высокая;

MetaX C550 Server - GPU: C550; VRAM - 512 GB; Статус - Production; Зрелость - Высокая;

Moore Threads D800 - GPU: S4000; VRAM - 384 GB; Статус - Production; Зрелость – Средняя;

Iluvatar BiV150 Serve - GPU: BiV150; VRAM - 512 GB; Статус - Production; Зрелость - Средняя;

Inspur NF5468M7 - GPU: Mixed; VRAM - 512 GB; Статус - Production; Зрелость – Высокая.

Энергоэффективность

Благодаря поддержке форматов FP8 и INT4, сервер обеспечивает значительный рост вычислительной плотности и энергоэффективности для корпоративных ИИ приложений. Это достигается за счёт того, что данные форматы требуют меньшей разрядности для представления чисел по сравнению со стандартным FP16 или FP32, что позволяет выполнять больше операций при меньшем энергопотреблении и тепловыделении.

Сервер предназначен для высоконагруженного инференса (развёртывания моделей) и до обучения (fine-tuning), где соотношение производительности на ватт является критически важным показателем. Использование матричных процессоров, оптимизированных под архитектуру Transformer, дополнительно способствует ускорению вычислений при снижении энергозатрат.

Таким образом, основное преимущество YH001 с точки зрения энергоэффективности заключается не столько в абсолютном значении потребляемой мощности, сколько в существенном увеличении вычислительной плотности на единицу энергии за счёт архитектурных особенностей и поддержки эффективных форматов данных.

8× GPU YH001: Мощность: 2000 - 2800 W (Если TDP ~250-350W на карту);

2× CPU Xeon: Мощность: 300 - 400 W (Стандартная оценка);

RAM + Storage: Мощность: 100 - 150 W (Стандартная оценка);

Cooling / Overhead: Мощность: 100 - 150 W (Стандартная оценка);

Итого (estimate): Мощность: ~2700 - 3850 W;

PUE (estimate): Мощность: 1.15 - 1.3.

Тепловой пакет (TDP) и энергопотребление

Официальные технические спецификации сервера YH001 PCIe Server 384GB не содержат точных данных о TDP отдельных ускорителей YH001. Производители акцентируют внимание на том, что поддержка вычислений в форматах FP8/INT4 значительно повышает энергоэффективность платформы. Для понимания контекста: аналогичные серверы с GPU от NVIDIA (A100, H100) имеют тепловой пакет одной карты в диапазоне 250–350 Вт, а шасси с восемью такими ускорителями может потреблять до 2.9 кВт. Полноразмерные системы (например, Dell PowerEdge XE9680) с восемью картами H100 достигают пикового потребления около 11.5 кВт, что свидетельствует о высоких требованиях к питанию для подобных платформ.

Производительность на Ватт (Performance per Watt)

В открытых источниках отсутствуют конкретные бенчмарки, измеряющие производительность YH001 в соотношении «токенов в секунду на ватт». Заявленная эффективность архитектуры базируется на использовании форматов пониженной точности (FP8/INT4), которые позволяют выполнять больший объём вычислений при меньших энергозатратах по сравнению со стандартным FP16. Это ключевое преимущество для задач инференса, где важна высокая пропускная способность на единицу затраченной энергии.

Сравнение с конкурентами (NVIDIA A100 / H100)

Публичных сравнительных тестов между YH001 и решениями NVIDIA обнаружить не удалось. Аналитика рынка показывает, что флагманские ускорители NVIDIA H100 обеспечивают прирост производительности над предыдущим поколением (~4.5 раза) за счёт поддержки FP8 и высокой скорости памяти, однако их стоимость существенно выше. Платформа YH001 позиционируется как суверенное решение, независимое от западных экосистем, оптимизированное под модели серии DeepSeek и использующее собственный интерконнект YHLink для построения кластеров без CUDA. Выбор оборудования зависит от совокупности факторов: объёма видеопамяти, скорости межсоединений и общей стоимости владения (TCO).

Требования к системе охлаждения

Учитывая наличие восьми высокопроизводительных ускорителей, система требует организации мощного теплоотвода. Корпус сервера должен быть спроектирован специально для установки пассивных видеокарт и обеспечивать принудительный обдув зоны графических процессоров. При развёртывании необходимо убедиться, что серверная стойка способна обеспечить достаточный воздушный поток и имеет запас мощности блока питания. Эксплуатация таких плотных конфигураций - это задача уровня проектирования целой GPU платформы, требующая строгого соблюдения инженерных норм.

Выводы и заключения

Сервер YH001 PCIe Server 384GB является перспективным решением для построения суверенной ИИ инфраструктуры. Сервер ориентирован на корпоративный сегмент и задачи инференса больших языковых моделей. Ключевым преимуществом платформы выступает технологическая автономность: использование архитектуры RISC-V, собственных протоколов связи YHLink и независимость от экосистемы CUDA позволяют создавать масштабируемые кластеры без привязки к западным проприетарным технологиям.

Суммарный объём видеопамяти в 384 ГБ (по 48 ГБ на ускоритель) обеспечивает уникальную гибкость, позволяя запускать сложные модели вроде Llama 2/3 70B целиком на одном физическом узле без необходимости распределять вычисления, что значительно упрощает инфраструктуру дата центров. Глубокая оптимизация под трансформерные архитектуры и модели серии DeepSeek, а также поддержка современных форматов вычислений (FP8, INT4) гарантируют высокий баланс производительности и энергоэффективности, критически важный для снижения стоимости владения.

· Конфигурация 8×48 ГБ = 384 ГБ VRAM - хороший баланс для inference LLM до 70B параметров.

· Стандартный PCIe формат - упрощает интеграцию.

Несмотря на сильные аппаратные характеристики, платформа имеет статус нового стека с низкой зрелостью программного обеспечения по сравнению с лидерами рынка, такими как Huawei или MetaX. Производительность сервера оценивается как средняя для задач инференса моделей до 70 млрд параметров, при этом полный fine-tuning сверхкрупных моделей может быть ограничен из-за специфики тензорных ядер. Тем не менее, стандартная шина PCIe и развитая виртуализация GPU обеспечивают бесшовную интеграцию в существующую среду, делая сервер привлекательным выбором для компаний, ищущих альтернативу закрытым экосистемам для внедрения чат-ботов, RAG систем и других AI ассистентов.