Процессинг Samsung в области технологий памяти на выставке Hot Chips 2023

На выставке Hot Chips 2023 (35) Samsung снова рассказывает о своей обработке в памяти (PIM) с новыми исследованиями и новым поворотом. Мы уже рассматривали это ранее, например, в наших Hot Chips 33 Samsung HBM2-PIM и Aquabolt-XL. Теперь Samsung демонстрирует это в контексте искусственного интеллекта.

Поскольку все происходит в прямом эфире из зала, прошу извинить за опечатки. Hot Chips – это сумасшедший темп.

Одна из самых больших затрат в вычислениях — это перемещение данных из разных мест хранения и памяти в реальные вычислительные механизмы.

В настоящее время компании пытаются добавить больше линий или каналов для разных типов памяти. Это имеет свои пределы.

Samsung обсуждает CXL. CXL помогает, поскольку позволяет переназначать провода для PCIe, чтобы обеспечить большую пропускную способность памяти. Мы собираемся обсудить больше об устройствах CXL Type-3 в будущем на STH и уже рассказывали о них несколько раз.

Samsung обсуждает узкие места GPT.

Samsung имеет профилирование GPT для вычислительных задач и рабочих нагрузок, связанных с памятью.

Вот еще немного о работе по профилированию с точки зрения использования и времени выполнения.

Samsung показывает, как части вычислительного конвейера можно разгрузить на модули обработки в памяти (PIM).

Выполнение обработки в модуле памяти вместо ускорителя экономит перемещение данных, снижая энергопотребление и затраты на межсоединение.

Пока SK hynix говорила о GDDR6 для своего решения, Samsung демонстрирует свою высокоскоростную память HBM-PIM. Мы собираемся показать HBM на процессорах Intel Xeon MAX примерно на следующей неделе на STH, но этот новый тип памяти не используется.

Судя по всему, у Samsung и AMD были MI100 с HBM-PIM вместо стандартного PIM, чтобы они могли построить кластер, который мог бы иметь что-то вроде кластера с 12 узлами и 8 ускорителями для опробования новой памяти.

Вот как модель T5-MoE использует HBM-PIM в кластере.

Вот прирост производительности и энергоэффективности.

Большая часть этого также заключается в том, как заставить модули PIM выполнять полезную работу. Это требует работы над программным обеспечением для программирования и использования модулей PIM.

Samsung надеется получить это встроенное в стандартные программные модули.

Вот будущее состояние OneMCC для вычислений с памятью, но это похоже на будущее, а не на текущее состояние.

Похоже, Samsung демонстрирует не только HBM-PIM, но и LPDDR-PIM. Как и все сегодня, ему нужен ярлык «Генеративный ИИ».

Похоже, это скорее концепция, а не HBM-PIM, который используется на AMD MI100 в кластере.

Внутренняя пропускная способность LPDDR-PIM составляет всего 102,4 ГБ/с, но идея состоит в том, что сохранение вычислений в модуле памяти означает снижение энергопотребления за счет отсутствия необходимости передавать данные обратно в ЦП или xPU.

Вот архитектура с банками PIM и DRAM на модуле.

Вот как выглядит анализ производительности и мощности возможных модулей LP5-PIM.

Если HBM-PIM и LPDDR-PIM недостаточно, Samsung рассматривает возможность размещения вычислений на модулях CXL в PNM-CXL.

Идея заключается в том, чтобы не просто разместить память в модулях CXL Type-3. Вместо этого Samsung предлагает разместить вычисления в модуле CXL. Это можно сделать либо добавив вычислительный элемент в модуль CXL и используя стандартную память, либо используя PIM на модулях и более стандартный контроллер CXL.

Конечно, у нас есть демонстрация того, как это помогает генеративному ИИ со стороны GPT.

У Samsung есть концептуальная карта CXL-PNM емкостью 512 ГБ с пропускной способностью до 1,1 ТБ/с.

Вот предлагаемый Samsung программный стек CXL-PNM.

Вот ожидаемая экономия энергии и пропускная способность для крупномасштабных рабочих нагрузок LLM. CXL обычно использует провода, также используемые для PCIe, поэтому затраты энергии на передачу данных очень высоки. В результате есть большая выгода, если можно избежать такой передачи данных.

Samsung также уделяет особое внимание сокращению выбросов в результате вышеизложенного.

Ранее сегодня компания Google выступила с большим докладом о выбросах CO2 при использовании ИИ-вычислений. Мы планируем рассказать об этом позже на этой неделе на STH.