Эстонский стартап Backprop, специализирующийся на облачных GPU-сервисах, провел неожиданное исследование . Компания выяснила, что для обслуживания больших языковых моделей (LLM) вовсе не обязательно использовать дорогостоящие серверные графические процессоры. Оказалось, что с этой задачей вполне справляется потребительская видеокарта NVIDIA RTX 3090, которой в этом году исполнилось уже 4 года. Специалисты Backprop продемонстрировали, как одна такая карта может обрабатывать более 100 одновременных запросов к модели Llama 3.1 8B с точностью FP16, сохраняя при этом приемлемую эффективность. Учитывая, что лишь небольшая часть людей делает запросы одновременно, компания утверждает, что одна RTX 3090 способна обслуживать тысячи конечных пользователей. RTX 3090, выпущенная в конце 2020 года, обладает впечатляющими характеристиками для работы с LLM. Она предлагает 142 терафлопс производительности в FP16 и обеспечивает пропускную способность памяти 936 ГБ/с. Кристо Ояcаар, соучредитель Backprop, отметил: для получения эквивалентной производительности в терафлопсах на серверном оборудовании потребовались бы значительно более дорогие инструменты. Однако у RTX 3090 есть ограничение – объем памяти в 24 ГБ GDDR6x, что не позволяет запускать более крупные модели, такие как Llama 3 70B или Mistral Large, даже при квантовании до 4 или 8 бит. Тестирование проводилось с использованием популярного фреймворка vLLM, широко применяемого для запуска LLM на нескольких GPU. В бенчмарке, симулирующем 100 одновременных пользователей, карта смогла обслуживать модель со скоростью 12,88 токенов в секунду для каждого компьютера. Это быстрее, чем средняя скорость чтения человека (около пяти слов в секунду), и превышает минимально приемлемую скорость генерации для ИИ-чатботов (10 токенов в секунду). Стоит отметить, что тестирование Backprop проводилось с относительно короткими запросами и максимальным выводом всего в 100 токенов. Это означает, что результаты больше соответствуют производительности, ожидаемой от чатбота службы поддержки клиентов, чем от приложения для суммаризации текстов. В ходе дальнейших тестов с использованием флага –use_long_context в наборе бенчмарков vLLM и с запросами длиной 200-300 токенов, RTX 3090 все еще достигала приемлемой скорости генерации около 11 токенов в секунду. Исследование Backprop демонстрирует важность анализа производительности и правильного подбора ресурсов для конкретной задачи. Ояcаар отмечает: маркетинговые стратегии крупных облачных провайдеров часто создает впечатление, будто для масштабирования необходимы управляемые сервисы или инвестиции в специфические технологии, но это, как оказалось, не всегда так. Для пользователей, которым требуется масштабирование до более крупных моделей, более высокой пропускной способности или размеров батча, Backprop планирует развернуть карты A100 PCIe с 40 ГБ памяти HBM2e. Хотя они тоже не самые новые, возможность использования технологии multi-instance-GPU для разделения одного ускорителя на несколько виртуальных устройств представляет возможность дальнейшего снижения затрат для энтузиастов и экспериментаторов.