Бенчмарк инференса LLM: 8 моделей на Xeon CPU vs RTX 4090 GPU

Reading time: 2 minutes

Last modified:

Illustration

27 июля 2024 года мы провели локальный бенчмарк инференса восьми популярных LLM с открытыми весами на конфигурации Xeon E5-2680 + RTX 4090 с использованием Ollama. Вот результаты.

Конфигурация стенда

  • Дата: 27 июля 2024
  • Платформа: Xeon E5-2680 CPU, 64 ГБ RAM, GPU RTX4090 24 ГБ
  • Провайдер: Ollama
  • Тестируемые модели:
    • phi3 (3,8B параметров)
    • mistral (7B параметров)
    • mixtral (8×7B параметров)
    • aya (8B параметров)
    • qwen2 (7B параметров)
    • llama3 (8B параметров)
    • llama3-gradient (8B параметров)
    • llama3.1 (8B параметров)

Ключевые результаты

  • Самая быстрая модель: phi3

    • Токенов в секунду: 181,73
    • Общее время: 4,48 с
  • Самая медленная модель: mixtral

    • Токенов в секунду: 20,90
    • Общее время: 33,29 с
  • Рейтинг скорости (от быстрой к медленной):

    • phi3 > mistral > llama3.1 > llama3 > qwen2 > llama3-gradient > aya > mixtral

Анализ

phi3 быстра потому, что компактна. При 3,8B параметров модель полностью умещается в VRAM с запасом — нет узкого места по пропускной способности памяти и нет накладных расходов на квантизацию на этом уровне. Для приложений с жёсткими требованиями к задержке — реальный чат, инлайн-дополнение, интерактивные инструменты — phi3 конкурирует с моделями вдвое крупнее при трети стоимости по токенам/секунду.

Штраф за скорость у mixtral — архитектурный. Дизайн mixture-of-experts 8×7B активирует примерно 12B параметров на один проход (два эксперта из семи), а не все 56B, но маршрутизация и раскладка памяти всё равно сильнее бьют по пропускной способности инференса, чем плотная 7B-модель. При 20,9 токен/с модель работоспособна, но задержку нужно учитывать.

7–8B-модели расходятся больше, чем ожидалось. mistral (105,1 токен/с) обгоняет llama3 (79,5 токен/с) при одинаковом числе параметров. Архитектура и выбор квантизации важнее размера в этом диапазоне. Тестируйте конкретную модель, а не используйте число параметров как прокси для скорости.

llama3.1 быстрее llama3 и llama3-gradient. Версия 3.1 поставляется с улучшенными целями квантизации по умолчанию, что напрямую отражается на пропускной способности инференса. Если работаете с семейством Llama — используйте самую свежую стабильную версию.

Контекст аппаратуры важен. Эти цифры привязаны к конкретной конфигурации: RTX 4090 с 24 ГБ VRAM, 64 ГБ системной RAM, Ollama в роли среды выполнения. Объём памяти GPU — доминирующая переменная для моделей этого размера. Карта на 16 ГБ даст другой порядок в рейтинге, особенно для mixtral, которая может частично выгружаться на CPU.

Выбирайте модель исходя из бюджета задержки и характера задачи. Для реального времени — phi3 или mistral. Для задач, допускающих высокую задержку и требующих более сложного рассуждения, — llama3.1 или mixtral.

Полный отчёт доступен на LinkedIn: https://www.linkedin.com/posts/cimpleo_llm-inference-benchmark-xeon-e5-268064gb-activity-7224005179635818497-7NDZ

Table of Contents