+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новини

NVIDIA анонсувала програмне забезпечення TensorRT-LLM для прискорення виконання великих мовних моделей

NVIDIA анонсувала програмне забезпечення TensorRT-LLM для прискорення виконання великих мовних моделей

NVIDIA анонсувала програмне забезпечення TensorRT-LLM спеціально розроблене для прискорення виконання великих мовних моделей (LLM). Платформа стане доступною найближчими тижнями. NVIDIA тісно співпрацює Meta, Anyscale, Cohere, Deci, Grammarly, Mistral AI, MosaicML (входить до складу Databricks), OctoML, Tabnine та Together AI, для прискорення та оптимізації LLM. Однак великий розмір та унікальні характеристики LLM можуть ускладнити їхнє ефективне впровадження. Бібліотека TensorRT-LLM таки покликана вирішити проблему.

TensorRT-LLM включає компілятор глибокого навчання TensorRT, оптимізовані ядра (kernel), інструменти попередньої та постобробки, а також компоненти для підвищення продуктивності на прискорювачах NVIDIA. Платформа дозволяє розробникам експериментувати з новими LLM, не вимагаючи глибокого знання C++ або CUDA. Застосовується відкритий модульний API Python для визначення, оптимізації та виконання нових архітектур та впровадження удосконалень у міру розвитку LLM.
 
За оцінками NVIDIA, застосування TensorRT-LLM дозволяє вдвічі збільшити продуктивність прискорювача H100 у тесті GPT-J 6B (входить до складу MLPerf Inference v3.1). При використанні моделі Llama2 приріст швидкодії порівняно з А100 сягає 4,6x. TensorRT-LLM вже включає повністю оптимізовані версії багатьох популярних LLM, включаючи Meta✴ Llama 2, OpenAI GPT-2 та GPT-3, Falcon, Mosaic MPT, BLOOM та ін.
 
TensorRT-LLM використовує тензорний паралелізм - тип паралелізму моделей, при якому окремі вагові матриці поділяються між пристроями. При цьому TensorRT-LLM автоматично розподіляє навантаження між декількома прискорювачами, пов'язаними з NVLink, або множинними вузлами, об'єднаними NVIDIA Quantum 2 InfiniBand. Це дозволяє легко масштабувати завдання інференсу з одного прискорювача до стійки.
 
Для управління навантаженнями TensorRT-LLM використовує спеціальний метод планування - пакетну обробку в реальному часі, яка дозволяє асинхронно обслуговувати безліч дрібних запитів спільно з одиничними великими на тому самому прискорювачі. Ця функція доступна всім актуальних прискорювачів NVIDIA, причому саме вона дає дворазовий приріст продуктивності інференсу у разі H100.
 
TensorRT-LLM активно використовує можливості Transformer Engine, що дозволяє динамічно привести обчислення до FP8-формату, що прискорює та обробку та знижує споживання пам'яті без погіршення точності підсумкового результату. Одна ця функція дозволяє досягти чотириразового приросту швидкодії H100 у порівнянні з A100.

Інші новини