+38/050/370-3627
+38/067/502-3306
+38/044/257-2444
Новости

NVIDIA анонсировала восьмое поколение TensorRT

NVIDIA анонсировала восьмое поколение TensorRT

Восьмое поколение TensorRT должно ещё больше ускорить и облегчить процесс разработки. Компания активно продвигает свои решения в мире инференс-систем и за последние несколько месяцев объявила о существенном увеличении контрактов на построение «умных» рекомендательных систем. 

Количество голосовых помощников год от года увеличивается ударными темпами, но от них также требуется и качество — вряд ли кому-то понравится бот или сервис рекомендаций, не способный справляться со своими обязанностями. Разработки NVIDIA, от компактных плат Jetson до сверхмощных ускорителей A100, позволяют создавать действительно мощные инференс-системы для такого рода задач, но без сопутствующих средств разработки они бесполезны.

Предыдущее, седьмое поколение инференс-платформы TensorRT, позволило достичь десятикратного ускорения в диалоговых приложениях по сравнению с их запуском на классических процессорах. В новой, анонсированной только что восьмой версии, NVIDIA продолжила дальнейшую оптимизацию TensorRT.

Изменения в новом пакете присутствуют как количественные — производительность выросла вдвое в сравнении с TensorRT 7, — так и качественные — появилась поддержка особенностей архитектуры Ampere и новой технологии Quantization Aware Training (QAT). Помимо чистой производительности также снизилась латентность, теперь минимальное её значение составляет всего 1,2 мс.

Из качественных нововведений первым пунктом следует отметить оптимизацию для работы в режиме Sparsity, в котором редуцируются незначащие параметры, практически не влияющие на результат. TensorRT 8 позволяет не затрачивать существенные ресурсы в таких случаях, экономя как вычислительные такты, так и сохраняя память для более важных данных. Технология QAT же позволяет существенно поднять точность вычислений в режиме INT8 на ускорителях NVIDIA с архитектурой Ampere.

Другие новости