Natural Language Understanding (NLU) Microsoft DeBERTa превзошел человеческие возможности
Алгоритм понимания естественного языка (Natural Language Understanding, NLU) Microsoft DeBERTa превзошел человеческие возможности в одном из самых сложных тестов для подобных алгоритмов SuperGLUE. На данный момент модель занимает первое место в рейтинге с показателем в 90,3, в то время как среднее значение человеческих возможностей составляет 89,8 баллов.
Тест SuperGLUE включает в себя ряд задач, которые разработаны для оценки способности ИИ-моделей распознавать и понимать естественный язык, например, дать правильный ответ на вопрос на базе прочитанного абзаца, определить, правильно ли используется многозначное слово в определенном контексте и т.д. Тест был разработан группой исследователей в 2019 году. Когда был представлен SuperGLUE, разрыв между самой эффективной моделью и показателями человека в таблице лидеров составлял почти 20 баллов.
Для того чтобы добиться текущего результата в 90,3 балла, DeBERTa получила масштабное обновление архитектуры: теперь она состоит из 48 слоев и имеет 1,5 млрд параметров. Microsoft сделает публичной модель и ее исходный код. Кроме того, DeBERTa будет интегрирована в следующую версию Тьюринговой модели Microsoft Turing (Turing NLRv4). Тьюринговые модели используются в таких продуктах Microsoft, как Bing, Office, Dynamics и Azure Cognitive Services, чтобы совершенствовать, к примеру, взаимодействие с чат-ботами, предоставление рекомендаций и ответов на вопросы, поиск, автоматизацию поддержки клиентов, создание контента и решение многих других задач на пользу сотен миллионов пользователей.
В отличие от других моделей, DeBERTa учитывает не только значения слов, но и их позиции и роли. К примеру, в предложении «a new store opened beside the new mall» (англ. «новый магазин открылся рядом с торговым центром») она может понять, что близкие по контекстному значению «store» («магазин») и «mall» («торговый центр») играют разные синтаксические роли (подлежащим здесь является именно «store»). Более того, она способна определять зависимость слов друг от друга. Например, DeBERTa понимает, что зависимость между словами «deep» и «learning» гораздо сильнее, когда они стоят рядом (термин «глубокое обучение»), чем когда они встречаются в разных предложениях.
Несмотря на то, что модель DeBERTa превзошла человеческие показатели в тесте SuperGLUE, это не означает, что ИИ-модель достигла уровня человека в понимании естественного языка. В отличии от машин, люди хорошо умеют использовать знания, ранее полученные при выполнении различных задач, для решения новых – это называется композиционным обобщением (англ. compositional generalization). Поэтому, несмотря на многообещающие результаты DeBERTa в тесте, необходимо продолжить исследования, для того чтобы развить у модели этот навык.
Microsoft активно работает над усовершенствованием технологий искусственного интеллекта. Так, в октябре 2020 года был представлен прогрессивный ИИ-алгоритм для автоматической генерации подписей к изображениям, которые во многих случаях оказываются более точными, чем написанные людьми. Это позволит сделать продукты и сервисы Microsoft еще более инклюзивными и доступными для большего количества пользователей. В первую очередь, автоматическое описание помогает людям с нарушениями зрения при работе с документами или веб-страницами, а также в целом позволяет получить доступ к содержимому любого изображения, к примеру, при поиске или подготовке презентаций.
Rank | Name | Model |
1 |
-
|
-
|
DeBERTa Team - Microsoft | DeBERTa / TuringNLRv4 | |
-
|
-
|
|
DeBERTa / TuringNLRv4 | ||
2 |
-
|
-
|
Zirui Wang | T5 + Meena, Single Model (Meena Team - Google Brain) | |
3 |
-
|
-
|
SuperGLUE Human Baselines | SuperGLUE Human Baselines | |
4 |
-
|
-
|
T5 Team - Google | T5 | |
5 |
-
|
-
|
Huawei Noah's Ark Lab | NEZHA-Plus | |
6 |
-
|
-
|
Alibaba PAI&ICBU | PAI Albert | |
7 |
-
|
-
|
Tencent Jarvis Lab | RoBERTa (ensemble) | |
8 |
-
|
-
|
Zhuiyi Technology | RoBERTa-mtl-adv | |
9 |
-
|
-
|
Infosys : DAWN : AI Research | RoBERTa-iCETS | |
10 |
-
|
-
|
Facebook AI | RoBERTa | |
11 |
-
|
-
|
Timo Schick | iPET (ALBERT) - Few-Shot (32 Examples) | |
12 |
-
|
-
|
Adrian de Wynter | Bort (Alexa AI) | |
13 |
-
|
-
|
IBM Research AI | BERT-mtl | |
14 |
-
|
-
|
Ben Mann | GPT-3 few-shot - OpenAI | |
15 |
-
|
-
|
SuperGLUE Baselines | BERT++ | |
-
|
-
|
|
BERT | ||
-
|
-
|
|
Most Frequent Class | ||
-
|
-
|
|
CBoW | ||
-
|
-
|
|
Outside Best | ||
16 |
-
|
-
|
Anuar Sharafudinov | AILabs (Transfer learning) | |
- |
-
|
-
|
Stanford Hazy Research | Snorkel [SuperGLUE v1.9] |