+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новини

Baidu представила першу версію ERNIE (Enhanced Representation through kNowledge IntEgration), нового фреймворку та моделі для обробки природної мови (Natural Language Processing — NLP)

Baidu представила першу версію ERNIE (Enhanced Representation through kNowledge IntEgration), нового фреймворку та моделі для обробки природної мови (Natural Language Processing — NLP)

Baidu представила першу версію ERNIE (Enhanced Representation through kNowledge IntEgration), нового фреймворку та моделі для обробки природної мови (Natural Language Processing — NLP), який підняв справжню хвилю в спільноті розробників NLP-систем, випередивши Google BERT from Transformers) у різних завданнях з аналізу текстів китайською мовою. Тепер Baidu повідомила про випуск нової версії моделі - ERNIE 2.0. У своїй дослідницькій роботі вчені з Baidu стверджують, що ERNIE 2.0 перевершує моделі BERT та більш сучасну XLNet у 16 ​​завданнях NLP китайською та англійською мовами.

ERNIE є попередньо навченою нейронною мережею, створеною за допомогою PaddlePaddle — відкритої платформи для глибокого навчання, створеної в Baidu. Процес попереднього навчання NLP-моделей, таких як BERT, XLNet і ERNIE, в основному базується на кількох простих завданнях, що моделюють використання слів або речень з урахуванням їх зв'язку та семантики. Наприклад, BERT використовує модель двонаправленої мови (bidirectional language model) і завдання прогнозування наступної пропозиції, щоб отримати інформацію про збіги, а XLNet застосовує модель мовних перестановок (permutation language model).

Але крім порядку слів та їх зв'язку, у лінгвістичних системах є набагато складніша лексична, синтаксична та семантична інформація. Наприклад, різні назва та власні імена — імена людей, географічні назви та назви організацій - містять концептуально важливу інформацію. У той же час інформація про порядок та послідовність речень дає можливість NLP-моделям вивчати мовні конструкції з урахуванням їхньої структури, а семантична схожість та логічні зв'язки між пропозиціями дозволяють досліджувати семантичні мовні правила. Таким чином, мовним моделям для максимальної точності та продуктивності необхідно враховувати як мінімум три зазначені підходи. І дослідники Baidu запитали: «Чи можливо використовувати їх паралельно і безперервно?».

Грунтуючись на цій ідеї, вони запропонували структуру для безперервного навчання моделі розуміння мови, в якій завдання попереднього навчання можуть створюватися в будь-який момент і виконуватися за рахунок закладеної багатозадачності для навчання та кодування лексичної, синтаксичної та семантичної інформації між ними. І щоразу, коли додається нове завдання, ця структура може поступово навчати розподілені уявлення, не забуваючи раніше навчені параметри.

Команда Baidu порівняла продуктивність ERNIE 2.0 з іншими NLP-моделями для англійської мови на наборі даних GLUE і окремо на 9 популярних наборах для китайської мови. Результати показують, що ERNIE 2.0 перевершує BERT і XLNet у 7 завданнях на розуміння англійської мови і перевершує BERT по всіх 9 завданнях, коли справа стосується китайської, таких як машинне читання з використанням набору даних DuReader, семантичний аналіз та відповіді на запитання.

>

Щоб дізнатися більше про ERNIE 2.0, ви можете прочитати дослідну роботу англійською мовою, а вихідні коди та попередньо навчену модель можна завантажити з офіційної сторінки на GitHub.

Інші новини