+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новини

Google опублікувала дослідження трендів машинного навчання

Google опублікував дослідження тенденцій машинного навчання

Тренд 1. Більш потужні моделі МН загального призначення

Зараз дослідники працюють з більшими, більш потужними моделями машинного навчання. Наприклад, в області лінгвістики кілька років тому моделі з мільярдними параметрами проходили навчання на десятках мільярдів сегментів даних. Сьогодні трильйони сегментів даних навчені моделями з сотнями мільярдів або навіть трильйонів параметрів (наприклад, розріджені нейронні мережі, такі як наша модель GShard з параметрами 600 млрд). Зростання обсягу даних і розмірів самих моделей сприяло значному підвищенню точності різних мовних завдань.

Багато з цих передових моделей показали дивовижну здатність до узагальнення, що дозволяє виконувати нові мовні завдання. Як приклад можна розглянути нашу технологію LaMDA, в якій модель демонструє нетривіальну здатність вести відкритий діалог, не втрачаючи нитки розмови навіть при багаторазових змінах теми. 

Моделі трансформерів грають велику роль в області розпізнавання зображень, відео і мови. Як і передбачалося в роботі над моделями масштабування моделей Vision Transformer, моделі трансформаторів значно виграють від їх масштабування. Трансформери, які розпізнають зображення та класифікують відео, багато в чому лідирують. Раніше ми демонстрували, що додавання зображень до відео під час навчання моделям у розпізнаванні може покращити їхню продуктивність, особливо якщо порівнювати з моделями, які тренувалися лише на відеоматеріалах. Для трансформаторів, що працюють із зображеннями і відео, були розроблені розріджені осьові механізми уваги, що дозволило більш ефективно використовувати обчислювальні потужності. Методи токенізації зображень для моделей Vision Transformer також були вдосконалені, і тепер ми краще розуміємо, як моделі Vision Transformer працюють за допомогою порівняльного аналізу їх роботи з згортковою нейронною мережею. Впровадження згорткових операцій в трансформаторах позитивно вплинуло на здатність цих моделей виконувати завдання з розпізнавання візуального зображення і розпізнавання мови.

Також значно підвищується якість вихідних даних генеративних моделей. За останні кілька років ці моделі досягли значних успіхів, навчившись створювати реалістичні образи на основі тільки опису (наприклад, «ірландський сетер» або «трамвай»). Вони можуть навіть «скласти» зображення з низькою роздільною здатністю, створивши цілком природний екземпляр з високою роздільною здатністю («Комп'ютер, поліпши якість!») або створити «нескінченну природу» – генерувати природні панорами з одного зображення. Також зображення можуть бути перетворені в послідовність окремих фрагментів, які потім можуть бути синтезовані з високою чіткістю за допомогою ауторегресійної генеративної моделі.

Ми бачимо в цих розробках не тільки потужний потенціал, а й велику відповідальність, тому ретельно підбираємо можливі сценарії використання таких моделей відповідно до принципів застосування штучного інтелекту.

Крім просунутих одномодальних моделей, починають з'являтися масштабні мультимодальні моделі. На сьогоднішній день це одні з найбільш просунутих нейронних мереж, так як вони здатні не тільки розуміти різні модальності (наприклад, мову, образи, мова, відео), але і давати в них результат: наприклад, генерувати зображення на основі пропозицій або абзаців або давати чіткий опис візуальної складової зображення. Це неймовірно цікаво, адже, як і в звичайному житті, багато речей легше сприймаються відразу в декількох форматах (наприклад, набагато ефективніше не тільки прочитати про щось, але і подивитися презентацію про це). Тому супровідний текст із зображеннями може допомогти з витягом багатомовної інформації, а більш чітке розуміння того, як поєднувати текст і зображення на етапі введення, поліпшить підписи зображень. Аналогічно, використання як графічних, так і текстових даних для навчання може підвищити точність і надійність завдань візуальної класифікації, в той час як  поєднання навчання графічним, відео- і аудіоматеріалам підвищує здатність моделі узагальнювати всі модальності. Крім того, є припущення, що природна мова використовується для маніпулювання зображеннями, для навчання роботів взаємодії зі світом і управління програмними системами. Не виключено, що до розробки призначених для користувача інтерфейсів надходять зміни.

Все це свідчить про те, що незабаром ми зможемо тренувати високопродуктивні моделі загального призначення, здатні обробляти кілька модальностей даних і вирішувати тисячі або мільйони завдань. Домогтися більш високої ефективності мультимодальних моделей можна, якщо вони забезпечують розрідженість, щоб для виконання конкретного завдання активувалися тільки найбільш підходящі деталі моделі. Протягом наступних кількох років ми будемо реалізовувати це бачення в новій архітектурі штучного інтелекту – Pathways. Ми очікуємо значного прогресу в цій сфері, оскільки багато ідей, які до цього часу були розроблені відносно незалежно, будуть об'єднані.

Тенденція 2. Підвищення ефективності машинного навчання

Підвищення ефективності, обумовлене досягненнями в розробці комп'ютерного обладнання, вдосконаленням алгоритмів MН і дослідженнями в області метанавчання, розширюють можливості моделей машинного навчання. Багато аспектів процесу розробки МН - від апаратного забезпечення, на якому навчається і працює модель, до окремих компонентів архітектури MН - можна зробити більш ефективними при збереженні або навіть поліпшенні загальної продуктивності моделі. У порівнянні з попередніми роками, тепер можна витрачати менше ресурсів на кожен аспект, а також скорочувати викиди еквівалента CO2 ( CO2e). Підвищення ефективності призвело до ряду проривних досягнень, які проклали шлях до подальшої оптимізації МН. Це дозволить розробити ще більш амбітні, якісні та доступні моделі з меншими фінансовими витратами. Я вважаю, що цей напрямок досліджень є дуже перспективним.

Продовжуйте працювати над поліпшенням продуктивності прискорювачів МН

Кожне нове покоління прискорювачів машинного навчання краще попереднього. Мікросхеми стають все більш продуктивними, а масштаби систем збільшуються. У минулому році було анонсовано четверте покоління тензорних процесорів TPUv4, які  в 2,7 рази продуктивніше TPUv3 в тестах MLPerf.

Покращення компіляції та оптимізація робочих навантажень МН

Навіть якщо апаратне забезпечення не змінилося, поліпшення компіляторів та інші оптимізації системного програмного забезпечення прискорювачів МН можуть привести до значного підвищення ефективності. Наприклад, «Гнучкий підхід до автонастройки багатопрохідних компіляторів машинного навчання» показує, як застосовувати ML при виконанні автонастройки параметрів компіляції, щоб отримати 5-15% приросту продуктивності в ML-наборі програм без зміни апаратної конфігурації (іноді при 2,4-кратному збільшенні продуктивності). Система автоматичного розпаралелювання на базі компілятора XLA GSPMD здатна масштабувати більшість архітектур мережі глибокого навчання, не обмежуючись обсягом прискорювача MН. Застосування такої системи в великих моделях, таких як  GShard-M4, LaMDA, BigSSL, ViT, MetNet-2 і GLaM, дозволило досягти видатних результатів в різних ml-додатках.

Наш активний пошук можливостей для вдосконалення архітектури та алгоритмів моделей МН, включаючи навчання з підкріпленням та еволюційні методи, надихнув інших фахівців на проведення досліджень у своїх сферах діяльності. Щоб допомогти їм у цьому, ми відкрили вільний доступ до платформи Model Search, яка дозволяє шукати параметри моделі в інших областях.

Представляємо розрідженість

Розрідженість має на увазі, що при навчанні на прикладі або на фрагменті даних або при виконанні певного завдання активується тільки найбільш підходяща частина моделі високої потужності. Це важливе алгоритмічне вдосконалення дозволяє значно підвищити продуктивність. Проект GLaM показав, що шляхом об'єднання трансформаторів і технології комбінування вузькоспеціалізованих шарів можна створити модель, яка в середньому перевищує точність нейронної мережі GPT-3 в 29 бенчмарках і при цьому використовує в 3 рази менше енергії для навчання, а для виведення їй потрібно зробити в 2 рази менше розрахунків.

Тренд 3. Машинне навчання стає все більш корисним як для людини, так і для суспільства в цілому.

Ряд нових розробок став можливим завдяки інноваціям в МЛ і новим напівпровідникам мобільних пристроїв, які стали більш контекстуальними і екологічно свідомими. Вони стали доступнішими і простішими в експлуатації, а їх обчислювальна потужність зросла. Це важливий фактор розвитку популярних функцій, таких як мобільна фотографія, живий переклад та інші. Примітно, що останні технологічні досягнення стали більш персоналізованими, а заходи конфіденційності посилюються.

Як ніколи, сьогодні все більше людей використовують телефонні камери в житті і творчості. Правильне застосування машинного навчання в обчислювальній фотографії продовжує розширювати можливості телефонних камер. Їх використання стає простіше, підвищується продуктивність. Все це дозволяє робити більш якісні зображення. Такі особливості, як поліпшений  HDR+, малосвітла зйомка, обробка портретів, а також бажання зробити камери більш універсальними, щоб вони могли працювати з будь-якими тонами шкіри, дозволяють отримати фотографії, які виглядають професійно, більш точно передають деталі предмета фотографії і бачення фотографа. Ці кадри можна ще більше покращити за допомогою потужних інструментів на основі ML, які тепер доступні в Google Фото, таких як фотографії з ефектом фільму, зменшення шуму, зменшення розмиття та чарівний гумка.

Для спілкування в режимі реального часу  з носієм іншої мови або з людиною на відстані багато хто використовує функцію миттєвого перекладу в месенджерах і можливість автоматичних субтитрів під час телефонних дзвінків. Точність розпізнавання мови продовжує зростати завдяки таким методам, як самостійне навчання та навчання «галасливої активності учнів». У багатьох мовах покращилося сприйняття мови з наголосом, а також в галасливих умовах і з накладенням іншого голосу. Функція перекладу живої мови Google Translate тепер краща завдяки стабілізації перекладених фраз, створених миттєво. Нові проекти з включення ml-технологій в традиційні методи мовного кодека Ліри і аудіокодека SoundStream поліпшили якість переданої мови, музики та інших звуків при використанні набагато меншого бітрейту.

Завдяки ml-технологіям впроваджено нові методи забезпечення безпеки окремих користувачів та цілих спільнот. Наприклад, функція сповіщень про підозрілі повідомлення попереджає вас про можливі фішингові атаки, а безпечна навігація дозволяє уникнути використання екстреного гальмування, пропонуючи альтернативні маршрути для обходу небезпечних районів.

Тенденція 4. Зростаючий вплив машинного навчання на науку, охорону здоров'я та навколишнє середовище

В останні роки зростає вплив машинного навчання на розвиток фундаментальних наук – від фізики до біології. У суміжних сферах відкриваються нові, дивовижні перспективи застосування МЛ, наприклад, в сфері відновлюваної енергетики та медицини. Технології стають все більш досконалими, надійними і доступними, допомагаючи нам знаходити рішення найактуальніших глобальних проблем.

Масштабне використання комп'ютерного зору 

Досягнення в області комп'ютерного зору за останнє десятиліття дозволили використовувати комп'ютери для найрізноманітніших завдань. У неврології автоматизовані методи реконструкції можуть відтворювати нейронну сполучну структуру мозкової тканини на основі зображень тонких зрізів тканини мозку, отриманих за допомогою електронної мікроскопії з високою роздільною здатністю. Раніше спільно з науковим співтовариством нам вдалося відтворити структуру мозку плодової мухи, миші і співочої птиці. Минулого року разом з Лабораторією Ліхтмана Гарвардського університету ми проаналізували найбільшу візуалізацію та реконструювали зразок тканини мозку та провели перше масштабне дослідження синаптичних зв'язків у корі головного мозку людини, охоплюючи кілька типів клітин. Метою даної роботи є створення нового ресурсу, який допоможе вченим у вивченні приголомшливої складності будови людського мозку.

Технологія комп'ютерного зору також активно використовується для вирішення глобальних проблем. Метод прогнозування погоди, заснований на глибокому навчанні на основі супутникових, радіолокаційних знімків в поєднанні з іншими атмосферними даними, дає більш точний прогноз погоди і опадів на найближчі 12 годин, ніж традиційні фізичні моделі. При цьому такий прогноз робиться набагато швидше, що при екстремальних погодних умовах може мати вирішальне значення. 

Вивчення можливостей автоматизованого моделювання

Ще один підхід, який показав відмінні результати - це здатність алгоритму МН вивчати і моделювати простір для подальшого автоматичного пошуку рішень. Наприклад, варіаційний автокодер навчився створювати естетично приємні і практичні макети документів за принципом трансформатора. Такий же підхід можна використовувати і для створення ескізів меблів. В іншому експерименті модель МО використовувалася для автоматичного пошуку можливостей для поліпшення дизайну комп'ютерної гри з метою поліпшення її відтворюваності та інших атрибутів геймплея. 

Застосування МН в охороні здоров'я

Крім впливу на розвиток фундаментальних наук, машинне навчання може відігравати і провідну роль у розвитку медицини та охорони здоров'я. Ідея використання досягнень в цій сфері існує вже давно. Одним з наших перших завдань була розробка  програмного забезпечення, яке допомагало аналізувати епідеміологічні дані. Але поступово ми відкриваємо нові можливості мл і, звичайно, ставимо нові виклики.

Візьмемо, наприклад, область геноміки. З моменту зародження цієї науки важливу роль в її розвитку зіграла комп'ютерна техніка. Поява машинного навчання зруйнувала старі парадигми і створила нові можливості. Ми запустили безкоштовне програмне забезпечення DeepConsensus, а пізніше у співпраці з UCSC випустили PEPPER-DeepVariant, які підтримують існуючі технології і значно прискорюють процес секвенування біополімерів.

Метод фенотипування на основі ML допомагає перетворювати важкі зображення і масиви текстових даних в фенотипи, придатні для досліджень. А наш метод DeepNull дозволяє працювати з великими обсягами даних в області генетичних досліджень.

Сподіваємося, що в майбутньому подібні алгоритми машинного навчання будуть використовуватися для діагностики раку молочної залози, раку легенів, прискорення лікування онкохворих променевою терапією, виявлення відхилень на рентгені і допомоги при біопсії раку передміхурової залози.

Застосування ОМС для подолання кліматичної кризи

Нещодавно ми представили функцію побудови екологічно чистих маршрутів у Google Maps. За нашими оцінками, це допоможе скоротити викиди газу більш ніж на 1 млн тонн на рік і дозволить знизити витрати на паливо. Такий результат можна порівняти зі скороченням кількості автомобілів на дорогах до 200 000 одиниць. 

У 2021 році наша ініціатива прогнозування повеней була розширена, щоб охопити більше людей, а саме 360 мільйонів людей. Ми відправили понад 115 мільйонів попереджень про повені на мобільні пристрої користувачів – це в 3 рази більше, ніж роком раніше.

Тенденція 5. Глибше та ширше розуміння штучного інтелекту

Оскільки МН все частіше використовується в технологіях і суспільстві в цілому, ми вважаємо за  необхідне розробити нові методи, щоб забезпечити справедливе і справедливе застосування цієї технології. Це основний бізнес нашої дослідницької групи, відповідальної за штучний інтелект та технології, орієнтовані на людину, і ми проводимо багато досліджень щодо відповідального застосування МН. 

Ми уважно вивчаємо рекомендаційні системи на основі даних про активність користувачів в онлайн-сервісах. Ці системи часто складаються з декількох окремих компонентів, і щоб зрозуміти, наскільки справедливо і об'єктивно вони працюють, важливо знати, як працюють компоненти разом і окремо. Останні дослідження допомогли розібратися в цих відносинах і виявили методи, за допомогою яких можна підвищити «справедливість» окремих її складових і всієї рекомендаційної системи в цілому. 

Крім того, при навчанні системи неявній активності користувачів важливо, щоб рекомендаційні системи навчалися з відкритим розумом, так як прямий підхід до навчання на елементах, які були показані попереднім користувачам, демонструє форми упередженості.

Створення загальнодоступних, всеосяжних і менш упереджених баз даних - це можливість поліпшити машинне навчання для кожного. У 2016 році ми представили набір даних Open Images, що складається приблизно з 9 мільйонів зображень з описами, що охоплюють тисячі категорій функцій та анотацій для 600 різних класів.

Інші новини

Найкраща ціна