Open Data Hub – відкрита платформа машинного навчання на базі Red Hat OpenShift

+38/050/370-3627
+38/093/220-0872
+38/044/257-2444

Головна › Новини › Open Data Hub – відкрита платформа машинного навчання на базі Red Hat OpenShift

23 жовтня 2019

Open Data Hub – відкрита платформа машинного навчання на базі Red Hat OpenShift

Open Data Hub допомагає масштабувати нові технології та уникати труднощів при їх впровадженні.

При всіх плюсах штучного інтелекту (artificial Intelligence, AI) та машинного навчання (machine learning, ML) у організацій часто виникають труднощі із масштабуванням цих технологій. Основні проблеми при цьому зазвичай такі:

Обмін інформацією та співробітництво – обмінюватися інформацією без зайвих зусиль та співпрацювати в режимі швидких ітерацій практично неможливо.
Доступ до даних – для кожного завдання його потрібно будувати заново та вручну, що забирає багато часу.
Доступ на вимогу – немає можливості отримати on-demand доступ до інструментів та платформи машинного навчання, а також до обчислювальної інфраструктури.
Продакшн – моделі залишаються на стадії прототипу і не доводяться до промексплуатації.
Відстеження та пояснення результатів роботи AI – відтворюваність, відстеження та пояснення результатів AI/ML скрутні.

Залишені без вирішення ці проблеми негативно впливають на швидкість, ефективність та продуктивність роботи цінних фахівців з обробки та аналізу даних. Це призводить до їхньої фрустрації, розчарування в роботі, і в результаті очікування бізнесу щодо AI/ML йдуть прахом.

Відповідальність за вирішення цих проблем покладається на ІТ-фахівців, які мають надати дата-аналітикам – правильно , щось на зразок хмари. Якщо розгорнуто, то потрібна така платформа, яка дає свободу вибору і має зручний, простий доступ. При цьому вона швидка, легко переналаштовується, масштабується по вимогу та стійка до відмов. Побудова такої платформи на базі технологій з відкритим кодом допомагає не впасти в залежність від вендора і зберегти довгострокову стратегічну перевагу в плані контролю витрат. , гібридних хмарних середовищ, ІТ-автоматизації та agile-процесів. Щоб упоратися з усім цим, ІТ-фахівці стали використовувати контейнери, Kubernetes і відкриті гібридні хмари. Тепер цей досвід застосовується для відповіді на виклики Al. Тому ІТ-фахівці створюють платформи, що базуються на контейнерах, дозволяють створювати AI/ML-сервіси в рамках agile-процесів, прискорюють інновації та будуються з прицілом на гібридну хмару.

Побудову такої платформи ми розпочнемо з Red Hat OpenShift, нашої контейнерної Kubernetes-платформи для гібридного хмари, яка має швидкозростаючу екосистему програмних та апаратних ML-рішень (NVIDIA, H2O.ai, Starburst, PerceptiLabs і т.д.). Деякі з клієнтів Red Hat, такі як BMW Group, ExxonMobil та інші, вже розгорнули контейнеризовані ланцюжки ML-інструментів та процеси DevOps на базі цієї платформи та її екосистеми, щоб вивести свої ML-архітектури на режим промислової експлуатації та прискорити роботу дата-аналітиків.

Ще одна причина, через яку ми запустили проект Open Data Hub – продемонструвати приклад архітектури на основі кількох СПО-проектів та показати, як реалізувати весь життєвий цикл ML-рішення на базі платформи OpenShift.

Проект Open Data Hub

Це проект з відкритим кодом, який розвивається в рамках відповідної спільноти розробки та реалізує повний цикл операцій – від завантаження та перетворення початкових даних до формування, навчання та супроводу моделі – при вирішенні завдань AI/ML за допомогою контейнерів та Kubernetes на платформі OpenShift. Цей проект можна розглядати як еталонну реалізацію, як побудувати відкрите рішення класу «AI/ML як послуга» на основі OpenShift та відповідних інструментів з відкритим кодом, таких як Tensorflow, JupyterHub, Spark та інших. Важливо, що Red Hat сама використовує цей проект надання своїх послуг AI/ML. Крім того, OpenShift інтегрується з ключовими програмними та апаратними ML-рішеннями від NVIDIA, Seldon, Starbust та інших вендорів, що полегшує побудову та запуск власних систем машинного навчання.

Проект Open Data Hub орієнтований на наступні категорії користувачів та сценарії використання:

Дата-аналітик, якому потрібне рішення для реалізації ML-проектів, організоване за типом хмари із функціями самообслуговування.
Дата-аналітик, якому потрібен максимальний вибір із усього розмаїття найновіших інструментів та платформ AI/ML з відкритим кодом.
Дата-аналітик, якому потрібний доступ до джерел даних під час навчання моделей.
Дата-аналітик, якому потрібний доступ до обчислювальних ресурсів (CPU, GPU, пам'ять).
Дата аналітик, якому потрібна можливість співпрацювати та обмінюватися результатами роботи з колегами, отримувати зворотний зв'язок та вводити покращення методом швидких ітерацій.
Дата-аналітик, який хоче взаємодіяти з розробниками (і командами devops), щоб його ML-моделі та результати роботи йшли у продакшн.
Інженер за даними, якому потрібно надати дата-аналітику доступ до різноманітних джерел даних з дотриманням норм та вимог безпеки.
Адміністратор/оператор ІТ-систем, якому потрібна можливість без зайвих зусиль контролювати життєвий цикл (установка, налаштування, оновлення) компонентів та технологій з відкритим кодом. А також потрібні відповідні інструменти управління та квотування.

Проект Open Data Hub поєднує в собі цілу низку інструментів з відкритим кодом для реалізації повного циклу операцій AI/ML. Як основний робочий інструмент дата-аналітика тут використовується Jupyter Notebook. Цей інструментарій сьогодні користується широкою популярністю серед фахівців з обробки та аналізу даних, і Open Data Hub дозволяє їм легко створювати та керувати робочими областями Jupyter Notebook, використовуючи вбудований JupyterHub. Крім створення та імпорту notebooks Jupyter, проект Open Data Hub також містить низку вже готових notebooks у вигляді бібліотеки AI Library.

Ця бібліотека є колекцію open-source компонентів машинного навчання та рішень для типових сценаріїв, що спрощують швидке прототипування. JupyterHub інтегрований з RBAC-моделлю доступу OpenShift, що дозволяє використовувати вже існуючі облікові записи OpenShift і реалізувати єдиний вхід до системи. Крім того, JupyterHub пропонує зручний інтерфейс користувача під назвою spawner, за допомогою якого користувач може легко налаштувати обсяг обчислювальних ресурсів (процесорні ядра, пам'ять, GPU) для обраного Jupyter Notebook.

Після того, як дата-аналітик створить і налаштує ноутбук, решту всіх клопотів про нього бере на себе планувальник Kubernetes, який є частиною OpenShift. Користувачам залишається лише виконувати свої експерименти, зберігати та ділитися результатами своєї роботи. Крім того, просунуті користувачі можуть безпосередньо звертатися до CLI-оболонки OpenShift безпосередньо з Jupyter notebooks, щоб задіяти Kubernetes-примітиви, такі як Job, або функціонал OpenShift, наприклад, Tekton або Knative. Або для цього можна використовувати зручний OpenShift'івський GUI, який називається веб-консоль OpenShift.

Переходячи до наступного етапу, Open Data Hub дає можливість керувати конвеєрами даних (data pipelines). Для цього використовується Ceph-об'єкт, який надається у вигляді S3-сумісного об'єктного сховища даних. Apache Spark забезпечує стрімінг даних із зовнішніх джерел або вбудованого сховища Ceph S3, а також дозволяє виконувати попередні перетворення даних. Apache Kafka забезпечує розширене управління конвеєрами даних (де можна здійснювати багаторазове завантаження, а також операції перетворення, аналізу та збереження даних).

Отже, дата-аналітик отримав доступ до даним і побудував модель. Тепер у нього виникає бажання поділитись отриманими результатами з колегами або розробниками додатків, причому надати їм свою модель на засадах послуги. Для цього потрібен сервер виведення, і Open Data Hub має такий сервер, він називається Seldon і дозволяє опублікувати модель у вигляді RESTful-сервісу.

У якийсь момент таких моделей на сервері Seldon стає кілька, і виникає потреба у моніторингу того, як вони використовуються. Для цього Open Data Hub пропонує колекцію відповідних метрик та движок звітів на основі широко поширених інструментів моніторингу з відкритим кодом Prometheus та Grafana. В результаті ми отримуємо зворотний зв'язок для моніторингу використання AI-моделей, зокрема у продакшн-середовищі.

Таким чином, Open Data Hub забезпечує хмароподібний підхід протягом усього циклу операцій AI/ML, починаючи з доступу та підготовки даних і закінчуючи навчанням та промисловою експлуатацією моделі.

Інші новини

Найкраща ціна

JetBrains
JetBrains DataGrip

11 816.00 грн

JetBrains
JetBrains PyCharm

12 848.00 грн

JetBrains
JetBrains WebStorm

8 204.00 грн

Авторизація

Реєстрація

Нагадати пароль