+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новини

Azure Media Services: індексатор відео Azure Media Services, транскрибування у реальному часі, лінійне кодування у реальному часі

Azure Media Services: індексатор відео Azure Media Services, транскрибування в реальному часі, лінійне кодування в реальному часі

Інновації Azure Media Services на основі штучного інтелекту

Розпізнавання анімованих персонажів, розшифрування багатомовної мови та багато іншого — вже доступне

Місія Microsoft полягає в тому, щоб дати кожній людині та організації на планеті можливість досягти більшого. Медіаіндустрія — чудовий приклад втілення цієї місії в реальність. Ми живемо в епоху, коли створюється та споживається все більше контенту, все більшими способами та на більшій кількості пристроїв. На IBC 2019 Microsoft поділилася останніми інноваціями, над якими зараз працює, і розповіла про те, як вони можуть допомогти перетворити ваш медіапроцес.

В Індексаторі відео з'явилася підтримка анімації та багатомовного контенту

Минулого року на IBC Microsoft зробила загальнодоступним удостоєний нагород Індексатор відео Azure Media Services, і цього року він став ще кращим. Індексатор відео (Video Indexer) автоматично витягує з медіафайлів інформацію та метадані, такі як слова, особи, емоції, теми та торгові марки, і вам не потрібно бути експертом з машинного навчання, щоб користуватися ним. Останні пропозиції включають попередні версії двох дуже затребуваних і диференційованих функцій - розпізнавання анімованих персонажів і транскрибування багатомовної мови, а також кілька доповнень до існуючих моделей, доступних сьогодні в Індексаторі відео.

Розпізнавання анімованих персонажів

Анімований контент, мультфільми — один із найпопулярніших типів контенту, але стандартні моделі машинного зору, створені для розпізнавання людських осіб, не дуже добре з ним працюють, особливо якщо в контенті є персонажі без людських рис обличчя. У новій попередній версії Індексатор відео об'єднаний зі службою Azure Custom Vision компанії Microsoft, завдяки чому з'явився новий набір моделей, які автоматично виявляють і групують анімованих персонажів і дозволяють легко розмічати і розпізнавати їх за допомогою інтегрованих моделей моделей машинного зору. Моделі інтегровані в єдиний конвеєр, що дозволяє будь-кому використовувати цю службу без будь-яких знань у галузі машинного навчання. Результати доступні через портал Індексатора відео, що не вимагає написання коду, або через REST API для швидкої інтеграції у власні програми.

Microsoft створювала ці моделі для роботи з анімованими персонажами разом із деякими споживачами, які надавали справжній анімований контент для навчання та тестування. Цінність нової функціональності добре описав Енді Гаттерідж, старший директор зі студійних технологій та постпродакшену Viacom International Media Networks, який був одним із постачальників даних: «Додавання надійної функції виявлення анімованого контенту на основі ІІ дозволить нам швидко та ефективно знаходити та каталогізувати метадані персонажів з нашої бібліотеки контенту. Найголовніше — це дасть нашим креативним командам можливість миттєво знаходити потрібний контент, зведе до мінімуму час, який витрачається на управління медіа, і дозволить зосередитися на творчості».

Почати знайомство з розпізнаванням анімованих персонажів можна зі сторінки документації.

Ідентифікація та транскрибування вмісту на кількома мовами

Деякі медіаресурси, такі як новини, хроніки подій та інтерв'ю, містять записи промови людей, які розмовляють різними мовами. Більшість існуючих можливостей перекладу мови в текст вимагає попередньої вказівки мови розпізнавання звуку, що ускладнює транскрибування багатомовних відеороликів. Нова функція автоматичної ідентифікації розмовної мови для різних видів контенту використовує технологію машинного навчання для ідентифікації мов, що трапляються в медіаресурсах. Після виявлення кожен мовний сегмент автоматично проходить процес транскрибування відповідною мовою, а потім усі сегменти об'єднуються в один файл транскрипції, що складається з кількох мов.

Отримана розшифровка доступна у складі вихідних даних JSON Індексатора відео та у вигляді файлів із субтитрами. Вихідна розшифровка також інтегрована з Azure Search, що дозволяє відразу шукати у відеозаписах різні мовні сегменти. Крім того, багатомовна транскрипція доступна при роботі з порталом Індексатора відео, тому ви можете переглядати розшифровку та ідентифіковану мову за часом або переходити до певних місць у відео для кожної мови та бачити багатомовну транскрипцію у вигляді підписів під час відтворення відео. Можна також перекладати отриманий текст будь-якою з 54 доступних мов через портал та API.

Докладніше про нову функцію розпізнавання вмісту кількома мовами та її використання в Індексаторі відео читайте в документації.

Додаткові оновлені та покращені моделі

Microsoft також додає до Індексатора відео нові моделі та покращує існуючі, включаючи описані нижче.

Вилучення сутностей, пов'язаних з людьми та місцями

Microsoft розширила наявні можливості щодо виявлення торгових марок, включивши в них відомі назви та місця розташування, такі як Ейфелева вежа в Парижі та Біг-Бен у Лондоні. Коли вони з'являються в розшифровці, що згенеровано, або на екрані при використанні оптичного розпізнавання символів (OCR), додаються відповідні відомості. За допомогою цієї нової функції можна здійснювати пошук за всіма людьми, місцями та брендами, які з'являлися у відео, та переглядати відомості про них, включаючи часові інтервали, описи та посилання на пошукову систему Bing для отримання додаткової інформації.

Модель виявлення кадрів для редактора

Ця нова функція додає набір тегів у метадані, прикріплені до окремих кадрів у докладних відомостях JSON, щоб представити їх редакційний тип (наприклад, широкий кадр, середній кадр, крупний план, дуже крупний план, два знімки, кілька людей, на вулиці, у приміщенні тощо). Ці характеристики типу кадру зручні при редагуванні відео для кліпів та трейлерів, а також при пошуку певного стилю кадрів для художніх цілей.

Розширена деталізація зіставлення IPTC

Модель детекції тематики визначає тему відео на основі транскрипції, оптичного розпізнавання символів (OCR) та виявлених знаменитостей, навіть якщо тема не вказана явно. Ми зіставляємо ці виявлені теми із чотирма областями класифікації: Вікіпедія, Bing, IPTC та IAB. Це вдосконалення дозволяє включати класифікацію IPTC другого рівня.

Скористатися перевагами цих покращень так само просто, як і переіндексувати вашу поточну бібліотеку Індексатора відео.

Нова функціональність потокового мовлення у реальному часі

У попередній версії Azure Media Services Microsoft пропонує також дві нові функції для потокового мовлення в реальному часі.

Транскрибування в реальному часі за допомогою ІІ виводить прямі трансляції на новий рівень

Використовуючи Azure Media Services для потокової трансляції в реальному часі, ви тепер можете отримувати вихідний потік, який включає автоматично генеровану текстову доріжку на додаток до звукового та відеоконтенту. Текст створюється за допомогою транскрибування аудіо у реальному часі на основі штучного інтелекту. Користувацькі методи застосовуються до і після перетворення мови на текст, щоб поліпшити результати. Текстова доріжка упаковується в IMSC1, TTML або WebVTT, залежно від того, чи вона поставляється в DASH, HLS CMAF або HLS TS.

Лінійне кодування в реальному часі для цілодобових (24/7) каналів OTT

Використовуючи API v3, ви можете створювати канали з використанням технології OTT (over-the-top), керувати ними та вести по них прямі трансляції, а також використовувати всі інші функції Azure Media Services, такі як прямі трансляції відео на запит (VOD, video on demand ), упаковка та управління цифровими правами (DRM, digital rights management).

Щоб познайомитися з попередніми версіями цих функцій, відвідайте сторінку спільноти Azure Media Services.

Нові можливості формування пакетів

Підтримка звукових записів

Контент, що транслюється широкомовними каналами, часто має звукову доріжку з усними поясненнями того, що відбувається на екрані на додаток до звичайного аудіосигналу. Це робить програми більш доступними для людей з вадами зору глядачів, особливо якщо контент в основному візуальний. Нова функція звукового опису дозволяє анотувати одну зі звукових доріжок як доріжку аудіоопису (AD, audio description), завдяки чому програвачі можуть робити доріжку AD доступною для глядачів.

Вставка метаданих ID3

Для передачі сигналу про вставку реклами або подій користувальницьких метаданих на плеєр клієнта компанії мовлення часто використовують метадані з розбивкою за часом, вбудовані у відео. На додаток до режимів сигналізації SCTE-35 Microsoft тепер також підтримує ID3v2 та інші схеми користувача, визначені розробником програми для використання клієнтським додатком.

Партнери Microsoft Azure демонструють комплексні рішення

Bitmovin представляє Bitmovin Video Encoding і Bitmovin Video Player для Microsoft Azure. Тепер клієнти можуть застосовувати ці рішення для кодування та відтворення в Azure та використовувати передові функції, такі як триетапне кодування, підтримка кодеків AV1/VC, багатомовні субтитри та попередньо інтегрована аналітика відео для QoS, реклами та відстеження відео.

Evergent демонструє свою платформу управління життєвим циклом користувача (User Lifecycle Management Platform) на Azure. Будучи провідним постачальником рішень для управління доходами та життєвим циклом клієнтів, компанія Evergent використовує Azure AI, щоб допомогти постачальникам розважальних послуг преміум-класу покращити процес залучення та утримання клієнтів шляхом створення цільових пакетів послуг та пропозицій у критичні моменти їхнього життєвого циклу.

Haivision покаже свою інтелектуальну хмарну службу маршрутизації мультимедіа, SRT Hub, яка допомагає клієнтам трансформувати робочі процеси від початку до кінця, використовуючи Azure Data Box Edge і перетворення робочих процесів за допомогою Hublets від Avid, Telestream, Wowza, Cinegy та Make.tv.

SES розробила пакет медіапослуг мовного класу на платформі Azure для своїх клієнтів, які користуються супутниковим зв'язком та керованими медіапослугами. SES продемонструє рішення для повністю керованих послуг відтворення, включаючи майстер-відтворення, локалізоване відтворення, виявлення та заміну реклами, а також високоякісне багатоканальне кодування в реальному часі 24×7 на Azure.

SyncWords робить доступними на Azure зручні хмарні інструменти та технологію автоматизації створення підписів. Ці пропозиції полегшать медійним організаціям автоматичне додавання субтитрів, зокрема іноземною мовою, в робочі процеси обробки відео в режимі реального часу та офлайн на Azure.

Міжнародна компанія Tata Elxsi, що займається проектуванням та наданням технологічних послуг, інтегрувала свою платформу OTT SaaS TEPlay у Azure Media Services для надання OTT-контенту з хмари. Tata Elxsi також перенесла до Microsoft Azure рішення для моніторингу якості взаємодії (QoE) Falcon Eye, що надає аналітику та метрики для прийняття рішень.

Verizon Media робить свою платформу потокового мовлення доступною на Azure як бета-версію. Verizon Media Platform — кероване OTT-рішення корпоративного рівня, що включає DRM, вставку реклами, індивідуальні персоналізовані сеанси, динамічну заміну контенту та доставку відео. Інтеграція спрощує робочі процеси, глобальну підтримку та масштабування та відкриває доступ до ряду унікальних можливостей, наявних у Azure.

Інші новини

Найкраща ціна