Azure Media Services: индексатор видео Azure Media Services, транскрибирование в реальном времени, линейное кодирование в реальном времени
Azure Media Services: индексатор видео Azure Media Services, транскрибирование в реальном времени, линейное кодирование в реальном времени
Инновации Azure Media Services на основе искусственного интеллекта
Распознавание анимированных персонажей, расшифровка многоязычной речи и многое другое — уже доступно
Миссия Microsoft заключается в том, чтобы дать каждому человеку и организации на планете возможность достичь большего. Медиаиндустрия — отличный пример воплощения этой миссии в реальность. Мы живем в эпоху, когда создается и потребляется все больше контента, все большими способами и на большем количестве устройств. На IBC 2019 Microsoft поделилась последними инновациями, над которыми сейчас работает, и рассказала о том, как они могут помочь преобразовать ваш медиапроцесс.
В Индексаторе видео появилась поддержка анимации и многоязычного контента
В прошлом году на IBC Microsoft сделала общедоступным удостоенный наград Индексатор видео Azure Media Services, и в этом году он стал еще лучше. Индексатор видео (Video Indexer) автоматически извлекает из медиафайлов информацию и метаданные, такие как произнесенные слова, лица, эмоции, темы и торговые марки, и вам не нужно быть экспертом по машинному обучению, чтобы пользоваться им. Последние предложения включают предварительные версии двух очень востребованных и дифференцированных функций — распознавания анимированных персонажей и транскрибирования многоязычной речи, а также несколько дополнений к существующим моделям, доступным сегодня в Индексаторе видео.
Распознавание анимированных персонажей
Анимированный контент, мультфильмы — один из самых популярных типов контента, но стандартные модели машинного зрения, созданные для распознавания человеческих лиц, не очень хорошо с ним работают, особенно если в контенте есть персонажи без человеческих черт лица. В новой предварительной версии Индексатор видео объединен со службой Azure Custom Vision компании Microsoft, благодаря чему появился новый набор моделей, которые автоматически обнаруживают и группируют анимированных персонажей и позволяют легко размечать и распознавать их с помощью интегрированных пользовательских моделей машинного зрения. Модели интегрированы в единый конвейер, что позволяет кому угодно использовать эту службу без каких-либо знаний в области машинного обучения. Результаты доступны через портал Индексатора видео, не требующий написания кода, или через REST API для быстрой интеграции в ваши собственные приложения.
Microsoft создавала эти модели для работы с анимированными персонажами вместе с некоторыми потребителями, которые предоставляли настоящий анимированный контент для обучения и тестирования. Ценность новой функциональности хорошо описал Энди Гаттеридж, старший директор по студийным технологиям и постпродакшену Viacom International Media Networks, который был одним из поставщиков данных: «Добавление надежной функции обнаружения анимированного контента на основе ИИ позволит нам быстро и эффективно находить и каталогизировать метаданные персонажей из нашей библиотеки контента. Самое главное — это даст нашим креативным командам возможность мгновенно находить нужный контент, сведет к минимуму время, затрачиваемое на управление медиа, и позволит сосредоточиться на творчестве».
Начать знакомство с распознаванием анимированных персонажей можно со страницы документации.
Идентификация и транскрибирование содержимого на нескольких языках
Некоторые медиаресурсы, такие как новости, хроники событий и интервью, содержат записи речи людей, говорящих на разных языках. Большинство существующих возможностей перевода речи в текст требует предварительного указания языка распознавания звука, что затрудняет транскрибирование многоязычных видеороликов. Новая функция автоматической идентификации разговорного языка для различных видов контента использует технологию машинного обучения для идентификации языков, встречающихся в медиаресурсах. После обнаружения каждый языковой сегмент автоматически проходит процесс транскрибирования на соответствующем языке, а затем все сегменты объединяются в один файл транскрипции, состоящий из нескольких языков.
Полученная расшифровка доступна в составе выходных данных JSON Индексатора видео и в виде файлов с субтитрами. Выходная расшифровка также интегрирована с Azure Search, что позволяет сразу же искать в видеозаписях разные языковые сегменты. Кроме того, многоязычная транскрипция доступна при работе с порталом Индексатора видео, так что вы можете просматривать расшифровку и идентифицированный язык по времени или переходить к определенным местам в видео для каждого языка и видеть многоязычную транскрипцию в виде подписей во время воспроизведения видео. Можно также переводить полученный текст на любой из 54 доступных языков через портал и API.
Подробнее о новой функции распознавания содержимого на нескольких языках и ее использовании в Индексаторе видео читайте в документации.
Дополнительные обновленные и улучшенные модели
Microsoft также добавляет в Индексатор видео новые модели и улучшает существующие, включая описанные ниже.
Извлечение сущностей, связанных с людьми и местами
Microsoft расширила имеющиеся возможности по обнаружению торговых марок, включив в них известные названия и местоположения, такие как Эйфелева башня в Париже и Биг-Бен в Лондоне. Когда они появляются в сгенерированной расшифровке или на экране при использовании оптического распознавания символов (OCR), добавляются соответствующие сведения. С помощью этой новой функции можно выполнять поиск по всем людям, местам и брендам, которые появлялись в видео, и просматривать сведения о них, включая временные интервалы, описания и ссылки на поисковую систему Bing для получения дополнительной информации.
Модель обнаружения кадров для редактора
Эта новая функция добавляет набор «тегов» в метаданные, прикрепленные к отдельным кадрам в подробных сведениях JSON, чтобы представить их редакционный тип (например, широкий кадр, средний кадр, крупный план, очень крупный план, два снимка, несколько человек, на улице, в помещении и т.д.). Эти характеристики типа кадра удобны при редактировании видео для клипов и трейлеров, а также при поиске определенного стиля кадров для художественных целей.
Расширенная детализация сопоставления IPTC
Модель детекции тематики определяет тему видео на основе транскрипции, оптического распознавания символов (OCR) и обнаруженных знаменитостей, даже если тема не указана явно. Мы сопоставляем эти обнаруженные темы с четырьмя областями классификации: Википедия, Bing, IPTC и IAB. Это усовершенствование позволяет включать классификацию IPTC второго уровня.
Воспользоваться преимуществами этих улучшений так же просто, как и переиндексировать вашу текущую библиотеку Индексатора видео.
Новая функциональность потокового вещания в реальном времени
В предварительной версии Azure Media Services Microsoft предлагает также две новых функции для потокового вещания в реальном времени.
Транскрибирование в реальном времени с помощью ИИ выводит прямые трансляции на новый уровень
Используя Azure Media Services для потоковой трансляции в реальном времени, вы теперь можете получать выходной поток, который включает автоматически генерируемую текстовую дорожку в дополнение к звуковому и видеоконтенту. Текст создается с помощью транскрибирования аудио в реальном времени на основе искусственного интеллекта. Пользовательские методы применяются до и после преобразования речи в текст, чтобы улучшить результаты. Текстовая дорожка упаковывается в IMSC1, TTML или WebVTT, в зависимости от того, поставляется ли она в DASH, HLS CMAF или HLS TS.
Линейное кодирование в реальном времени для круглосуточных (24/7) каналов OTT
Используя API v3, вы можете создавать каналы с использованием технологии OTT (over-the-top), управлять ими и вести по ним прямые трансляции, а также использовать все остальные функции Azure Media Services, такие как прямые трансляции видео по запросу (VOD, video on demand), упаковка и управление цифровыми правами (DRM, digital rights management).
Чтобы познакомиться с предварительными версиями этих функций, посетите страницу сообщества Azure Media Services.
Новые возможности формирования пакетов
Поддержка звуковых дорожек описания
Контент, транслируемый по широковещательным каналам, часто имеет звуковую дорожку с устными объяснениями происходящего на экране в дополнение к обычному аудиосигналу. Это делает программы более доступными для слабовидящих зрителей, особенно если контент в основном визуальный. Новая функция звукового описания позволяет аннотировать одну из звуковых дорожек как дорожку аудиоописания (AD, audio description), благодаря чему проигрыватели могут делать AD-дорожку доступной для зрителей.
Вставка метаданных ID3
Для передачи сигнала о вставке рекламы или событий пользовательских метаданных на плеер клиента вещательные компании часто используют метаданные с разбивкой по времени, встроенные в видео. В дополнение к режимам сигнализации SCTE-35 Microsoft теперь также поддерживает ID3v2 и другие пользовательские схемы, определенные разработчиком приложения для использования клиентским приложением.
Партнеры Microsoft Azure демонстрируют комплексные решения
Bitmovin представляет Bitmovin Video Encoding и Bitmovin Video Player для Microsoft Azure. Теперь клиенты могут применять эти решения для кодирования и воспроизведения в Azure и использовать передовые функции, такие как трехэтапное кодирование, поддержка кодеков AV1/VC, многоязычные субтитры и предварительно интегрированная аналитика видео для QoS, рекламы и отслеживания видео.
Evergent демонстрирует свою платформу управления жизненным циклом пользователя(User Lifecycle Management Platform) на Azure. Являясь ведущим поставщиком решений для управления доходами и жизненным циклом клиентов, компания Evergent использует Azure AI, чтобы помочь поставщикам развлекательных услуг премиум-класса улучшить процесс привлечения и удержания клиентов путем создания целевых пакетов услуг и предложений в критические моменты их жизненного цикла.
Haivision покажет свою интеллектуальную облачную службу маршрутизации мультимедиа, SRT Hub, которая помогает клиентам трансформировать рабочие процессы от начала до конца, используя Azure Data Box Edge и преобразование рабочих процессов с помощью Hublets от Avid, Telestream, Wowza, Cinegy и Make.tv.
SES разработала пакет медиауслуг вещательного класса на платформе Azure для своих клиентов, пользующихся спутниковой связью и управляемыми медиауслугами. SES продемонстрирует решения для полностью управляемых услуг воспроизведения, включая мастер-воспроизведение, локализованное воспроизведение, обнаружение и замену рекламы, а также высококачественное многоканальное кодирование в реальном времени 24×7 на Azure.
SyncWords делает доступными на Azure удобные облачные инструменты и технологию автоматизации создания подписей. Эти предложения облегчат медийным организациям автоматическое добавление субтитров, в том числе на иностранном языке, в рабочие процессы обработки видео в режиме реального времени и офлайн на Azure.
Международная компания Tata Elxsi, занимающаяся проектированием и предоставлением технологических услуг, интегрировала свою платформу OTT SaaS TEPlay в Azure Media Services для предоставления OTT-контента из облака. Tata Elxsi также перенесла в Microsoft Azure решение для мониторинга качества взаимодействия (QoE) Falcon Eye, предоставляющее аналитику и метрики для принятия решений.
Verizon Media делает свою платформу потокового вещания доступной на Azure в качестве бета-версии. Verizon Media Platform — управляемое OTT-решение корпоративного уровня, включающее DRM, вставку рекламы, индивидуальные персонализированные сеансы, динамическую замену контента и доставку видео. Интеграция упрощает рабочие процессы, глобальную поддержку и масштабирование и открывает доступ к ряду уникальных возможностей, имеющихся в Azure.