+38/050/370-3627
+38/093/220-0872
+38/044/257-2444
Новини

Deezer відкрив вихідні тексти проекту Spleeter, який розвиває систему машинного навчання для поділу джерел звуку зі складних звукових композицій

Deezer відкрив вихідні тексти проекту Spleeter, який розвиває систему машинного навчання для поділу джерел звуку зі складних звукових композицій

Провайдер потокового мовлення Deezer відкрив вихідні тексти експериментального проекту Spleeter, що розвиває систему машинного навчання для поділу джерел звуку зі складних звукових композицій. Програма дозволяє видалити з композиції вокал та залишити лише музичний супровід, маніпулювати звучанням окремих інструментів або відкинути музику та залишити голос для накладання на інший звуковий ряд, створення міксів, караоке чи транскрипції. Код проекту написаний мовою Python з використанням движка Tensorflow і розповсюджується під ліцензією MIT.

Для завантаження пропонуються вже натреновані моделі для відділення вокалу (одного голосу) від акомпанементу, а також для поділу на 4 і 5 потоків, що включають вокал, барабани, баси, піаніно та решта звуку. Spleeter може застосовуватися як у вигляді Python-бібліотеки, так і у формі відокремленої утиліти командного рядка. У найпростішому випадку на основі вихідного файлу створюється два, чотири або п'ять файлів з голосом і складовими з акомпанементу (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav).

При розділенні на 2 та 4 потоки Spleeter забезпечує дуже високу продуктивність, наприклад, при задіянні GPU поділ звукового файлу на 4 потоки займає у 100 разів менше часу, ніж тривалість вихідної композиції. На системі з GPU NVIDIA GeForce GTX 1080 та 32-ядерним CPU Intel Xeon Gold 6134 обробка тестової колекції musDB, тривалістю три години 27 хвилин, була виконана за 90 секунд.

З переваг Spleeter, в порівнянні з іншими розробками в області розділення звуку, такими як відкритий проект Open-Unmix, згадується застосування більш якісних моделей, побудованих на основі великої колекції звукових файлів. Через обмеження авторських прав дослідники в галузі машинного навчання обмежені доступом до досить мізерних загальнодоступних колекцій музичних файлів, у той час як для Spleeter моделі були побудовані із залученням даних із великого музичного каталогу Deezer.

По порівнянню з Open-Unmix інструментарій Spleeter виконує поділ приблизно на 35% швидше при тестуванні на CPU, підтримує MP3-файли і генерує помітно якісніший результат (при виділенні голосу в Open-Unmix залишаються сліди деяких інструментів, що, ймовірно, пояснюється тим, що моделі Open-Unmix натреновані на колекції з 150 композицій).

Інші новини