Інтерв’ю: Business Development Executive Respeecher Володимир Овсієнко

Клонування голосів — це реальність. Так Едріан Броуді заговорив з угорським акцентом у «Бруталісті», співачка Марія Каллас повернула свій голос після хвороби, а Річард Ніксон виголосив альтернативну промову, присвячену висадці на Місяць, — ту, яку написали на випадок провалу місії.

Все це — кейси української компанії Respeecher, що створює синтетичні голоси для кіно, ТБ, реклами та музики. Про Respeecher багато говорили напередодні «Оскара» — коли з’ясувалося, що технологію використали у двох фільмах-претендентах на нагороду. А ми поговоримо про них зараз.

Кінокритикиня Наталія Серебрякова зустрілася з Business Development Executive Respeecher Володимиром Овсієнком — він розповів про співпрацю з Голлівудом, ШІ та етичне клонування голосу.

Я дізналася про Respeecher завдяки оскарівській кампанії — ймовірно, як і багато інших. Розкажіть, чим саме займається компанія та як ваші інструменти використали у фільмах «Бруталіст» та «Емілія Перес»?

Respeecher розробляє технології для кіноіндустрії. Ми працювали над «Бруталістом» і допомагали Едріану Броуді та Фелісіті Джонс. Останнім часом у Голлівуді набирає популярності тенденція використовувати на 100% автентичну мову. Індустрія втомилася від того, що актори говорять іноземними мовами з американським або британським акцентом.

У такій ситуації є кілька шляхів. Перший — найняти носія мови для виконання ролі. Другий — актори проходять довготривале навчання з коучем. Воно може тривати рік, два, а то й три. Це особливо актуально для таких мов, як угорська — її вважають однією з найскладніших у світі. Щоб опанувати її до рівня носія, знадобляться роки. Тож третій варіант — штучний інтелект, який дозволяє досягти потрібного результату за кілька тижнів.

У «Бруталісті» ми працювали виключно з угорською мовою, яка звучить за кадром, — решту роботи виконували Едріан Броуді та Фелісіті Джонс. Коли ми запитали в режисера, чи не забере ця технологія роботу в акторів, він відповів, що навпаки — вона створює нові робочі місця. Нам все одно потрібен носій мови перед мікрофоном. Тож ми натренували модель голосу Броуді — а нейтів спікер записав репліки угорською.

Як працює клонування голосу кіноактора?

Зазвичай процес виглядає так: ми беремо треновану модель і записуємо іншу людину — перформера перед мікрофоном. Потім переносимо цей голос на модель, щоб він звучав максимально натурально.

У візуальних ефектах це працює інакше: спочатку знімають людину з різних кутів, просять її рухатись і говорити, щоб зафіксувати, як задіяні м'язи обличчя. Потім інший актор працює в спеціальному костюмі з камерами, і все це потребує десятків візуальних артистів для точного відтворення зображення.

Це складний та дорогий процес. Навіть із сучасними технологіями, щоб створити реалістичну сцену, потрібно дуже багато часу та ресурсів.

Коли ви заснували компанію та з чого почався її шлях?

Компанія була заснована у 2018 році, проте робота над технологією почалася ще у 2016. Якщо ви були в Україні в той час, можливо, пам’ятаєте хайп у мережі — всі писали, що Кузьма нібито живий. Це був ранній прототип нашої технології: на одному з хакатонів команда відтворила голос Скрябіна.

Цю технологію розробили двоє українців. Вони створили прототип, відтворили запис, а коли наступного дня побачили величезний резонанс у мережі, зрозуміли, що в цьому є потенціал. Згодом на одній з конференцій вони зустріли третього співзасновника, американця з Grand Reaber, який також загорівся цією ідеєю. Так у 2018 році вони разом заснували компанію.

У нас на кожен голос, який ми тренуємо, є письмовий дозвіл. Є ті, хто просто бере чужі дані й стверджує, що це їхня розробка. А є такі компанії, як наша, яка з 2016 року в Києві працює за етичними стандартами синтезу мовлення ще до появи регулювань. Інтуїтивно ми розуміли, що неправильно використовувати чийсь голос без дозволу, навіть у некомерційних або піар-цілях. Ми отримували сотні запитів, наприклад, створити імперсонатора Дональда Трампа для комедійного шоу. Але ми відмовляємося від таких проєктів — ми не працюємо з маніпулятивним контентом.

Які продукти ви випускаєте для кіноіндустрії?

Наша основна спеціалізація — технології синтезу мовлення. Ми розробили систему, яка дозволяє змінювати голос у реальному часі: коли одна людина говорить у мікрофон, її голос може звучати як голос зовсім іншої людини, зберігаючи всі нюанси — інтонації, акцент, ритм. Це стало основою нашого бренду.

Також ми створюємо автентичні голосові клони, які від оригіналу не відрізнять ні слухач, ні алгоритми. Сьогодні ми співпрацюємо з усіма великими голлівудськими студіями, а наша технологія використовувалась у понад 180 проєктах.

Наприклад, у «Мандалорці» ми працювали над молодим Люком Скайвокером, а в «Обі-Ван Кенобі» — відтворили голос Дарта Вейдера. Нещодавно ми також працювали над проєктом Here з Томом Генксом і над створенням голосів для персонажів з фільму «Чужий: Ромул».

Основна частина наших клієнтів — це Голлівуд, але ми не обмежуємось лише цим сегментом. Ми також активно працюємо з лейблами. Співаки зазвичай мають більше побоювань, ніж актори. Бо якщо в останніх є і віжуал, і голос, то у виконавців — лише голос. Але ШІ може забрати на себе рутинну роботу. Наприклад, для світових турів співаки часто записують рекламні тексти, виступи для радіо й телебачення, і це не найприємніша частина їхньої роботи. Але за допомогою ШІ цей процес можна автоматизувати або делегувати іншому артисту.

Ваша компанія отримала «Еммі» та причетна до «Оскара». Розкажіть більше про ці нагороди.

«Еммі» ми отримали у 2019 році за проєкт, у якому відтворили голос Річарда Ніксона. Мало хто знає, але для місії «Аполлон-11» підготували дві промови: одну — на випадок успішної висадки на Місяць, іншу — якщо місія зазнає провалу. Ми відтворили цю «альтернативну» промову за допомогою нашої технології. Проєкт отримав «Еммі», і всі, хто був у титрах, також стали її лауреатами.

Тепер в Україні є і «Оскар», і «Еммі». А особисто я дуже хочу ще й «Греммі».

Як відбувається процес тренування та клонування голосу?

Ми зрозуміли, що для високої якості потрібна участь людей, тому близько 20–30% нашої команди — це звукорежисери, яких ми називаємо синт-інженерами (Synthetic Speech Artists).

Коли отримуємо запит від клієнта, ми спершу перевіряємо його на етичність — чи є дозвіл на використання голосу або можливість його отримати. Далі клієнт надає аудіодані, на яких буде тренуватися модель.

Синт-інженер уважно прослуховує цей датасет і дає зворотний зв’язок:

— чи достатньо даних для якісної моделі
— чи потрібне додаткове аудіо (наприклад, якщо клієнт хоче, щоб голос співав або шепотів)

Потім ми запускаємо процес навчання моделі, який триває від одного до двох тижнів. Важливо, що ми не просто заливаємо аудіо в нейромережу й чекаємо результату — ми постійно взаємодіємо з клієнтом, аналізуємо прогрес і коригуємо параметри.

Коли навчання завершується, є два варіанти подальшого використання моделі:

#1. Індивідуальні проєкти (наприклад, для великих студій на кшталт Warner Bros.). Клієнти надають певну кількість записаних фраз → ми конвертуємо їх у необхідний голос → підбираємо кілька варіантів звучання → далі з голосом працює постпродакшн-команда.

#2. Маркетплейс, де зберігається бібліотека готових голосів. Доступні як speech-to-speech (генерація голосу з аудіо), так і text-to-speech (генерація голосу з тексту). Ми можемо закріпити модель за конкретним клієнтом, щоб лише він мав до неї доступ. Клієнт може самостійно працювати з голосом — записувати, редагувати, перегенеровувати аудіо.

До речі, ви знаєте, що голос у берлінському метро — це голос трансгендерної людини, оброблений за допомогою ШІ?

Вперше чую. Це цікава практика, коли голоси тренують на нейтральних або нетематичних речах. Бо під час тренування ШІ не обов’язково використовувати контекст, якщо мова йде про speech-to-speech технології. Важливо, щоби були дані про вокальний діапазон, особливості вимови, сміху або криків — це дозволяє точніше відтворити голос людини. Чим більше таких записів, тим точніше модель здатна передавати індивідуальні риси голосу.

Чи чули ви про китайський фільм What's Next, зроблений ШІ, який цього року був у програмі «Берлінале»?

Так, я був на панелі з продюсеркою цього фільму. Ми мали цікаву розмову, і вона поділилася деякими подробицями. Я насправді не дуже сприйняв цей фільм — він здається досить примітивним. Але продюсерка зізналася мені, що вони зробили його за дуже короткий термін — всього 6–7 днів. Основною метою було не створювати висококласне кіно, а саме продемонструвати, як швидко можна зробити продукт, навіть якщо неідеально.

Зняти фільм за 6 днів можна, але якість буде відповідна. Для справді хорошого контенту потрібно більше часу й ресурсів: робота з кількома моделями, місяці редагування та корекції.

Що ви можете сказати про конкуренцію між ChatGPT і Deepseek?

Я не маю достатньо технічних знань, щоб глибоко порівнювати їх, але, наскільки я знаю, Deepseek працює з меншими та менш потужними моделями, порівняно з іншими компаніями. Їхній продукт можна назвати спрощеною версією, але з певними недоліками. Вони дозволяють розміщувати свої моделі на власних серверах, що дає певну гнучкість. Ми ж, зокрема, використовуємо Amazon для наших проєктів — це про додаткові витрати, але й про надійність.

ПІДПИСУЙСЯ НА SKVOT