Клонування голосу стало новим фаворитом шахраїв і творців мемів - Лаурі Джувела повернувся в університетський світ, адже синтетичне мовлення потрібно обговорювати

З початку року Tiktok та Instagram рясніють жартівливими відео та піснями, створеними штучними голосами. Клонування голосу — це останнє доповнення до сімейства продуктів штучного інтелекту, можливості якого розкриваються день у день.

З якоїсь причини, яка напевно спантеличить майбутніх дослідників культури, клонування голосу зробило свій остаточний прорив завдяки допомозі президентів, які грали у відеоігри.

Ідея гумористів проста: серйозні, щирі люди, граючи у відеоігри, шліфують посилання на меми та лайливі слова.

Ще одним контентом у соціальних мережах на початку року, який привернув багато уваги, були ремікси хітів зі штучним інтелектом. Завдяки технології клонування звуку будь-який виконавець може зробити кавер на пісні іншого виконавця.

Пару тижнів тому у відеододатку Tiktok з’явилася двохвилинна пісня, в якій Дрейк виступав зі своєю співвітчизницею поп-зіркою The Weeknd. З підпису стало відомо, що це штучно синтезовані артисти.

Проте ігрові відеоролики та ремікси президентів зі штучним інтелектом, мабуть, лише початок. Різноманітні програми штучного інтелекту для відтворення голосу вже почали працювати: в Інтернеті є цілі статті, які представляють різні клони голосу Трампа, а програми штучного інтелекту, які повторно обробляють музику, тепер можна знайти як для голосів артистів, так і для композицій.

Мова, створена штучним інтелектом, зараз дуже цікава.

Для клонування достатньо 20 секунд розмови

За привабливими мемами стоїть технологічний стрибок. Багато хто може відчути дежавю через раптову популярність штучного інтелекту Dall-E минулого літа. У штучному інтелекті, який виробляє зображення з тексту, увага спочатку була здебільшого на гуморі.

– Важливо розуміти, що звукові штучні інтелекти не є семплерами: вони не копіюють, не вставляють, не вирізають і не вставляють звук, який їм подається.

Голос диктора передається в голосовий штучний інтелект для клонування. Однак модель не копіює запис, а обчислює з нього розрахунок ймовірності, ніби аналізуючи, як може звучати чиясь мова в різних текстах. Сама синтетична «мова» моделей генерується на основі акустичної моделі з цифрового сигналу синтезатора, тобто фактичного людського голосу в кінцевому результаті немає.

Подібно до моделей штучного інтелекту, які виробляють зображення та текст, моделі клонування звуку також є генеративними. Це означає, що вони знають, як відтворити випадкову варіацію даних. Випадкові варіації є ключовими для створення природного звучання мови.

– Якщо людина п’ять разів повторює одне й те саме речення, то кожного разу воно звучить трохи по-іншому. Це потрібно змоделювати, якщо ви хочете правдоподібне клонування звуку, каже Джувела.

Якщо раніше для клонування звуку були потрібні довгі фрагменти мовного матеріалу, то сьогодні для роботи може бути достатньо десятка речень. Найдосконалішим моделям потрібно лише 20 секунд людської мови, щоб створити досить правдоподібний голосовий клон.

Різниця між реальною людиною та клоном голосу все ще помітна, принаймні в деяких відео-мемах, де використовуються дешеві моделі клонування голосу. Фінськомовні меми-відео не очікуються відразу, оскільки більшість моделей клонування голосу, доступних кожному, були навчені розмовляти мовами широких мас, наприклад англійською.

Окрім відео-мемів, клонування голосу можна використовувати для чого завгодно, як для хорошого, так і для поганого, каже Джувела.

Голосовий протез може відновити людську мову

Клонування голосу може допомогти людям різними способами. Juvela піднімає, наприклад, хвороби, які спричиняють втрату голосу або здатності говорити.

– Голосовий протез – це клонування голосу людини, щоб вона продовжувала користуватися ним за допомогою комп’ютера, а потім, коли вже не зможе говорити сама, – малює Джувела.

Одним із важливих застосувань голосу штучного інтелекту, звичайно, був би віртуальний помічник. Помічник штучного інтелекту, який веде природну розмову, підключений до моделі штучного інтелекту, що створює текст, може інтерпретувати текст за запитом і обробляти не дуже важливі для людини розмови.

– Однак віртуальні помічники вже розробляються такими великими компаніями, що нам в Аалто немає сенсу зосереджуватися на цьому питанні.

У своїх власних дослідженнях Juvela прагне покращити основні характеристики звукових моделей: зробити їх більш енергоефективними, зменшити затримку моделей, тобто затримку в передачі інформації, і розробити функції реального часу.

Лаурі Джувела в акустичній студії. — За словами Лаурі Джувела, такі веб-сайти, як GitHub, зіграли справді важливу роль у розвитку голосового штучного інтелекту, за допомогою якого код штучного інтелекту вільно поширюється для використання та розробки зацікавленими.

Функції реального часу будуть одним із ключових застосувань голосових клонів. Навіть зараз моделі клонування голосу з достатньою кількістю ресурсів можуть перекладати будь-який голос на будь-яку мову. Коли точність моделей підвищується, а затримка зменшується, ми можемо досягти моделей синхронного перекладу.

Таким чином, наприклад, під час ділових зустрічей і мирних переговорів сторони, які представляють різні нації, могли чути одна одну через навушники в реальному часі своєю мовою. Наприклад, ElevenLabs, згаданий раніше лідер галузі, згадує інтерпретацію в реальному часі як довгострокову мету.

Тож на те, що відбувається в реальному часі, можна вплинути лише в майбутньому, але історію можна досить добре змінити за допомогою голосових клонів.

Від ебання до фрікінга

Минулого року в США вийшов фільм *Падіння*, де двоє героїв застрягли на дуже високій радіощоглі. Застрягання на висоті призводить до кількох годин хвилювання та надзвичайного почуття розчарування для головних героїв. Вони спрямували їх, зокрема, на лайливе слово F англійської мови.

Після виходу фільму виробнича компанія вирішила, що їм також потрібна версія фільму PG13 для розповсюдження. Лайки не підходять для цього вікового обмеження. Як стримати вже розпущену нецензурщину?

З клонуванням голосу. Виробнича компанія найняла для цього завдання стартап зі штучного інтелекту FlawlessAI, який створив голосові клони обох акторів, змоделював їхні рухи обличчя, а потім, використовуючи комбінацію голосових клонів і реанімації, змінив «Fuckings» на легший «Frickings».

Ніщо інше, як чиста версія PG13 для магазинів. Редагування історії на основі відео чи аудіо швидко стає дуже простим. Це ставить перед реальністю дилему: що насправді сталося?

«Можливо, незабаром нам доведеться вважати, що більша частина контенту в Інтернеті є шахрайством або маніпуляцією», — каже Джувела.

Безумовно, у майбутньому автентичний контент може мати потребу в сертифікації, можливо, вимагаючи облікових даних онлайн-банку для публікації вмісту, напівсерйозно думає Джувела.

Яскравим стилем Папи захоплювалися в Інтернеті на вихідних, поки не з’ясувалося, що зображення є продуктом штучного інтелекту Midjourney за наказом американського ракшадунара, який грав зі штучним інтелектом. Потрібні були публічний вихід і сотні виправлень, щоб навіть уявлення про життєвий вибір Папи довести до рівня, що відповідає дійсності.

Хороші та погані розробники ШІ

Juvela бачить ситуацію як можливість для нескінченної гри в кішки-мишки, де інші розробники штучного інтелекту розробляють сертифікати та моделі для виявлення підробок, тоді як розробники іншої сторони модифікують свої моделі, щоб не бути «спійманими».

Ці загрозливі зображення є однією з причин, чому Джувела повернувся в університетський світ після часу, проведеного в приватному секторі. Штучний інтелект і голос впливатимуть на наше життя, і Juvela хоче створити платформу для обговорення цих ефектів.

У майбутньому безневинному споживачеві може зателефонувати з клонованого номера банківський клерк із клонованим голосом і попросити повідомити ідентифікаційний код та ключові номери в контексті термінової банківської справи. Вже у 2019 році британського генерального директора нібито ошукали на 220 000 євро, коли голосовий клон його боса порадив йому по телефону здійснити грошовий переказ в угорський банк.

Неавтентичні колеги чи авторитети можуть бути лише початком: шахрай, оснащений достатньо хорошим мовним матеріалом і штучним інтелектом, може в майбутньому зв’язатися зі своєю цільовою особою голосом, наприклад, цього брата, сестри, батька чи партнера. Торгова комісія США, яка відповідає за захист прав споживачів, нещодавно опублікувала попередження про шахрайство з голосовими клонами, коли надходять дзвінки від родичів з проханням надати гроші, наприклад, щоб заплатити заставу у в’язниці.

Незважаючи на те, що злочинці є великими новаторами, за словами Джувели, вчені також уважні до контрзаходів. Наприклад, помічник зі штучним інтелектом, який постачається разом із телефоном, може стати основним брандмауером для людей від різних шахрайств.

– Створення щитів – зараз великий дослідницький тренд. Однак існує знак питання щодо того, наскільки ефективними стануть контрзаходи, коли так швидко винаходяться нові типи атак, каже Джувела.