Клонирование голоса стало новым фаворитом мошенников и создателей мемов — Лаури Ювела вернулся в университетский мир, потому что синтетическую речь нужно обсуждать

С начала года Tiktok и Instagram пестрят юмористическими роликами и песнями, сделанными искусственным голосом. Клонирование голоса — последнее дополнение к семейству продуктов искусственного интеллекта, возможности которого раскрываются день ото дня.

По какой-то причине, которая наверняка озадачит будущих культурологов, клонирование голоса совершило свой окончательный прорыв с помощью президентов, играющих в видеоигры.

Идея юмористов проста: серьезные, искренние люди перемалывают отсылки к мемам и ругаются, играя в видеоигры.

Еще одним контентом в социальных сетях в начале года, который привлек большое внимание, были специальные ремиксы хитов с использованием искусственного интеллекта. Благодаря технологии клонирования звука любой артист может сделать кавер на песни другого исполнителя.

Пару недель назад в видеоприложении Tiktok появилась двухминутная песня, в которой Дрейк выступил со своим соотечественником поп-звездой The Weeknd. В подписи выяснилось, что это искусственно синтезированные артисты.

Однако игровые видеоролики и ремиксы ИИ президентов, вероятно, только начало. Различные приложения искусственного интеллекта для создания голоса уже начали работу: в Интернете есть целые статьи, в которых представлены различные клоны голоса Трампа, и приложения искусственного интеллекта, которые перерабатывают музыку, теперь можно найти как для голосов артистов, так и для композиций.

Речь, производимая искусственным интеллектом, сейчас серьезно интересна.

20 секунд разговора достаточно для клонирования

За запоминающимся мемом стоит технологический скачок. Многие могут испытать дежавю из-за внезапной популярности искусственного интеллекта Dall-E прошлым летом. В искусственном интеллекте, который создает изображения из текста, поначалу основное внимание уделялось юмору.

– Важно понимать, что звуковые искусственные интеллекты не являются семплерами: они не копируют, не вставляют, не вырезают и не вставляют подаваемый в них звук.

Голос говорящего подается на голосовой искусственный интеллект для клонирования. Однако модель не копирует запись, а вычисляет по ней вероятностный расчет, как бы анализируя, как может звучать чья-то речь в разных текстах. Синтетическая «речь» самих моделей генерируется на основе акустической модели из цифрового сигнала синтезатора, т.е. реального человеческого голоса в конечном результате нет.

Подобно моделям искусственного интеллекта, создающим изображения и текст, модели клонирования звука также являются генеративными. Это означает, что они знают, как воспроизвести случайное изменение данных. Случайное изменение является ключевым моментом при создании естественно звучащей речи.

– Если человек повторяет одно и то же предложение пять раз, оно каждый раз звучит немного по-разному. Это необходимо смоделировать, если вы хотите получить правдоподобное клонирование звука, — говорит Джувела.

Если раньше звуковое клонирование требовало длинных кусков речевого материала, то сегодня для работы может быть достаточно дюжины предложений. Самым продвинутым моделям требуется всего 20 секунд человеческой речи, чтобы создать достаточно правдоподобный голосовой клон.

Разница между реальным человеком и голосовым клоном все еще различима, по крайней мере, в некоторых видео-мемах, в которых используются дешевые модели клонирования голоса. Финскоязычные мем-ролики сразу не ожидаются, так как большинство моделей голосового клонирования, доступных всем, обучены говорить на языках широких масс, например на английском.

По словам Ювелы, помимо видео-мемов клонирование голоса можно использовать для чего угодно, как хорошего, так и плохого.

Голосовой протез может восстановить человеческую речь

Клонирование голоса может помочь людям разными способами. Juvela вызывает, например, заболевания, из-за которых люди теряют голос или способность говорить.

– Голосовой протез означает клонирование голоса человека, чтобы он мог продолжать им пользоваться с помощью компьютера, затем, когда он уже не может говорить сам, Хувела рисует.

Одним из важных приложений голоса искусственного интеллекта, конечно же, будет виртуальный помощник. Естественно говорящий помощник искусственного интеллекта, подключенный к модели искусственного интеллекта, создающей текст, может интерпретировать текст по запросу и обрабатывать не очень важные разговоры для человека.

— Однако виртуальные помощники уже разрабатываются такими крупными компаниями, что нам в Aalto нет смысла заострять на этом вопросе внимание.

В своих собственных исследованиях Juvela стремится улучшить основные характеристики звуковых моделей: сделать их более энергоэффективными, снизить латентность моделей, то есть задержку передачи информации, и разработать функции реального времени.

Лаури Ювела в акустической студии. — По словам Лаури Джувела, такие веб-сайты, как GitHub, сыграли действительно важную роль в развитии голосового искусственного интеллекта, благодаря которому код искусственного интеллекта свободно распространяется для использования и разработки заинтересованными лицами.

Функции реального времени будут одним из ключевых применений голосовых клонов. Даже сейчас модели клонирования голоса с достаточно обширными ресурсами могут перевести любой голос на любой язык. Когда точность моделей увеличивается, а задержка уменьшается, мы в конечном итоге можем достичь моделей синхронного перевода.

Таким образом, например, на деловых встречах и мирных переговорах стороны, представляющие разные страны, могли слышать друг друга через наушники в режиме реального времени на своем родном языке. Например, ElevenLabs, лидер отрасли, о котором упоминалось ранее, упоминает интерпретацию в реальном времени как долгосрочную цель.

Так что то, что происходит в реальном времени, может быть затронуто только в будущем, но история уже может быть довольно хорошо изменена с помощью голосовых клонов.

От траха к траху

В прошлом году в США вышел фильм «Падение», в котором два главных героя застревают на очень высокой радиомачте. Застревание на высоте оборачивается для главных героев парой часов волнения и крайнего чувства разочарования. Они направили их особенно в ругательство F английского языка.

После выхода фильма продюсерская компания решила, что им также нужна версия фильма с рейтингом PG13 для распространения. Ругань не подходит для этого возрастного ограничения. Как сдержать мат, который уже развязался?

С клонированием голоса. Продюсерская компания наняла для этой задачи стартап искусственного интеллекта FlawlessAI, который сделал голосовые клоны обоих актеров, смоделировал их движения лица, а затем, используя комбинацию голосовых клонов и реанимации, изменил «Fuckings» на более легкое «Frickings».

Ничего, кроме чистой версии PG13 для магазинов. Редактирование истории на основе видео или аудио быстро становится очень простым. Это ставит перед реальностью дилемму: что же произошло на самом деле?

«Возможно, вскоре нам придется предположить, что большая часть контента в Интернете — это мошенничество или манипуляция», — говорит Джувела.

Конечно, в будущем аутентичный контент может нуждаться в сертификате, возможно, для публикации контента потребуются учетные данные онлайн-банка, полусерьезно размышляет Джувела.

В выходные в Интернете восхищались ярким стилем Папы, пока не выяснилось, что изображение является продуктом искусственного интеллекта Midjourney по приказу американского ракшадунара, который играл с искусственным интеллектом. Потребовались публичное выступление и сотни исправлений, чтобы даже восприятие жизненного выбора Папы довести до уровня, соответствующего действительности.

Хорошие и плохие разработчики ИИ

Джувела рассматривает ситуацию как возможность для бесконечной игры в кошки-мышки, когда другие разработчики искусственного интеллекта разрабатывают сертификаты и модели для обнаружения подделок, а разработчики другой стороны модифицируют свои модели, чтобы их не «поймали».

Эти угрожающие образы — одна из причин, почему Ювела вернулся в университетский мир после времени, проведенного в частном секторе. Искусственный интеллект и голос повлияют на нашу жизнь, и Juvela хочет создать платформу для обсуждения этих эффектов.

В будущем невиновному потребителю может позвонить с клонированного номера банковский служащий с клонированным голосом, который попросит назвать идентификационный код и ключевые номера в контексте срочного банковского дела. Уже в 2019 году у британского генерального директора якобы украли 220 000 евро, когда голосовой клон его босса посоветовал ему по телефону сделать денежный перевод в венгерский банк.

Ненастоящие сотрудники или авторитеты могут быть только началом: мошенник, вооруженный достаточно хорошим речевым материалом и искусственным интеллектом, может в будущем обращаться к своей цели голосом, например, этого брата, сестры, родителя или партнера. Торговая комиссия США, отвечающая за защиту прав потребителей, недавно опубликовала предупреждение о мошенничестве с голосовыми клонами, в рамках которого поступают звонки от родственников с просьбой о деньгах, например, для внесения залога в тюрьме.

Хотя преступники — великие новаторы, по словам Джувелы, ученые также настороженно относятся к контрмерам. Например, помощник с искусственным интеллектом, который поставляется с телефоном, может быть основным брандмауэром людей против различных мошенничеств.

– Создание щитов сейчас является большой исследовательской тенденцией. Однако остается вопрос, насколько эффективными станут меры противодействия, когда новые типы атак изобретаются так быстро, говорит Джувела.