Как нейросети крадут голоса и чем нам это грозит?

Скоро мы можем остаться без работы — её воруют нейросети! С такой жалобой недавно выступили профессиональные дикторы, которые недовольны тем, что современные технологии позволяют довольно легко взять и сымитировать даже чей-то конкретный голос. Естественно, не заплатив его обладателю. Серьёзна ли проблема и что реально происходит на рынке озвучки?

Для профессиональной актрисы озвучания и дубляжа Алёны Андроновой голос — визитная карточка. Потерять его — значит лишиться работы. Но Алёна даже не подозревала, какой неожиданный поворот может приготовить судьба. Ее голос появился в рекламе 18+. 

Пока Алёна выясняла, что произошло, реклама сомнительного содержания уже разлетелась по сети. Оказалось, конструктор с её голосом за более чем скромные 820 рублей (в расчёте на 400 страниц текста) продаётся на сайте банка, с которым она, действительно, сотрудничала: записывала фрагменты для создания будущего виртуального помощника. Но он так и не появился. Зато наплодилось много другого, на что актриса сама бы никогда не согласилась.

Банк теперь ссылается на договор, подписанный с Алёной, по которому она передала права на свои записи. И как их использовать — уже дело компании. Адвокаты актрисы теперь оспаривают это в суде, требуя компенсации морального ущерба в размере почти 6 миллионов рублей. А ещё актриса создала петицию о защите голосов от воровства и мошенничества. К этому воззванию уже присоединились более 24 000 человек. Союз дикторов просит Госдуму разработать законы о синтезе голоса искусственным интеллектом. Под этим письмом поставил свою подпись и диктор с 25-летним стажем Александр Шаронов. 

Чтобы диктора было приятно слушать, он всю жизнь тренирует свой голос и учится управлять тембром, дикцией, интонациями. И, конечно, никому не хочется потерять годы, а то и десятилетия ежедневной работы, потраченные на оттачивание своего фирменного звука. Между тем, украсть голос могут не только у дикторов и актёров, записи которых доступны в сети благодаря фильмам и аудиокнигам.

Появились случаи мошенничества с использованием нейросетей! Так, одному топ-менеджеру из Гонконга позвонил человек, похожий по голосу на его директора, и велел провести сделку на 35 миллионов долларов. Тот, не сомневаясь, всё выполнил, но деньги ушли на счета мошенников, а голос звонившего оказался поддельным. Полиция до сих пор расследует дело. В сети есть истории родителей, которым звонили якобы их дети с криком о помощи и просьбой срочно отправить деньги.

Как же удаётся клонировать речь человека? Для начала надо собрать исходные данные — записи голоса. Например, когда компания создаёт цифрового секретаря, то диктору или актёру выдают тексты с разными эмоциями. В специальной программе звуки сопоставляют с буквами, как в караоке. И отдают материал нейросети.

Программисты учат компьютер и правильно расставлять эмоции — для него это всплески на спектрограмме. Результат оттачивают до тех пор, пока он не станет более-менее естественным. Кстати, программы, с помощью которых это можно сделать, есть и в открытом доступе!

Мы все в зоне риска. И после случившегося с ней актриса Алёна Андронова, например, ввела новые правила в общении с близкими. Если во время звонка она попросит денег, нужно будет назвать кодовые слова. 

И подобные опасения есть не только у дикторов. Но оправданны ли они? Многие ещё боятся, что злоумышленники могут записать из ваших телефонных разговоров слова «да» или «нет» и потом используют, чтобы украсть деньги при звонке в банк. На самом деле, так не бывает — для проведения операций всегда запрашивается и другая информация. И банки создают всё новую защиту от голосового мошенничества.

И у мошенников, как говорят эксперты, есть менее трудозатратные схемы, чем обучать искусственный интеллект вашей речи по немногочисленным записям. Хотя, если на кону большие суммы, может быть всё. Базой способны стать ваши голосовые сообщения или видео из социальных сетей. Создаётся, впрочем, и защита. Например, питерская компания-разработчик продуктов на основе разговорного искусственного интеллекта сейчас совершенствует такую технологию. Специальную программу учат отличать, звонит ли сам человек или звучит его записанная речь либо синтезированный голос.

Мы решили протестировать систему. Для испытаний IT-специалист нашей редакции Игорь Терехов сделал копию голоса через бесплатную программу. Заплатил только за сервер и облачное хранилище — около 3000 рублей. Обучал нейросеть на студийных записях. Причём она делала всё сама. Понадобилось всего около недели, чтобы добиться схожести без ярких роботизированных ноток. И это впечатляет! Но защита все же справилась. 

Хорошо, что синтезирование речи применяется не только во зло, но и во благо. Например, с помощью этой технологии возвращают голоса после травм или болезней. Парализованная в результате инсульта американка Энн Джонсон смогла заговорить спустя 18 лет. Ей в голову установили нейроимплант, который распознаёт сигналы мозга и переводит их в слова. А озвучивает желаемое виртуальный аватар.

Исследователи из Калифорнийского университета использовали записи речи Энн с её свадьбы. И взяв их за основу, клонировали голос. Немногочисленных записей — всего четырех минут — хватило, чтобы в рекламе одного российского банка заговорил на современный лад Жорж Милославский из фильма «Иван Васильевич меняет профессию». Это стоило дорого!

А если вложить не так много усилий, то результат окажется скорее комичным — как синтезированная нейросетями цифровая ведущая прогноза погоды Снежана Туманова на одном из ставропольских телеканалов. Впрочем, интонации не так важны, когда речь идёт просто о получении полезной информации. Для этого придумана, например, бот системы московского транспорта Александра. Она рассказывает в голосовых сообщениях о маршрутах, новостях, интересных фактах. 

Кстати, кто именно подарил свой голос Александре, разработчики держат в секрете. Ну а мы решили попробовать — получится ли с помощью доступных программ превратить одного человека в другого. Перевоплощать будем нашего продюсера Олесю Массальскую в её коллегу Елену Образцову, которая регулярно читает своей дочке Ксюше сказки перед сном. Удастся ли искусственному интеллекту подделать голос мамы, и обнаружит ли ребёнок подмену? Втайне от Ксюши мы установили в спальне камеры. И попросили Лену, не уходя из комнаты, включить аудио, якобы записанное ею. 

Чуткий слух ребёнка нам обмануть не удалось. Но и сказки, на самом деле, не самый простой материал. Их читают с выражением. А искусственному интеллекту пока сложно как следует передать эмоции человека. Мы ещё раз в этом убедились, проведя эксперимент с клонированием речи харизматичного диктора Александра Шаронова. Он легко узнал, где его натуральный голос, а где синтезированный.

Надо быть реалистами — хотя синтез речи пока ещё не может полноценно заменить всех дикторов, он уже отлично внедряется туда, где важна информация, а не подача. Объявления в аэропортах, голоса автоинформаторов, чат-ботов, даже несложные рекламные песни уже вовсю производятся искусственным интеллектом. И технологии развиваются, даря некоторым дикторам фактически цифровое бессмертие, которому, правда, не все из них рады — потому что платят за это далеко не всегда.


Благодарим за помощь в подготовке сюжета:

  • Актрису дубляжа, диктора Алёну Андронову за то, что решила поделиться своей печальной историей о том, как «украли» её голос.
  • Бренд-войс радиостанции NRJ издательства Bombora — харизматичного диктора, чтеца аудиокниг и профессионала своего дела Александра Шаронова. Ознакомиться с работами Александра вы можете здесь, послушать книги здесь.
  • Экспертов «Лаборатории Касперского» за подробный рассказ о кибербезопасности и советах, как не попасться на уловки мошенников.
  • Digital-юриста Данила Стренина за консультацию по юридическим тонкостям работы диктором и работе нейросетей. Связаться с Данилом можно в Telegram.
  • Федеральную школу радио за оперативный отклик на запрос и приглашение съёмочной группы на мастер-класс, за креативный и грамотный подход к обучению и профессионализм. В Федеральной школе радио вы сможете реализовать давнюю мечту и стать настоящим диктором, а может даже устроиться ведущим на радио. У вас будет возможность попробовать записывать подводки, озвучивать рекламные ролики или новости. И всё это в дружеской и приятной атмосфере!
  • Группу компаний ЦРТ, технологического эксперта в области речевых технологий, лицевой и голосовой биометрии. Компания разрабатывает продукты и решения на основе разговорного искусственного интеллекта, машинного обучения и компьютерного зрения. Личная благодарность генеральному директору группы компаний ЦРТ Дмитрию Дырмовскому и директору научно-исследовательского департамента группы ЦРТ Олегу Петрову за высокий профессионализм и интересный эксперимент в рамках сюжета.
  • «Сбер» за помощь в подготовке сюжета и консультации по вопросам безопасности в финансовой сфере.

Полный выпуск «Чуда техники с Сергеем Малозёмовым» от 22 октября доступен по ссылке

Все полные выпуски программы «Чудо техники» находятся здесь