Китайская компания Baidu опубликовала пресс-релиз, в котором сообщается о новейших достижениях в области создания искусственного интеллекта (далее ИИ). Уникальная система, функционирующая на платформе нейронной сети, может на основе даже короткого фрагмента аудиозаписи синтезировать голос человека. Программа прекрасно копирует человеческую речь и даже вносит в нее характерные особенности, например, акцент или заикание.

Для более ранних версий приложений требовался достаточно продолжительный фрагмент, который анализировался, а на основе его анализа происходило клонирование речи объекта исследования. Подобная ситуация кардинально изменилась в 2017 году усилиями инженеров Baidu Deep Voice, которые сделали презентацию технологии, позволявшую использовать аудиозапись голоса продолжительностью всего 30 минут, для имитирования речи определенного человека.

В этой сфере появились серьезные конкуренты, программы которых работали на основе коротких фрагментов. Например, компания Adobe создала приложение VoCo, которой для анализа и последующего клонирования речи достаточно всего 20 минутной аудиозаписи. Но самую уникальную разработку продемонстрировала канадская компания Lyrebird – для создания копии голоса программе хватало всего одной минуты образца речи. Благодаря наличию мощной конкуренции Baidu не остановилась и создала программу клонирования, которой для проведения анализа достаточно фрагмента аудиозаписи продолжительностью несколько секунд

Зачем нужны подобные технологии? На первый взгляд в них нет никакой практической пользы, просто наглядная демонстрация возможностей ИИ. Ученые считают, что это серьезное заблуждение, ведь в будущем подобные технологии обязательно будут востребованы. Например, человек в результате травмы потерял голос, попросту стал немым. Технология клонирования человеческой речи поможет ему вновь говорить и общаться с людьми. Этот пример – только незначительная часть возможностей, которые могут быть достигнуты в будущем.

. В робототехнике подобная технология найдет применение при создании персональных роботов-ассистентов, которые будут разговаривать не металлическим (цифровым) голосом, а настоящим человеческим, мужским или женским, с акцентом или без него.

Любую технологию можно применить во благо или использовать ее для злоупотреблений и нарушений закона. Известный в сети портал New Scientist опубликовал сообщение, что последняя версия программы создает такой тип голосов, который способен обмануть систему распознавания в 95% случаев. Добровольцам предложили оценить качество имитированных голосов. На слух они оценили качество на 3,16 балла из 4 баллов. Поэтому следует ожидать появления случаев обмана и мошенничества, использующих достижения программ ИИ, отметили журналисты.

Уже созданы уникальные программы, способные изменять или даже клонировать лица на видео. Сейчас в сети демонстрируются сотни порнороликов с лицами знаменитостей вместо лиц моделей. Пока все это выглядит невинной детской шалостью, но технологии развиваются, и придет время появление «фейковых новостей». Важные лица, президенты, министры, депутаты будут говорить о том, о чем бы они никогда не сказали в реальной жизни.

Да и сейчас многих людей обманывают, используя уже привычные программы, например, приложение Photoshop. Трудно представить проблемы, с которыми столкнется человечество, если в злые руки попадет ИИ, превосходящий возможности фотошопа в миллиарды раз.

Spread the love