Главная » Hi-News » Google создала базу из тысячей записей синтезированной речи

Google создала базу из тысячей записей синтезированной речи

По крайней мене все к этому идет: вот в Google, например, смогли собрать базу данных из тысячей записей синтезированной английской речи, сообщается в блоге компании. Похоже, в ближайшем будущем человеческое общение будет сведено к минимуму. Таким образом специалисты еще на один шаг приблизились к тому, чтобы система могла воспроизводить устную речь, которая будет неотличима от человеческой.

Для конечной модели достаточно репрезентативной выборки данных — а дальше система сама определяет, сколько фонем ей необходимо для дальнейшего синтеза. Синтез речи нужен для формирования речевого сигнала из печатного текста, причем совсем необязательно, чтобы человек, который записывает свой голос для системы, говорил все фразы целиком.

Дело в том, что если качественный синтез окажется в руках злоумышленников, они могут использовать чужой голос в собственных корыстных целях. Зачем записи речи собрали в единый масштабный датасет? Для чтения использовалось 68 разных синтезированных голосов. Чтобы этого не допустить, эксперты Google опубликовали базу из несколько тысяч отрывков из газет. Они занимаются созданием систем, позволяющих автоматически отличить синтезированную речь от реальной. Правда, пока массив данных доступен только для участников конкурса Automatic Speaker Verification.

Для подражания голосу системе достаточно лишь нескольких секунд аудиозаписи голоса требуемого человека, на основе которых и будет создан звуковой фрагмент. Два года назад компания Lyrebird из Монреаля создала речевой синтезатор на основе ИИ, способный воспроизвести любой голос. ИИ учится распознавать особенности речи человека, а затем эти данные уже используются для синтеза искусственного голоса. Точное подражание голосу возможно благодаря использованию нейронных сетей на основе искусственного интеллекта, работающих по тем же принципам, что нейронные сети человеческого мозга.

Правда, и там ест недостатки: есть проблемы с разборчивостью произносимой речи, присутствуют «голосовые артефакты» и некоторые другие признаки, указывающие на то, что слова произносит машина.

Не забудьте подписаться на наш канал с новостями.

Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё про высокие технологии

Офтальмологи провели первую операцию по сохранению зрения при помощи генов

Ученые надеются, что со временем этот процесс можно будет остановить, и уже сделали огромный шаг к достижению этой цели. Возрастная потеря зрения — довольно распространенное явление среди всех слоев населения. Они применили довольно необычный подход, который подразумевает доставку специального гена ...

NASA нашло новый айсберг размером с Лондон

Ледяная глыба поражает прежде всего своими размерами: по данным исследователей, его площадь составляет 1,7 тысячи квадратных километров. Ученые из NASA Earth Observatory показали будущий айсберг, который сформировался из-за многокилометровой трещины в шельфовом леднике Бранта. Подробности сообщаются на сайте организации. Это ...