Новий штучний інтелект VALL-E – Кафедра інформаційно-обчислювальних систем і управління

Дослідники анонсували нову модель штучного інтелекту для перетворення тексту в мову під назвою VALL-E , яка може точно імітувати голос людини, якщо отримати трисекундний аудіо зразок. Розпізнавши певний голос, VALL-E може синтезувати аудіо, що говорить ця особа, і робити це таким чином, щоб зберегти емоційний тон мовця.

Корпорація Майкрософт називає VALL-E «моделлю мови нейронних кодеків», і вона побудована на основі технології під назвою EnCodec. На відміну від інших методів перетворення тексту в мовлення, які зазвичай синтезують мовлення шляхом маніпулювання сигналами, VALL-E генерує окремі коди аудіокодеків із текстових і акустичних підказок. По суті, він аналізує, як звучить людина, розбиває цю інформацію на окремі компоненти і використовує дані з начання, щоб зіставити те, що він «знає» про те, як би звучав цей голос, якби він говорив інші фрази за межами трисекундного зразка.

Окрім збереження вокального тембру та емоційного тону оратора, VALL-E також може імітувати «акустичне середовище» зразка аудіо. Наприклад, якщо зразок надійшов із телефонного дзвінка, аудіовихід імітуватиме акустичні та частотні властивості телефонного дзвінка в його синтезованому виході.