Google представила Translatotron — технологию синхронного перевода устной речи

Artificial Intelligence Technologies

17.05.2019 0 311

Google представила Translatotron — технологию синхронного перевода устной речи.

В Google говорят, что современные технологии по переводу устной речи обычно состоят из трех этапов:

распознавание текста
перевод текста
синтез текста в голос.

Такая система хорошо себя зарекомендовала во многих продуктах, в том числе в Google Translate, говорят в компании.

Новый экспериментальный алгоритм Google пропускает этап расшифровки речи в текст. Созданная разработчиками нейросеть принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл.

Алгоритм google translate

Кроме того, Translatotron умеет сохранять интонации и паузы в речи, а также голос говорящего при переводе. Однако при сохранении исходного голоса перевод немного отличается, поскольку эта версия нейросети обучена на меньшем количестве данных.

В Google выделяют несколько преимуществ Translatotron. Технология может быстрее совершать перевод (по сравнению с «каскадными» системами), избавляется от возможных ошибок при распознавании текста и может лучше справляться со словами, которые не нуждаются в переводе (например, названия и имена собственные).

Сейчас Translatotron выдает перевод хуже, чем системы с распознаванием текста, но в Google уверены, что создать рабочую технологию прямого перевода устной речи возможно: «Насколько нам известно, Translatotron — первая модель, которая может напрямую переводить речь с одного языка на речь на другом языке. Мы надеемся, что эта работа послужит отправной точкой для будущих исследований подобных систем».

Посмотреть примеры работы алгоритма можно на странице Google на Github.

Comments:

Please log in to be able add comments.