Google представила Translatotron — технологию синхронного перевода устной речи

Google представила Translatotron — технологию синхронного перевода устной речи

Google представила Translatotron — технологию синхронного перевода устной речи.

В Google говорят, что современные технологии по переводу устной речи обычно состоят из трех этапов:

  • распознавание текста
  • перевод текста
  • синтез текста в голос.

Такая система хорошо себя зарекомендовала во многих продуктах, в том числе в Google Translate, говорят в компании. 

Новый экспериментальный алгоритм Google пропускает этап расшифровки речи в текст. Созданная разработчиками нейросеть принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл.

Алгоритм google translate

Кроме того, Translatotron умеет сохранять интонации и паузы в речи, а также голос говорящего при переводе. Однако при сохранении исходного голоса перевод немного отличается, поскольку эта версия нейросети обучена на меньшем количестве данных.

В Google выделяют несколько преимуществ Translatotron. Технология может быстрее совершать перевод (по сравнению с «каскадными» системами), избавляется от возможных ошибок при распознавании текста и может лучше справляться со словами, которые не нуждаются в переводе (например, названия и имена собственные). 

Сейчас Translatotron выдает перевод хуже, чем системы с распознаванием текста, но в Google уверены, что создать рабочую технологию прямого перевода устной речи возможно: «Насколько нам известно, Translatotron — первая модель, которая может напрямую переводить речь с одного языка на речь на другом языке. Мы надеемся, что эта работа послужит отправной точкой для будущих исследований подобных систем».  

Посмотреть примеры работы алгоритма можно на странице Google на Github.

0 13

Комментарии:

Пожалуйста авторизируйтесь, чтобы получить возможность оставлять комментарии