«Яндекс» создаёт мультимодальную нейросеть SpeechGPT

«Яндекс» разрабатывает новую нейросеть SpeechGPT и ищет специалистов в области машинного обучения для этой работы. Информация об этом появилась в разделе вакансий компании и была замечена изданием «Коммерсантъ».

SpeechGPT будет мультимодальной нейросетью, способной обрабатывать различные типы входных данных. Она сможет воспринимать текст и звук, отвечать текстом и звуком, а также решать задачи на стыке этих двух типов информации, согласно описанию.

Некоторые сервисы Яндекса уже поддерживают работу с данными разных форматов. Например, с помощником «Алиса» можно общаться как голосом, так и текстом, а сервис «Нейро» позволяет обрабатывать одновременно текст и изображения.

Однако, по мнению экспертов, существует разница между мультимодальным пользовательским опытом и мультимодальностью самой нейросети. В первом случае данные преобразуются из одного формата в другой.

Голосовой ассистент преобразует речь в текст, после чего другая нейросеть анализирует полученные данные. Третья нейросеть преобразует ответ обратно из текста в речь. На каждом этапе данные упрощаются. Мультимодальные модели учитывают контент различных типов и способны улавливать эмоции, которые теряются при конвертации, как это делает, например, GPT-4o от OpenAI.

По мнению аналитиков, MVP-версия SpeechGPT может быть выпущена в течение ближайших месяцев и будет дорабатываться. Вероятно, SpeechGPT интегрируют в существующие сервисы, постепенно заменяя текущие нейросетевые модели на более современные.