Google обучава Gemini да разбира и предава емоции

Новите функции на AI модела Gemini откриват широки перспективи за създаване на интерактивни приложения (снимка: CC0 Public Domain)

На конференцията за за разработчици Google I/O 2025 интернет компанията обяви нова версия на своя мултимодален модел с изкуствен интелект Gemini 2.5, който вече поддържа генериране на аудио и диалози в реално време. Тези възможности са достъпни за предварителен преглед чрез платформите Google AI Studio и Vertex AI.

Gemini 2.5 Flash Preview поддържа реалистични гласови взаимодействия с изкуствен интелект, включително разпознаване на емоционална реч, адаптация на интонацията и акцента, както и възможност за превключване между повече от 24 езика.

Подобреният AI модел може да игнорира фоновия шум и да използва външни инструменти като “Търсене”, за да извлича подходяща информация по време на диалог, съобщи Google в блог публикация.

В допълнение, Gemini 2.5 предлага разширени функции за преобразуване на текст в реч (TTS), което позволява на потребителите да контролират стила, темпото и емоционалната изразителност на гласа зад кадър.

AI моделът поддържа също генериране на диалози с множество гласове – функционалност, която прави Gemini подходящ за създаване на подкасти, аудиокниги и други мултимедийни продукти.

За да гарантира прозрачност, цялото аудио, генерирано от AI модела, е маркирано с технологията SynthID, която позволява съдържанието да бъде идентифицирано като създадено от изкуствен интелект.

Разработчиците могат да изпробват новите функции на Gemini чрез разделите „Stream” и „Generate Media” в Google AI Studio.

Gemini 2.5 e значителна стъпка напред в мултимодалните системи с изкуствен интелект, комбинирайки текст, изображение, аудио и видео в една платформа. Новите функции откриват широки перспективи за създаване на интерактивни приложения, виртуални асистенти и иновации в областта на образованието.

Коментар