вологість:
тиск:
вітер:
Google навчила Gemini 2.5 розуміти та передавати емоції у діалогах
На конференції Google I/O 2025 компанія анонсувала нову версію своєї мультимодальної моделі Gemini 2.5 , яка тепер підтримує генерацію аудіо та діалогів у реальному часі. Ці можливості доступні у попередній версії для розробників через платформи Google AI Studio та Vertex AI. Gemini 2.5 Flash Preview забезпечує реалістичну голосову взаємодію з ШІ, включаючи розпізнавання емоційного забарвлення мови, адаптацію інтонації та акценту, а також можливість перемикання між більш ніж 24 мовами. Модель може ігнорувати шуми фону та використовувати зовнішні інструменти, такі як «Пошук», для отримання актуальної інформації під час діалогу.
Додатково, Gemini 2.5 пропонує розширені функції синтезу мови (TTS), дозволяючи керувати стилем, темпом та емоційною виразністю озвучування. Підтримується генерація діалогів з кількома голосами, що робить модель придатною для створення подкастів, аудіокниг та інших мультимедійних продуктів.
Для забезпечення прозорості всі згенеровані моделлю аудіо маркуються за допомогою технології SynthID, що дозволяє ідентифікувати контент як згенерований ШІ. Розробники можуть випробувати нові функції через вкладки Stream і Generate Media в Google AI Studio. Gemini 2.5 демонструє значний крок вперед у галузі мультимодальних ШІ-систем, поєднуючи модальності текстів, зображень, аудіо та відео в єдину платформу. Нові функції відкривають широкі перспективи для створення інтерактивних програм, віртуальних асистентів та інновацій у сфері освіти.

Новини рубріки

У Ґренландія мегацунамі — по всьому світу сейсмічна активність. Вчені з’ясували причину
06 червня 2025 р. 23:07

Microsoft опублікувала скрипт для відновлення папки inetpub, яку не слід видаляти
06 червня 2025 р. 21:52

Покупатели получили Nintendo Switch 2 во вскрытых коробках с заляпанными экранами
06 червня 2025 р. 19:41