Whisper Turbo нейросеть для расшифровки аудио

Представлена новая модель нейросети — Whisper Turbo от OpenAI. Как и прежняя версия Whisper расшифровывает (переводит) аудио в текст, только вот эта нейросеть делает это очень быстро. Перевод звука в текст ведется на 99 языках. Скачать и попользоваться можно на Github.

Нейронка в 8 раз быстрее предыдущей верии и точнее (хотя не точно). Самое интересное в том, что и по объему эта модель меньше.

Модели Whisper, известна своей универсальностью при работе с различными языками и акцентами, широко используются в различных приложениях, начиная от автоматизированного обслуживания клиентов и заканчивая созданием контента.

Особенности нейросети Whisper Turbo

Может расшифровать 2 минуты текста за 12 секунд
Без ошибок работает в 8 раз быстрее
Можно загрузить аудиофайлы, видеофайлы, причем длинна не ограничена
Русский язык поддерживается
Расшифрованный текст можно экспортировать
Полностью бесплатен

Как пользоваться Whisper Turbo онлайн

На сегодняшний день является одной из самых продвинутых в обработке голоса и перевода звука в текст. Отлично распознает акценты, обрабатывает фоновые шумы.

Переходим на Huggingface
Загружаем файл аудио или вставляем ссылку на видео с Ютуба *у нас почему-то не загрузилось
Можно даже записать звук на микрофон и потом работать с ним
Язык и какие-то настройки указывать не надо
Выберите «transcribe» либо «translate»
Нажимаем «Submit»
Предстоит немного подождать и получите результат

Whisper обучена на огромном наборе данных из 680 000 часов многоязычных записей. Эта модель является лидером в распознавании речи, а ее способность обрабатывать различные акценты и фоновые шумы просто потрясающая.