Представлена новая модель нейросети — Whisper Turbo от OpenAI. Как и прежняя версия Whisper расшифровывает (переводит) аудио в текст, только вот эта нейросеть делает это очень быстро. Перевод звука в текст ведется на 99 языках. Скачать и попользоваться можно на Github.
Нейронка в 8 раз быстрее предыдущей верии и точнее (хотя не точно). Самое интересное в том, что и по объему эта модель меньше.
Модели Whisper, известна своей универсальностью при работе с различными языками и акцентами, широко используются в различных приложениях, начиная от автоматизированного обслуживания клиентов и заканчивая созданием контента.
Особенности нейросети Whisper Turbo
- Может расшифровать 2 минуты текста за 12 секунд
- Без ошибок работает в 8 раз быстрее
- Можно загрузить аудиофайлы, видеофайлы, причем длинна не ограничена
- Русский язык поддерживается
- Расшифрованный текст можно экспортировать
- Полностью бесплатен
Как пользоваться Whisper Turbo онлайн
На сегодняшний день является одной из самых продвинутых в обработке голоса и перевода звука в текст. Отлично распознает акценты, обрабатывает фоновые шумы.
- Переходим на Huggingface
- Загружаем файл аудио или вставляем ссылку на видео с Ютуба *у нас почему-то не загрузилось
- Можно даже записать звук на микрофон и потом работать с ним
- Язык и какие-то настройки указывать не надо
- Выберите «
- Нажимаем «Submit»
- Предстоит немного подождать и получите результат
Whisper обучена на огромном наборе данных из 680 000 часов многоязычных записей. Эта модель является лидером в распознавании речи, а ее способность обрабатывать различные акценты и фоновые шумы просто потрясающая.