Después de renegar con herramientas de pago online, finalmente
encontré una herramienta de código abierto y openai:
https://github.com/openai/whisper
Una de sus implementaciones se llama anaconda:
https://repo.anaconda.com/archive/
Esta es la guia de instalación:
https://www.linuxlinks.com/machine-learning-linux-whisper-automatic-speech-recognition-system/
Yo opté por instalarlo en el home de usuario logueado con su en konsole:
sh Anaconda3-2024.10-1-Linux-x86_64.sh
Luego:
$ conda create --name whisper
$ conda activate whisper
$ pipx install openai-whisper
Con todo ello, debería quedar activado y "parado" en el directorio
donde están los mp3 de audio a transcribir se ejecuta:
$ whisper audio.mp3 --model medium --language Spanish
Así por cada mp3. He probado el modelo large, pero tarda demasiado.
Con el modelo medium, al 50% de uso de CPU global con Ryzen 5700X
tarda aprox. 1,1 minutos por cada minuto de audio.
La citada herramienta genera archivos .txt .srt .vtt y .tsv
He encontrado la herramienta faster_whisper:
https://software.opensuse.org//download.html?project=science%3Amachinelearning&package=python-faster_whisper
python311-faster_whisper - Reimplementation of OpenAI's Whisper model
using CTranslate2
faster-whisper is a reimplementation of OpenAI's Whisper model using
CTranslate2, which is a fast inference engine for Transformer models.
This implementation is up to 4 times faster than openai/whisper for
the same accuracy while using less memory. The efficiency can be
further improved with 8-bit quantization on both CPU and GPU.
Elegí python311, porque es la misma versión que activó conda. Me queda
por cambiar las variables de entorno para utilizar faster_whisper:
//usr/lib/python3.11/site-packages/faster_whisper/transcribe.py
la ruta del viejo instalado por pipx es:
/home/usuario/.local/share/pipx/venvs/openai-whisper/lib64/python3.11/site-packages/whisper/transcribe.py
Si alguien lo ha probado o quiere hacerlo, ¡bienvenido sea el aporte!
Salu2
--
USA LINUX OPENSUSE QUE ES SOFTWARE LIBRE, NO NECESITAS PIRATEAR NADA Y
NI TE VAS A PREOCUPAR MAS POR LOS VIRUS Y SPYWARES:
http://www.opensuse.org/es/
Puedes visitar mi blog en:
http://jerbes.blogspot.com.ar/
Hola!,
Que tal la calidad del resultado?, va sincronizado correctamente?, qué porcentaje de acierto tiene la conversión de audio a texto?.
Atte.
Cyrus.-