
El dom, 5 ene 2025 a las 18:44, Cyrus (<cyruspy@gmail.com>) escribió:
On Mon, Dec 16, 2024, 06:49 Juan Erbes <jerbes@gmail.com> wrote:
Después de renegar con herramientas de pago online, finalmente encontré una herramienta de código abierto y openai: https://github.com/openai/whisper
Una de sus implementaciones se llama anaconda: https://repo.anaconda.com/archive/
Esta es la guia de instalación: https://www.linuxlinks.com/machine-learning-linux-whisper-automatic-speech-r...
Yo opté por instalarlo en el home de usuario logueado con su en konsole: sh Anaconda3-2024.10-1-Linux-x86_64.sh
Luego:
$ conda create --name whisper $ conda activate whisper $ pipx install openai-whisper
Con todo ello, debería quedar activado y "parado" en el directorio donde están los mp3 de audio a transcribir se ejecuta: $ whisper audio.mp3 --model medium --language Spanish
Así por cada mp3. He probado el modelo large, pero tarda demasiado. Con el modelo medium, al 50% de uso de CPU global con Ryzen 5700X tarda aprox. 1,1 minutos por cada minuto de audio.
La citada herramienta genera archivos .txt .srt .vtt y .tsv
He encontrado la herramienta faster_whisper: https://software.opensuse.org//download.html?project=science%3Amachinelearni...
python311-faster_whisper - Reimplementation of OpenAI's Whisper model using CTranslate2
faster-whisper is a reimplementation of OpenAI's Whisper model using CTranslate2, which is a fast inference engine for Transformer models. This implementation is up to 4 times faster than openai/whisper for the same accuracy while using less memory. The efficiency can be further improved with 8-bit quantization on both CPU and GPU.
Elegí python311, porque es la misma versión que activó conda. Me queda por cambiar las variables de entorno para utilizar faster_whisper: //usr/lib/python3.11/site-packages/faster_whisper/transcribe.py
la ruta del viejo instalado por pipx es: /home/usuario/.local/share/pipx/venvs/openai-whisper/lib64/python3.11/site-packages/whisper/transcribe.py
Si alguien lo ha probado o quiere hacerlo, ¡bienvenido sea el aporte!
Hola!,
Que tal la calidad del resultado?, va sincronizado correctamente?, qué porcentaje de acierto tiene la conversión de audio a texto?.
La calidad del resultado depende de la calidad del audio, frecuencia de muestreo y el modelo elegido. Sincroniza correctamente y genera archivos .srt .tsv .txt .vtt y .json Con el modelo medium y audio de buena calidad con una frecuencia de muestreo de 22.050 Hz o 44.100 Hz genera buenos resultados. Lamentablemente algunos audios fueron grabados como voz a una frecuencia de muestreo de 8 KHz, con lo cual cae mucho la precisión, aunque se puede mejorar un poco exportando el audio a mp3 con una frecuencia de muestreo de 22.050. Todos los archivos de audio son tratados con Audacity, aplicando reducción de ruido y nivelando el nivel global del mismo. En algunos casos, también se realiza ecualizado. Como has recortado el email, vuelvo a pegar lo que estoy utilizando: https://github.com/Softcatala/whisper-ctranslate2 No hace falta anaconda3 y para que cree en entorno virtual se utiliza pipx como reemplazo de anaconda3: $pipx install whisper-ctranslate2 Para ejecutarlo, "parado" en el directorio donde están los mp3 a traducir se ejecuta: $whisper-ctranslate2 audio1.mp3 --model medium --language Spanish Si no se especifica el idioma, lo detecta automáticamente y la primera vez descarga algunos archivos. Salu2 -- USA LINUX OPENSUSE QUE ES SOFTWARE LIBRE, NO NECESITAS PIRATEAR NADA Y NI TE VAS A PREOCUPAR MAS POR LOS VIRUS Y SPYWARES: http://www.opensuse.org/es/ Puedes visitar mi blog en: http://jerbes.blogspot.com.ar/