On Mon, Dec 16, 2024, 06:49 Juan Erbes <jerbes@gmail.com> wrote:
Después de renegar con herramientas de pago online, finalmente
encontré una herramienta de código abierto y openai:
https://github.com/openai/whisper

Una de sus implementaciones se llama anaconda:
https://repo.anaconda.com/archive/

Esta es la guia de instalación:
https://www.linuxlinks.com/machine-learning-linux-whisper-automatic-speech-recognition-system/

Yo opté por instalarlo en el home de usuario logueado con su en konsole:
sh Anaconda3-2024.10-1-Linux-x86_64.sh

Luego:

$ conda create --name whisper
$ conda activate whisper
$ pipx install openai-whisper

Con todo ello, debería quedar activado y "parado" en el directorio
donde están los mp3 de audio a transcribir se ejecuta:
$ whisper audio.mp3 --model medium --language Spanish

Así por cada mp3. He probado el modelo large, pero tarda demasiado.
Con el modelo medium, al 50% de uso de CPU global con Ryzen 5700X
tarda aprox. 1,1 minutos por cada minuto de audio.

La citada herramienta genera archivos .txt .srt .vtt y .tsv

He encontrado la herramienta faster_whisper:
https://software.opensuse.org//download.html?project=science%3Amachinelearning&package=python-faster_whisper

python311-faster_whisper - Reimplementation of OpenAI's Whisper model
using CTranslate2

faster-whisper is a reimplementation of OpenAI's Whisper model using
CTranslate2, which is a fast inference engine for Transformer models.
This implementation is up to 4 times faster than openai/whisper for
the same accuracy while using less memory. The efficiency can be
further improved with 8-bit quantization on both CPU and GPU.

Elegí python311, porque es la misma versión que activó conda. Me queda
por cambiar las variables de entorno para utilizar faster_whisper:
//usr/lib/python3.11/site-packages/faster_whisper/transcribe.py

la ruta del viejo instalado por pipx es:
/home/usuario/.local/share/pipx/venvs/openai-whisper/lib64/python3.11/site-packages/whisper/transcribe.py

Si alguien lo ha probado o quiere hacerlo, ¡bienvenido sea el aporte!

Salu2



--
USA LINUX OPENSUSE QUE ES SOFTWARE LIBRE, NO NECESITAS PIRATEAR NADA Y
NI TE VAS A PREOCUPAR MAS POR LOS VIRUS Y SPYWARES:
http://www.opensuse.org/es/
Puedes visitar mi blog en:
http://jerbes.blogspot.com.ar/


Hola!, 

Que tal la calidad del resultado?, va sincronizado correctamente?, qué porcentaje de acierto tiene la conversión de audio a texto?.

Atte.
Cyrus.-