1-1-Cómo Echar a Andar Whisper con Python

 

Cómo Echar a Andar Whisper con Python — Guía Paso a Paso y Estructura del Proyecto

A continuación te explico cómo configurar un proyecto básico para usar Whisper en Python y convertir audios o videos en texto.


📁 Estructura Recomendada del Proyecto

Puedes organizar tu proyecto así:

bash
mi_proyecto_whisper/ │ ├── audios/ # Carpeta donde pondrás tus archivos de audio o video │ ├── prueba.mp3 │ └── entrevista.wav │ ├── transcripciones/ # Aquí se guardarán los textos generados │ ├── transcribir.py # Script principal de transcripción │ ├── requirements.txt # Lista de dependencias │ └── README.md # Descripción del proyecto

⚙️ Paso 1: Crear Entorno Virtual (opcional pero recomendado)

Desde la terminal:

bash
python -m venv venv

Activar el entorno:

  • Windows:

bash
venv\Scripts\activate
  • Linux/MacOS:

bash
source venv/bin/activate

⚙️ Paso 2: Instalar Dependencias

Dentro del entorno virtual:

bash
pip install git+https://github.com/openai/whisper.git pip install torch # Dependencia necesaria para Whisper

Agrega esto a requirements.txt:

arduino
git+https://github.com/openai/whisper.git torch

Instala FFmpeg:

bash
sudo apt install ffmpeg

Verifica que FFmpeg funciona:

bash
ffmpeg -version

⚙️ Paso 3: Crear el Script Principal

Contenido de transcribir.py:

python
import whisper import os # Cargar el modelo model = whisper.load_model("base") # Carpeta de entrada y salida entrada = "audios" salida = "transcripciones" # Crear carpeta de salida si no existe os.makedirs(salida, exist_ok=True) # Procesar todos los archivos de la carpeta 'audios' for archivo in os.listdir(entrada): if archivo.endswith((".mp3", ".wav", ".mp4")): ruta_audio = os.path.join(entrada, archivo) print(f"Transcribiendo: {ruta_audio}") resultado = model.transcribe(ruta_audio, language="es") # Guardar el texto transcrito nombre_salida = os.path.splitext(archivo)[0] + ".txt" ruta_salida = os.path.join(salida, nombre_salida) with open(ruta_salida, "w", encoding="utf-8") as f: f.write(resultado["text"]) print(f"Transcripción guardada en: {ruta_salida}\n")

⚡ Paso 4: Ejecutar el Proyecto

Asegúrate de tener archivos en la carpeta audios, por ejemplo audios/prueba.mp3.

Ejecuta el script:

bash
python transcribir.py

El texto transcrito se guardará en transcripciones/prueba.txt.


🛠️ Notas Importantes

✅ Puedes cambiar el modelo (tiny, small, medium, large) según tus necesidades de velocidad y precisión.
✅ Soporta audio en español, inglés y otros idiomas. Puedes omitir "language='es'" y dejar que detecte el idioma automáticamente.
✅ Whisper funciona con archivos .mp3, .wav, .m4a, .mp4, entre otros.


📦 Extras: Versión por Línea de Comandos

También puedes usar Whisper directamente sin escribir código:

bash
whisper audios/prueba.mp3 --language Spanish --model base --output_dir transcripciones --output_format txt

🚀 Conclusión

Ya tienes listo un entorno funcional para transcribir audios o videos a texto usando Whisper de OpenAI. Es ideal para subtitulados, análisis de entrevistas o automatizar tareas de transcripción

Comentarios

Entradas más populares de este blog

b-Web Speech API

captura video con audio del sistema (como música o sonidos del navegador) pero sin usar el micrófono

EL audio lo envia el navegador-Transcripción de Voz con Whisper