1-1-Cómo Echar a Andar Whisper con Python

junio 30, 2025

Cómo Echar a Andar Whisper con Python — Guía Paso a Paso y Estructura del Proyecto

A continuación te explico cómo configurar un proyecto básico para usar Whisper en Python y convertir audios o videos en texto.

📁 Estructura Recomendada del Proyecto

Puedes organizar tu proyecto así:

bash
mi_proyecto_whisper/
│
├── audios/               # Carpeta donde pondrás tus archivos de audio o video
│   ├── prueba.mp3
│   └── entrevista.wav
│
├── transcripciones/      # Aquí se guardarán los textos generados
│
├── transcribir.py        # Script principal de transcripción
│
├── requirements.txt      # Lista de dependencias
│
└── README.md             # Descripción del proyecto

⚙️ Paso 1: Crear Entorno Virtual (opcional pero recomendado)

Desde la terminal:

bash
python -m venv venv

Activar el entorno:

Windows:

bash
venv\Scripts\activate

Linux/MacOS:

bash
source venv/bin/activate

⚙️ Paso 2: Instalar Dependencias

Dentro del entorno virtual:

bash
pip install git+https://github.com/openai/whisper.git
pip install torch  # Dependencia necesaria para Whisper

Agrega esto a requirements.txt:

arduino
git+https://github.com/openai/whisper.git
torch

Instala FFmpeg:

Windows: Descargar desde https://ffmpeg.org/download.html y agregar a PATH.
Linux/MacOS:

bash
sudo apt install ffmpeg

Verifica que FFmpeg funciona:

bash
ffmpeg -version

⚙️ Paso 3: Crear el Script Principal

Contenido de transcribir.py:

python
import whisper
import os

# Cargar el modelo
model = whisper.load_model("base")

# Carpeta de entrada y salida
entrada = "audios"
salida = "transcripciones"

# Crear carpeta de salida si no existe
os.makedirs(salida, exist_ok=True)

# Procesar todos los archivos de la carpeta 'audios'
for archivo in os.listdir(entrada):
    if archivo.endswith((".mp3", ".wav", ".mp4")):
        ruta_audio = os.path.join(entrada, archivo)
        print(f"Transcribiendo: {ruta_audio}")

        resultado = model.transcribe(ruta_audio, language="es")

        # Guardar el texto transcrito
        nombre_salida = os.path.splitext(archivo)[0] + ".txt"
        ruta_salida = os.path.join(salida, nombre_salida)

        with open(ruta_salida, "w", encoding="utf-8") as f:
            f.write(resultado["text"])

        print(f"Transcripción guardada en: {ruta_salida}\n")

⚡ Paso 4: Ejecutar el Proyecto

Asegúrate de tener archivos en la carpeta audios, por ejemplo audios/prueba.mp3.

Ejecuta el script:

bash
python transcribir.py

El texto transcrito se guardará en transcripciones/prueba.txt.

🛠️ Notas Importantes

✅ Puedes cambiar el modelo (tiny, small, medium, large) según tus necesidades de velocidad y precisión.
✅ Soporta audio en español, inglés y otros idiomas. Puedes omitir "language='es'" y dejar que detecte el idioma automáticamente.
✅ Whisper funciona con archivos .mp3, .wav, .m4a, .mp4, entre otros.

📦 Extras: Versión por Línea de Comandos

También puedes usar Whisper directamente sin escribir código:

bash
whisper audios/prueba.mp3 --language Spanish --model base --output_dir transcripciones --output_format txt

🚀 Conclusión

Ya tienes listo un entorno funcional para transcribir audios o videos a texto usando Whisper de OpenAI. Es ideal para subtitulados, análisis de entrevistas o automatizar tareas de transcripción

Buscar este blog

sotelo-Web Speech API

1-1-Cómo Echar a Andar Whisper con Python

Cómo Echar a Andar Whisper con Python — Guía Paso a Paso y Estructura del Proyecto

📁 Estructura Recomendada del Proyecto

⚙️ Paso 1: Crear Entorno Virtual (opcional pero recomendado)

⚙️ Paso 2: Instalar Dependencias

⚙️ Paso 3: Crear el Script Principal

⚡ Paso 4: Ejecutar el Proyecto

🛠️ Notas Importantes

📦 Extras: Versión por Línea de Comandos

🚀 Conclusión

Comentarios

Publicar un comentario

Entradas más populares de este blog

b-Web Speech API

captura video con audio del sistema (como música o sonidos del navegador) pero sin usar el micrófono

EL audio lo envia el navegador-Transcripción de Voz con Whisper