1-Cómo Funciona Whisper de OpenAI con Python

junio 30, 2025

Cómo Funciona Whisper de OpenAI con Python — Transcripción de Audio a Texto

Whisper es un modelo de código abierto de OpenAI diseñado para convertir audio en texto. Puedes usarlo para transcribir grabaciones, subtitular videos o incluso convertir archivos de audio en texto en tiempo real.

En este tutorial te explico cómo funciona Whisper con Python y cómo puedes empezar a utilizarlo en tus proyectos.

🔧 Requisitos Previos

Antes de empezar, asegúrate de tener:

✅ Python 3.8 o superior
✅ pip actualizado
✅ Git (opcional si instalas desde repositorio)
✅ Entorno virtual recomendado

🐍 Instalación de Whisper

Puedes instalar Whisper con el siguiente comando:


pip install git+https://github.com/openai/whisper.git

Nota: Whisper usa ffmpeg para procesar archivos de audio y video. Instálalo así:

En Windows:

Descarga ffmpeg desde https://ffmpeg.org/download.html y agrega la carpeta bin al PATH del sistema.

En Linux o MacOS:

bash

sudo apt update && sudo apt install ffmpeg -y

📥 Ejemplo Básico de Uso

Una vez instalado, puedes convertir un archivo de audio en texto con unas pocas líneas de código:

python
import whisper

# Cargar el modelo (puede ser 'tiny', 'base', 'small', 'medium' o 'large')
model = whisper.load_model("base")

# Transcribir un archivo de audio o video
result = model.transcribe("mi_audio.mp3", language='es')

# Mostrar el texto transcrito
print(result["text"])

Puedes usar archivos .mp3, .wav, .mp4, entre otros.

📂 ¿Qué Devuelve el Modelo?

La variable result es un diccionario con:

python

{
    "text": "Texto completo transcrito",
    "segments": [...],  # Si deseas dividir por fragmentos
    "language": "es"
}

Ejemplo de salida:

python

{'text': 'Hola, esta es una prueba de transcripción con Whisper de OpenAI.', 'language': 'es'}

🚀 Opciones del Modelo

Puedes elegir diferentes modelos según precisión y velocidad:

Modelo	Precisión	Velocidad	Recomendado para
tiny	Baja	Muy rápida	Pruebas rápidas
base	Media	Rápida	Uso general
small	Buena	Normal	Mejor transcripción
medium	Muy buena	Más lenta	Alta calidad
large	Excelente	Lenta	Máxima precisión

🎧 Transcripción de Videos

También puedes transcribir videos directamente:

bash
whisper "mi_video.mp4" --language Spanish --model base --output_format txt

El texto se guardará en un archivo .txt en el mismo directorio.

🌎 Detección de Idioma Automática

Si no sabes el idioma, Whisper puede detectarlo:

python

result = model.transcribe("archivo.mp3")
print(f"Idioma detectado: {result['language']}")
print(result['text'])

📝 Conclusión

Whisper es una poderosa herramienta de transcripción que puedes integrar en:

✅ Aplicaciones de accesibilidad
✅ Generación de subtítulos
✅ Análisis de audios judiciales o entrevistas
✅ Proyectos de IA o automatización

⚡ Recursos Útiles

Repositorio oficial: https://github.com/openai/whisper
Modelos y documentación: https://openai.com/research/whisper

Buscar este blog

sotelo-Web Speech API

1-Cómo Funciona Whisper de OpenAI con Python

Cómo Funciona Whisper de OpenAI con Python — Transcripción de Audio a Texto

🔧 Requisitos Previos

🐍 Instalación de Whisper

En Windows:

En Linux o MacOS:

📥 Ejemplo Básico de Uso

📂 ¿Qué Devuelve el Modelo?

🚀 Opciones del Modelo

🎧 Transcripción de Videos

🌎 Detección de Idioma Automática

📝 Conclusión

⚡ Recursos Útiles

Comentarios

Publicar un comentario

Entradas más populares de este blog

b-Web Speech API

captura video con audio del sistema (como música o sonidos del navegador) pero sin usar el micrófono

EL audio lo envia el navegador-Transcripción de Voz con Whisper