1-Cómo Funciona Whisper de OpenAI con Python

 

 Cómo Funciona Whisper de OpenAI con Python — Transcripción de Audio a Texto

Whisper es un modelo de código abierto de OpenAI diseñado para convertir audio en texto. Puedes usarlo para transcribir grabaciones, subtitular videos o incluso convertir archivos de audio en texto en tiempo real.

En este tutorial te explico cómo funciona Whisper con Python y cómo puedes empezar a utilizarlo en tus proyectos.


🔧 Requisitos Previos

Antes de empezar, asegúrate de tener:

✅ Python 3.8 o superior
✅ pip actualizado
✅ Git (opcional si instalas desde repositorio)
✅ Entorno virtual recomendado


🐍 Instalación de Whisper

Puedes instalar Whisper con el siguiente comando:


pip install git+https://github.com/openai/whisper.git

Nota: Whisper usa ffmpeg para procesar archivos de audio y video. Instálalo así:

En Windows:

Descarga ffmpeg desde https://ffmpeg.org/download.html y agrega la carpeta bin al PATH del sistema.

En Linux o MacOS:

bash

sudo apt update && sudo apt install ffmpeg -y

📥 Ejemplo Básico de Uso

Una vez instalado, puedes convertir un archivo de audio en texto con unas pocas líneas de código:

python
import whisper
# Cargar el modelo (puede ser 'tiny', 'base', 'small', 'medium' o 'large') model = whisper.load_model("base") # Transcribir un archivo de audio o video result = model.transcribe("mi_audio.mp3", language='es') # Mostrar el texto transcrito print(result["text"])

Puedes usar archivos .mp3, .wav, .mp4, entre otros.


📂 ¿Qué Devuelve el Modelo?

La variable result es un diccionario con:

python

{ "text": "Texto completo transcrito", "segments": [...], # Si deseas dividir por fragmentos "language": "es" }

Ejemplo de salida:

python

{'text': 'Hola, esta es una prueba de transcripción con Whisper de OpenAI.', 'language': 'es'}

🚀 Opciones del Modelo

Puedes elegir diferentes modelos según precisión y velocidad:

ModeloPrecisiónVelocidadRecomendado para
tinyBajaMuy rápidaPruebas rápidas
baseMediaRápidaUso general
smallBuenaNormalMejor transcripción
mediumMuy buenaMás lentaAlta calidad
largeExcelenteLentaMáxima precisión

🎧 Transcripción de Videos

También puedes transcribir videos directamente:

bash
whisper "mi_video.mp4" --language Spanish --model base --output_format txt

El texto se guardará en un archivo .txt en el mismo directorio.


🌎 Detección de Idioma Automática

Si no sabes el idioma, Whisper puede detectarlo:

python

result = model.transcribe("archivo.mp3") print(f"Idioma detectado: {result['language']}") print(result['text'])

📝 Conclusión

Whisper es una poderosa herramienta de transcripción que puedes integrar en:

✅ Aplicaciones de accesibilidad
✅ Generación de subtítulos
✅ Análisis de audios judiciales o entrevistas
✅ Proyectos de IA o automatización


⚡ Recursos Útiles

Comentarios

Entradas más populares de este blog

b-Web Speech API

captura video con audio del sistema (como música o sonidos del navegador) pero sin usar el micrófono

EL audio lo envia el navegador-Transcripción de Voz con Whisper