8b-gpt_vosk_webcontrol_enriched
https://drive.google.com/file/d/1cymMB2clKSjfWvwtP2kwv9IDBHiYQ8wa/view?usp=drive_link
¡Claro! A continuación te detallo los pasos para instalar y ejecutar correctamente el proyecto gpt_vosk_webcontrol_enriched, además de su estructura y dependencias necesarias:
✅ Requisitos del Sistema
🖥️ Sistema operativo:
-
Windows 10+, Linux, o macOS
🐍 Requisitos de Python:
-
Python 3.8 o superior (recomendado 3.10)
En Windows: Descargar de https://ffmpeg.org/ y añadir al PATH-https://ffmpeg.org/
-
Asegúrate de tener
pipactualizado:
📁 Estructura del Proyecto
🔧 Instalación Paso a Paso
1. 📦 Crear y activar un entorno virtual (opcional pero recomendado)
2. 📥 Instalar dependencias
Nota: En Linux puede que necesites instalar
portaudio:
3. 📂 Descargar el modelo de Vosk
Debes descargar el modelo Vosk en español:
🔗 https://alphacephei.com/vosk/models
Modelo recomendado:
vosk-model-small-es-0.42
📦 Extrae la carpeta dentro de models/ del proyecto, así:
🚀 Cómo ejecutar el proyecto
Con el entorno activado y dependencias instaladas:
El servidor se levantará en:
Abre esa URL en tu navegador.
🌐 Interfaz web
La interfaz tiene:
-
Botón Iniciar: comienza el dictado por micrófono.
-
Botón Detener: detiene y guarda la transcripción.
-
Área editable (
contenteditable) para corregir directamente.
🎯 Personalizar palabras frecuentes (nombres, lugares)
Edita el archivo transcriptor.py:
Agrega palabras que usa frecuentemente para mejorar la precisión del reconocimiento.
¿Deseas que incluya un botón para descargar lo transcrito como .txt o .docx desde el navegador?
Comentarios
Publicar un comentario