8b-gpt_vosk_webcontrol_enriched

 https://drive.google.com/file/d/1cymMB2clKSjfWvwtP2kwv9IDBHiYQ8wa/view?usp=drive_link

¡Claro! A continuación te detallo los pasos para instalar y ejecutar correctamente el proyecto gpt_vosk_webcontrol_enriched, además de su estructura y dependencias necesarias:


✅ Requisitos del Sistema

🖥️ Sistema operativo:

  • Windows 10+, Linux, o macOS

🐍 Requisitos de Python:

  • Python 3.8 o superior (recomendado 3.10)

  • En Windows: Descargar de https://ffmpeg.org/ y añadir al PATH-https://ffmpeg.org/

  • Asegúrate de tener pip actualizado:

    bash
    python -m pip install --upgrade pip

📁 Estructura del Proyecto

cpp
gpt_vosk_webcontrol_enriched/ ├── app.py ├── transcriptor.py ├── models/ │ └── vosk-model-small-es-0.42/ ← debes colocar aquí el modelo de Vosk ├── templates/ │ └── index.html ├── static/ │ └── script.js

🔧 Instalación Paso a Paso

1. 📦 Crear y activar un entorno virtual (opcional pero recomendado)

bash
python -m venv .venv # En Windows: .venv\Scripts\activate # En Linux/macOS: source .venv/bin/activate

2. 📥 Instalar dependencias

bash
pip install flask flask-socketio eventlet vosk sounddevice

Nota: En Linux puede que necesites instalar portaudio:

bash
sudo apt install portaudio19-dev

3. 📂 Descargar el modelo de Vosk

Debes descargar el modelo Vosk en español:

🔗 https://alphacephei.com/vosk/models

Modelo recomendado:
vosk-model-small-es-0.42

📦 Extrae la carpeta dentro de models/ del proyecto, así:

markdown
models/ └── vosk-model-small-es-0.42/ ├── am ├── conf ├── ... etc.

🚀 Cómo ejecutar el proyecto

Con el entorno activado y dependencias instaladas:

bash
python app.py

El servidor se levantará en:

arduino
http://localhost:5000

Abre esa URL en tu navegador.


🌐 Interfaz web

La interfaz tiene:

  • Botón Iniciar: comienza el dictado por micrófono.

  • Botón Detener: detiene y guarda la transcripción.

  • Área editable (contenteditable) para corregir directamente.


🎯 Personalizar palabras frecuentes (nombres, lugares)

Edita el archivo transcriptor.py:

python
frases_frecuentes = [ "Zihuatanejo", "Fiscalía", "Tribunal Laboral", "Guerrero", "Saúl", ... ]

Agrega palabras que usa frecuentemente para mejorar la precisión del reconocimiento.


¿Deseas que incluya un botón para descargar lo transcrito como .txt o .docx desde el navegador?

Comentarios

Entradas más populares de este blog

b-Web Speech API

captura video con audio del sistema (como música o sonidos del navegador) pero sin usar el micrófono

EL audio lo envia el navegador-Transcripción de Voz con Whisper