8b-gpt_vosk_webcontrol

https://drive.google.com/file/d/1cymMB2clKSjfWvwtP2kwv9IDBHiYQ8wa/view?usp=drive_link

¡Claro! A continuación te detallo los pasos para instalar y ejecutar correctamente el proyecto gpt_vosk_webcontrol_enriched, además de su estructura y dependencias necesarias:

✅ Requisitos del Sistema

🖥️ Sistema operativo:

Windows 10+, Linux, o macOS

🐍 Requisitos de Python:

Python 3.8 o superior (recomendado 3.10)
En Windows: Descargar de https://ffmpeg.org/ y añadir al PATH-https://ffmpeg.org/

Asegúrate de tener pip actualizado:

bash
python -m pip install --upgrade pip

📁 Estructura del Proyecto

cpp
gpt_vosk_webcontrol_enriched/
├── app.py
├── transcriptor.py
├── models/
│   └── vosk-model-small-es-0.42/  ← debes colocar aquí el modelo de Vosk
├── templates/
│   └── index.html
├── static/
│   └── script.js

🔧 Instalación Paso a Paso

1. 📦 Crear y activar un entorno virtual (opcional pero recomendado)

bash
python -m venv .venv
# En Windows:
.venv\Scripts\activate
# En Linux/macOS:
source .venv/bin/activate

2. 📥 Instalar dependencias

bash
pip install flask flask-socketio eventlet vosk sounddevice

Nota: En Linux puede que necesites instalar portaudio:

bash
sudo apt install portaudio19-dev

3. 📂 Descargar el modelo de Vosk

Debes descargar el modelo Vosk en español:

🔗 https://alphacephei.com/vosk/models

Modelo recomendado:
vosk-model-small-es-0.42

📦 Extrae la carpeta dentro de models/ del proyecto, así:

markdown
models/
└── vosk-model-small-es-0.42/
    ├── am
    ├── conf
    ├── ... etc.

🚀 Cómo ejecutar el proyecto

Con el entorno activado y dependencias instaladas:

bash
python app.py

El servidor se levantará en:

arduino
http://localhost:5000

Abre esa URL en tu navegador.

🌐 Interfaz web

La interfaz tiene:

Botón Iniciar: comienza el dictado por micrófono.
Botón Detener: detiene y guarda la transcripción.
Área editable (contenteditable) para corregir directamente.

🎯 Personalizar palabras frecuentes (nombres, lugares)

Edita el archivo transcriptor.py:

python
frases_frecuentes = [
    "Zihuatanejo", "Fiscalía", "Tribunal Laboral", "Guerrero", "Saúl", ...
]

Agrega palabras que usa frecuentemente para mejorar la precisión del reconocimiento.

¿Deseas que incluya un botón para descargar lo transcrito como .txt o .docx desde el navegador?

Buscar este blog

sotelo-Web Speech API