5b- Mejoras de Rendimiento (baja latencia y uso de CPU)

julio 01, 2025

Mejoras de Rendimiento (baja latencia y uso de CPU)

✅ Usa un modelo más pequeño (si no lo estás haciendo ya)

El modelo que estás usando:

python
models/vosk-model-small-es-0.42

Ya es rápido, pero si aún quieres más velocidad y te basta con menor precisión, puedes usar:

vosk-model-small-es-0.22
O reducir aún más la tasa de muestreo: 8000 Hz en lugar de 16000 Hz (sólo si no te afecta la calidad):

python
self.sample_rate = 8000

⚠️ Esto requiere también convertir el modelo a 8kHz o usar uno compatible.

✅ Aumentar `blocksize` del `sounddevice`

Aumenta ligeramente el tamaño del bloque:

python
with sd.RawInputStream(samplerate=16000, blocksize=8000, ...)

Reduce la cantidad de llamadas al callback, mejorando rendimiento en equipos lentos.

🧠 2. Mejoras de Precisión

✅ Agrupar texto parcial en la vista antes de emitir

Actualmente se emite cada pequeña frase parcial. Puedes optimizar para mostrar solo si:

La longitud del texto parcial > 6 caracteres
Cambia significativamente del anterior

python
if parcial and len(parcial) > 6 and parcial != last_partial:
    self.socketio.emit("texto_parcial", parcial)

🔁 3. Mejoras en UX

✅ Mostrar texto en tiempo real con "streaming lineal"

En script.js, podrías hacer que el texto parcial se muestre en el textarea, sin esperar al final:

js
socket.on("texto_parcial", data => {
  parcial.textContent = "⏳ " + data;
  texto.value = texto.value.replace(/⏳.*$/, "") + "⏳ " + data;
});

Y luego reemplazar ⏳ ... con texto real cuando llega texto_final.

🛠️ 4. Otras posibles mejoras

Mejora	Cómo implementarla
Multihilo real en `sounddevice`	Ya lo tienes con `threading.Thread`, pero puedes usar `concurrent.futures` si quieres mayor control
Exportar a `.txt` automático	Guardar `self.transcripcion` al detener, como archivo en `logs/`
Accesibilidad por móvil	Asegurar diseño responsive con CSS (usa `viewport` y `media queries`)
Agregar modo oscuro	Solo con unos estilos extra (`body { background: #121212; }`)

¿Quieres que te integre alguna de estas mejoras?

Puedo:

Actualizar el .zip
Incluir el guardado automático
Hacerlo accesible desde celular
Cambiar la vista para transcripción más natural

Solo dime cuál prefieres o te ayudo paso a paso.

Buscar este blog

sotelo-Web Speech API