Cómo arreglar los audios de OpenClaw forzando Whisper tiny

Si le mandas notas de voz a tu ecosistema de agentes y de repente todo empieza a fallar, es muy tentador llegar a una conclusión rápida: "la IA está rota", "Whisper no sirve para esto", "el audio todavía no está listo".

Pero muchas veces no es así.

A veces el modelo no es el problema. Lo que falla es todo lo que hay alrededor: la memoria, los reinicios constantes, la configuración que viene por defecto, el consumo de CPU y RAM, o los cambios que introdujo una actualización sin que nadie se diera cuenta. Y esa diferencia importa un montón, porque puede ahorrarte horas persiguiendo un problema que no existe, cambiar de stack por algo que no lo necesitaba, y tirar por la borda una función que en realidad sí vale la pena.

Eso es exactamente lo que ocurrió con Whisper dentro de un ecosistema de agentes construido sobre OpenClaw.

La conclusión útil no es "Whisper era malo". La conclusión útil es otra: si tus audios dejan de funcionar, no eches la culpa a la IA sin antes revisar qué hay debajo.

El síntoma: los audios llegaban, pero los agentes se caían

El problema no era que los audios no llegaran. Llegaban, sí.

El problema era que, en el momento en que llegaban, todo se iba desmoronando. Los agentes empezaban a fallar, la consola registraba picos brutales de uso, y el consumo de CPU y RAM se disparaba sin control. Visto desde fuera, la impresión era clara: Whisper no podía con la carga, o el procesamiento de audio se había roto de alguna forma.

Y este tipo de fallo engaña mucho, porque ves una relación directa:

1. Mandas un audio.

2. El sistema se tensa.

3. Los agentes se rompen.

4. El sospechoso lógico es el modelo de transcripción.

Es una deducción comprensible. Pero también suele ser equivocada.

El falso diagnóstico: "Whisper falla"

Cuando un flujo de IA deja de responder bien, lo primero que solemos mirar es el modelo. Sobre todo si el problema está en una parte del sistema que parece pesada, como el audio o la transcripción.

En este caso, la sospecha inicial tenía su lógica. Al investigar qué pasaba, quedó claro que se estaban usando por defecto modelos de Whisper demasiado grandes para el tipo de audio que realmente se procesaba. Y cuando el modelo es más pesado de lo necesario, el impacto en CPU y memoria puede ser considerable, sobre todo si la máquina ya va justa o si hay otros procesos corriendo al mismo tiempo.

Pero ahí estaba la trampa.

La percepción del usuario era correcta en parte, porque el sistema sí se estaba ahogando al procesar audio. Lo que no era correcto era la interpretación: no era un "fallo misterioso" de IA, sino una mala decisión operativa y de configuración.

Y encima había otra capa más profunda.

Lo que estaba pasando de verdad: modelo sobredimensionado más infraestructura inestable

El caso tenía dos niveles, y conviene separarlos bien.

1. Un modelo demasiado grande para el caso de uso

Para audios de Telegram o WhatsApp, casi nunca necesitas un modelo grande. No estás haciendo transcripción forense, ni subtitulado de estudio, ni análisis lingüístico fino. Lo que quieres es convertir notas de voz cotidianas en texto útil, rápido y sin que el sistema se caiga.

Ahí, usar Whisper tiny puede ser más que suficiente.

Las ventajas son directas:

El consumo de CPU se desploma.
El consumo de RAM baja considerablemente.
La latencia se reduce de forma notable.
El sistema se mantiene estable.
Y la calidad sigue siendo perfectamente adecuada para notas de voz normales.

Con eso, una parte importante del problema ya se resuelve.

2. Un problema real de infraestructura y estabilidad del servicio

En la memoria técnica del ecosistema quedó registrado algo todavía más revelador: la transcripción fallaba por OOM, pero no por una limitación del modelo en sí, sino porque convivía con un bucle de reinicios del servicio openclaw.service.

Ese bucle había acumulado miles de reinicios. En concreto, 3343.

Ese dato cambia completamente cómo se lee el caso.

Porque cuando un servicio entra en un loop de reinicios, la máquina puede quedar en un estado mucho más frágil de lo que parece a simple vista. La memoria disponible real se degrada, la estabilidad general cae, y cualquier tarea medianamente pesada, como procesar audio, se convierte en la gota que colma el vaso.

Cuando se detuvo ese bucle, Whisper volvió a funcionar con unos 7 GB libres de RAM.

Es decir, el problema no era "Whisper no puede". El problema era "el sistema estaba roto alrededor de Whisper".

Y esa es una lección que merece quedarse.

Por qué este caso importa más de lo que parece

Este no es un caso raro ni una anécdota solo para quien compila modelos en local.

Le puede pasar a cualquiera que use:

OpenClaw,
un ecosistema de bots conectado a Telegram o WhatsApp,
pipelines que aceptan audio como entrada,
o herramientas de IA que han crecido por capas y actualizaciones sucesivas.

De hecho, el problema se hizo visible justo después de actualizaciones del sistema. Eso también es bastante habitual. Muchas veces una actualización no "rompe la IA" como tal, pero sí modifica cosas: la configuración, los valores por defecto, el consumo, cómo se gestionan los procesos o cómo se comporta un servicio en segundo plano.

Y de pronto una función que antes iba de maravilla empieza a fallar, aunque el usuario esté convencido de que está haciendo exactamente lo mismo que siempre.

El fix práctico: forzar Whisper `tiny`

Si tu caso real son notas de voz de Telegram, WhatsApp o mensajes cortos que mandas al sistema mientras estás fuera del escritorio, la solución aquí fue clara: forzar el uso de Whisper tiny.

¿Por qué tiny y no uno mayor?

Porque el objetivo no era maximizar la precisión en condiciones de laboratorio. El objetivo era tener una transcripción suficientemente buena, rápida y robusta para el día a día.

Y ahí la pregunta correcta no es "¿qué modelo transcribe mejor sobre el papel?", sino esta:

¿qué modelo resuelve bien este problema sin castigar la máquina ni romper la experiencia?

En este caso, tiny era suficiente.

Lo que muchas veces se olvida: el audio es una funcionalidad valiosísima

Hay otra idea importante aquí. Cuando algo falla, tendemos a recortar la función problemática. Pero a veces lo que merece la pena es arreglarla bien.

Poder enviar audios a un ecosistema de agentes es una ventaja real. No es un extra estético. Es una interfaz muy potente.

Permite, por ejemplo:

Capturar ideas sin necesidad de sentarte frente al escritorio.
Documentar incidencias en tiempo real.
Alimentar un pipeline mientras caminas, viajas o estás entre reuniones.
Convertir notas habladas en tareas, artículos o contextos que puedes reutilizar.
Mantener la fricción muy baja cuando surgen ideas buenas fuera del momento "formal" de trabajo.

En el caso que originó este artículo, una de las escenas de uso era precisamente esa: ir paseando y mandar audios para dejar constancia de lo que estaba pasando. Eso convierte al sistema en algo mucho más útil que un panel bonito o un chat puntual. Lo vuelve operable en movilidad.

Por eso es un error abandonar el audio a la primera señal de fallo. Antes de rendirse, conviene revisar si el problema está en cómo se ha montado.

La lección de fondo: en IA aplicada, el cuello de botella suele ser operativo

Esta es probablemente la parte más importante de todo el caso.

En IA aplicada, muchísimos problemas que los usuarios perciben como "fallos del modelo" son en realidad problemas de:

Configuración deficiente.
Valores por defecto inadecuados.
Memoria insuficiente.
Procesos colgados.
Reinicios en bucle.
Dependencias mal actualizadas.
Servicios mal aislados.
Decisiones técnicas que no encajan con el caso de uso real.

Y esto tiene una consecuencia práctica muy importante.

Si haces un mal diagnóstico, arreglas lo que no es. Cambias de herramienta, cambias de modelo, tocas los prompts, rediseñas flujos enteros… cuando el problema estaba en una configuración absurda o en una base operativa inestable.

Qué conviene revisar si tus audios dejan de funcionar

Si te pasa algo parecido, yo revisaría esto antes de dramatizar:

1. Qué modelo de Whisper estás usando por defecto.

Si el caso de uso son notas de voz cotidianas, quizá estás sobredimensionando la solución.

2. Consumo real de CPU y RAM al procesar audio.

No lo intuyas: míralo.

3. Si ha habido updates recientes.

Muchas veces el problema empieza ahí.

4. Estado del servicio principal.

Busca reinicios, errores recurrentes, degradación progresiva o comportamientos extraños del runtime.

5. Si el problema es general o solo en ciertos audios.

En este caso pasaba con todos, lo que ya apuntaba a una causa sistémica.

6. Si de verdad necesitas máxima precisión o solo una transcripción suficiente.

Para muchos flujos, “suficientemente bien y estable” vale mucho más que “teóricamente mejor pero frágil”.

Cierre

El aprendizaje de este caso no es que Whisper sea malo. Tampoco que el audio en agentes sea una mala idea. Más bien al revés.

El aprendizaje es que, cuando una función útil falla, hay que separar síntoma de causa.

Aquí el síntoma era claro: entraban audios, subía el consumo, los agentes se rompían.

La causa real no era una supuesta incapacidad de la IA, sino una mezcla de configuración equivocada y fragilidad operativa.

Y el fix útil fue simple: ajustar el sistema al caso de uso real, empezando por forzar Whisper tiny para audios cotidianos y vigilar mejor la infraestructura que sostiene todo lo demás.

Si usas OpenClaw o cualquier ecosistema parecido y de repente tus audios dejan de funcionar, yo empezaría por ahí.