IA Aplicada18/06/20266 min lectura

Transcribir reuniones con IA sin nube ni suscripción

Compartir𝕏inf🔗

Plaud es la caña. Lo digo sin ironía. Grabas una reunión, te separa quién habla, te transcribe cada frase y te escupe un resumen limpio listo para copiar. Producto redondo, plug and play. Pero cuando empecé a usarlo en serio, aparecieron las dos pegas que nadie pone en el anuncio: tu voz, y la de tus clientes, sube a un servidor que no controlas, y pagas suscripción cada mes para siempre. Así que me propuse transcribir reuniones con IA sin salir de casa y sin cuotas mensuales. La parte difícil no estaba donde yo creía.

Mascota Marketing Ultra

TL;DR: El resumen sin rodeos

  • El recurso caro es la GPU: «gratis» en la nube no sirve si no incluye lo que tu tarea necesita. Oracle te da CPU; tú necesitas GPU. Identifica el cuello de botella antes de elegir plataforma.
  • Hardware barato ≠ barato: un mini PC de 130 € sin tarjeta gráfica ni ranura para añadirla es la compra más cara que puedes hacer.
  • Wake-on-LAN: 0 € de inversión: despierta la GPU de tu sobremesa solo cuando hay audio que procesar, y apágala al terminar. Sin hierro nuevo.
  • Privacidad por capas: la transcripción (con voces reales) corre en local con Whisper. El resumen puede ir a un LLM externo. Decides tú qué sale de casa.
Veredicto: si te gusta trastear, la alternativa self-hosted está madura y te libra de suscripciones. Si no, Plaud funciona de lujo, pero al menos ya sabes lo que pagas.

Transcribir reuniones con IA en la nube gratis: la trampa del plan sin GPU

Primera idea brillante: Oracle Cloud free tier. Servidor gratis de por vida. Suena bien en el titular del anuncio.

La realidad: te regalan CPU, RAM y almacenamiento. GPU, ni una. Y este trabajo, transcribir audio con Whisper, diarizar quién habla con pyannote, es exactamente el tipo de tarea que sin GPU va a paso de tortuga. Un audio de una hora que con GPU procesas en minutos, con CPU son horas. Literalmente.

Pero hay más. Oracle ha ido recortando el free tier: te apagan la instancia si lleva ociosa unos días. Así que no solo no tienes el recurso clave, sino que además montas automatizaciones para que el servidor no se duerma. Estás manteniendo infraestructura para un servidor que no puede hacer el trabajo. Lo jodido no es que sea gratis, es que te hace perder tiempo creyendo que tienes algo.

Esto aplica a cualquier plataforma: identifica cuál es el recurso caro ANTES de elegir dónde correr tu proyecto. Aquí el recurso caro es la GPU. Si tu plan «gratis» no la incluye, no es un plan. Es una distracción.

El mini PC de 130 €: cuando el hardware barato sale más caro

Segunda idea brillante: comprar un mini PC de segunda mano. 130 €, tamaño compacto, bajo consumo, lo dejas enchufado en un rincón y listo. Encontré uno que parecía ganga. Hasta que miré la ficha con calma.

Procesador flojo de hace años. Sin tarjeta gráfica dedicada. Y el detalle asesino: sin ranura PCIe para añadirla después. Un callejón sin salida disfrazado de oportunidad.

Un equipo sin GPU para un trabajo que necesita GPU. La única pregunta que importa: ¿hace el trabajo? Un cacharro de 130 € que no rinde es más caro que no comprarlo, porque además de palmar la pasta, pierdes el tiempo intentando que funcione. El impulso de comprar algo barato para resolver un problema es exactamente eso: un impulso. No un plan.

Wake-on-LAN: despierta la GPU que ya tienes sin gastar un euro

Diagrama: Flujo automatizado del pipeline self-hosted: desde que llega el audio hasta que el PC se apaga solo

Aquí es donde le di la vuelta. Yo ya tenía una GPU capaz en mi sobremesa. Lo que no tenía sentido era mantener ese PC encendido 24/7 esperando a que cayera un audio cada dos o tres días.

La solución: Wake-on-LAN. Un paquete mágico que viaja por la red local y enciende el PC en remoto. Cae un audio nuevo, el sistema manda la señal, el sobremesa arranca, Whisper transcribe, pyannote diariza quién habla en cada frase, y cuando termina se apaga solo. Coste adicional en hardware: cero euros.

El software es open source y maduro. Whisper lleva años funcionando y mejorando. pyannote para diarización es sólido. No es nada experimental: son piezas que llevan años rodadas. Si te va la idea de que el pipeline corra solo, automatizar flujos de IA sin revisión manual va por el mismo camino.

¿Y si no tienes GPU en casa? La alternativa no es comprar una: es alquilar segundos de GPU en la nube (Vast.ai, RunPod). Pagas céntimos por audio procesado, sin suscripción mensual. Usas y te vas. Es la diferencia entre alquilar un piso y pagar una habitación de hotel la noche que la necesitas.

Privacidad por capas: qué datos salen de casa y veredicto final

Transcribir reuniones con IA sin nube ni suscripción

Y esto es lo que de verdad te llevas. No todo tiene que ser local NI todo tiene que ir a la nube. Decides tú, capa por capa.

La transcripción, donde está tu voz real, la de tus clientes, los nombres, los datos sensibles, esa corre en local con Whisper. No sale de tu red. Punto. Es la capa donde la privacidad importa de verdad, porque el audio crudo con voces identificables es el dato más sensible de toda la cadena.

El resumen, que trabaja sobre texto ya procesado y anonimizable, puede pasar por un LLM externo. Si estás eligiendo qué modelo metes en esa capa, antes mira cómo se porta en producción: la fiabilidad real de un modelo no siempre cuadra con el benchmark, y eso importa cuando automatizas sin nadie supervisando.

Privacidad por diseño va de eso: saber qué dato necesita candado y cuál puede salir sin problema. Tú decides, en vez de tragar con el «todo a la nube» que te enchufan las apps comerciales.

Depende de quién seas. Si no quieres complicarte y valoras tu tiempo por encima de todo, Plaud es un producto excelente. Funciona. Punto. Y no tengo ningún problema en recomendarlo.

Pero si prefieres transcribir reuniones con IA de forma autónoma, controlando dónde van los datos y sin pagar cuotas mensuales, la alternativa self-hosted está más madura de lo que crees. Whisper + diarización + un LLM para el resumen. Las piezas existen. Solo hay que montarlas con criterio.

Y muchas veces la mejor decisión de infraestructura es despertar lo que ya tienes en vez de sacar la tarjeta.