septiembre de 2025

Usar un LLM para optimizar el prompt de otro LLM en un asistente de voz

IA Generativa
LLMs
Agentes
Asistentes de voz

🚀 Usar un LLM para optimizar el prompt que usa otro LLM para decidir mejor qué herramienta usar ante una consulta por voz.

Hoy leí este artículo sobre una técnica novedosa para optimizar un asistente por voz: 👉 ver artículo

🤖 Muchos ya se habrán dado cuenta que para responder a nuestras consultas, ChatGPT o Gemini utilizan distintas herramientas. Esto lo hacen utilizando “agentes”, sistemas que usan LLM’s (modelos de lenguaje grandes) para responder nuestras preguntas con la habilidad de interpretarlas y, en base a ello, hacer function calls (llamadas a funciones o aplicaciones), como por ejemplo:

🔸 realizar una búsqueda en Google.
🔸 responder con un modelo más complejo, como el deep research de OpenAI.

🎙️ Los asistentes de voz han evolucionado muchísimo gracias a estos agentes.

⏳ Hemos pasado de sistemas como Siri o Alexa, que entendían comandos básicos, a modelos con:

🧠 memoria contextual
🎯 capacidad de interpretar matices
🤔 tomar decisiones más acertadas

⚡ Pero para que funcionen bien no basta con que “escuchen” bien: ¡tienen que saber cuándo y cómo usar sus herramientas!

Por ejemplo, si pedimos: “Quiero hablar con alguien”. Deberían activar la función correcta para escalar a soporte humano, no darnos información irrelevante.

📝 El artículo que compartí propone un enfoque para que estos asistentes aprendan a decidir mejor usando Automated Prompt Engineering (APE). Es decir, un sistema que afina automáticamente las instrucciones internas que guían su comportamiento.

Paso a paso de la técnica

Casos de prueba: se crean ejemplos con preguntas reales + respuesta esperada (qué función debería activar).
Variaciones: un LLM reescribe cada pregunta en varias formas (lenguaje formal, casual, indirectas…).
Conversión a audios diversos: se crean audios sintéticos realistas (diferentes acentos y entonaciones) para cada variación. 🎵 Se usa text to speech, no hace falta grabaciones humanas.
Evaluación del asistente: comprueban si, con el prompt actual, responde bien a cada audio.
Aprendizaje en base a errores: un LLM analiza fallos, ajusta el prompt y vuelve a probar.
Repetición: el ciclo se repite hasta lograr la mayor precisión posible.

✨ Este tipo de optimización es clave. Aunque un LLM tenga buen criterio para decidir el tooling, el prompt de instrucciones es lo que marca la diferencia en los casos menos claros.

🌎 En asistentes de voz reales, donde hay ruido, acentos y mil formas de pedir lo mismo, esta técnica puede marcar LA diferencia en la performance del modelo.