¿Qué tienen en común un LLM como GPT y una simple regresión lineal?
- Machine Learning
- LLMs
- Fundamentos
- Estadística
¿Qué tienen en común el modelo de lenguaje (LLM) de GPT o Gemini con una simple regresión lineal de Estadística 1?
Aunque hoy hablemos de Large Language Models (LLMs) como algo casi mágico, en el fondo la lógica sigue siendo la misma que aprendimos para modelar una línea recta: estimar parámetros a partir de datos conocidos.
En una regresión lineal
- Ajustamos una recta que explique la relación entre x e y (objetivo).
- Para hacerlo, tenemos un conjunto de puntos de datos de X e Y.
- Representamos la relación entre ambas variables como una línea recta: Y = mX + b (modelo / algoritmo).
- Estimamos solo dos parámetros: pendiente (m) y ordenada al origen (b).
En un LLM
- El modelo busca predecir la siguiente palabra en base a un contexto de texto (objetivo).
- Disponemos de millones de documentos de texto, como artículos de Wikipedia, libros, sitios web, etc. (datos).
- Usamos ese corpus gigante de texto para representar o estimar la relación entre un contexto de texto y su siguiente palabra, a través de un modelo de red neuronal (modelo / algoritmo).
- En vez de 2, ajustamos billones de parámetros para capturar patrones complejos del lenguaje.
El salto es de escala, no de concepto: seguimos ajustando parámetros para generalizar mejor una relación ante datos nuevos.
Si lo pensás así, entrenar un GPT es similar a ajustar la recta de una regresión… solo que ahora la “recta” tiene billones de dimensiones.
Con esto no quiero decir que entrenar un LLM sea algo sencillo. Lo que quiero remarcar es que la base para el éxito de cualquier IA sigue siendo la misma a diferentes escalas: tener datos y elegir correctamente el modelo para representar el comportamiento de la realidad que queremos explicar o predecir.