Si alguna vez has escrito una pregunta en ChatGPT y te ha sorprendido lo bien que responde, no estás solo. Pero detrás de cada frase, hay un proceso que involucra tres componentes con nombres más bien curiosos: “tokens”, “prompts” y temperatura. Estos elementos ocultos son los que guían a los modelos de lenguaje como ChatGPT o LLaMA. Vamos a desentrañar qué son y cómo influyen en lo que el modelo responde.
Tokens y su relación con el lenguaje
Los modelos no entienden directamente las palabras. En su lugar, las dividen en tokens, que son fragmentos de texto como palabras, sílabas o incluso caracteres individuales. A modo de ejemplo, la frase “¡Se puede vivir sin LLMs!” podría dividirse en los tokens [“¡”, “Se”, “puede”, “vivir”, “sin”, “LLMs”, “!”]. Las LLMs procesan tokens, no frases enteras, y tienen un límite de cuántos pueden manejar a la vez llamada ventana de contexto.
Supón por un instante que estás leyendo un libro con una lupa que sólo te deja ver 5 líneas. Puedes leer el libro completo, pero solo eres capaz de comprender 5 líneas de texto cada vez. Esto es exactamente lo que hace una LLM: solo puede prestar atención a una cantidad limitada de texto, y olvida lo que queda fuera de esa ventana.
El tamaño de la venta de contexto depende del modelo. Aquí tienes algunos ejemplos:
LLM | Tamaño de la ventana de contexto |
---|---|
GPT-2 | ~1,024 tokens |
GPT-3 | 2,048 tokens |
GPT-4 | hasta 32,768 tokens |
Claude 2 | hasta 100,000 tokens |
Gemini 1.5 (Google) | >1 millón (en pruebas) |
Para ponerlo en perspectiva, 1,000 tokens ≈ 750 palabras en inglés (menos en otros idiomas). Un correo típico puede tener 100–300 tokens; una novela corta, decenas de miles.
Cuando el texto que proporcionas o prompt más la respuesta generada supera este límite, la LLM “olvida” partes de la conversación y puede “alucinar” y producir respuestas falsas o inconsistentes tras perder acceso a información previa crucial.
Temperatura: Controlando la Creatividad
Aquí es donde empieza lo interesante. El parámetro de temperatura controla la aleatoriedad de la respuesta. Una temperatura baja (como 0.2) hace que el modelo sea más predecible. Una temperatura alta (como 0.9) hace que sea más creativo (o impredecible).
Si deseas respuestas coherentes y precisas, se recomienda usar una temperatura baja. Pero si quiere subir la creatividad de una LLM, se puede subir la temperatura. Muchos modelos permiten ajustar este parámetro directamente desde la interfaz o mediante APIs.
La matemática de la temperatura
La temperatura se aplica durante la etapa de muestreo, cuando el modelo elige la siguiente palabra o token. Se modifica la distribución de probabilidad original usando la siguiente fórmula:
Donde:
- P(xᵢ): Probabilidad del token original.
- T: Temperatura (mayor = más aleatoriedad).
- P′(xᵢ): Nueva probabilidad ajustada.
Cuando T = 1, la distribución no cambia. Si T < 1, se vuelve más determinista). Si T > 1, se aplana (más aleatoria).
Mira este ejemplo: según la temperatura, el modelo elige distintos tipos de comida cuando alguien escribe “mi comida favorita es” en el prompt.

Al aumentar la temperatura T, aumenta la probabilidad de que el modelo elija opciones como “tacos”, incluso si originalmente solo tenían un 5% de probabilidad, ya que la distribución se vuelve más uniforme entre los posibles tokens.
Ejemplo de código (OpenAI API en Python)
import openai
response = openai.ChatCompletion.create(
model="gpt-4",
messages=[
{"role": "user", "content": "Escribe una historia corta sobre LLMs"}
],
temperature=0.8, # más creatividad
max_tokens=200
)
print(response['choices'][0]['message']['content'])
Cambia temperature entre 0.0 (respuesta precisa) y 1.0 (más creativa) para ver diferencias.
Conclusión
En resumen, la temperatura es una herramienta clave para moldear el estilo de generación de texto en los modelos de lenguaje. Si bien una temperatura baja ofrece respuestas más predecibles y fiables —útiles en aplicaciones donde la coherencia y la precisión son prioritarias—, una temperatura más alta libera la creatividad del modelo, generando ideas menos convencionales y más expresivas. Por ello, entender y ajustar adecuadamente este parámetro permite adaptar el comportamiento de una LLM a las necesidades específicas de cada tarea, desde el soporte técnico hasta la escritura creativa.
Leave a Reply