Temperatura ¿Son las LLMs Creativas?

Marc Sánchez Artigas

·

May 1, 2025

·

Si alguna vez has escrito una pregunta en ChatGPT y te ha sorprendido lo bien que responde, no estás solo. Pero detrás de cada frase, hay un proceso que involucra tres componentes con nombres más bien curiosos: “tokens”, “prompts” y temperatura. Estos elementos ocultos son los que guían a los modelos de lenguaje como ChatGPT o LLaMA. Vamos a desentrañar qué son y cómo influyen en lo que el modelo responde.

Tokens y su relación con el lenguaje

Los modelos no entienden directamente las palabras. En su lugar, las dividen en tokens, que son fragmentos de texto como palabras, sílabas o incluso caracteres individuales. A modo de ejemplo, la frase “¡Se puede vivir sin LLMs!” podría dividirse en los tokens [“¡”, “Se”, “puede”, “vivir”, “sin”, “LLMs”, “!”]. Las LLMs procesan tokens, no frases enteras, y tienen un límite de cuántos pueden manejar a la vez llamada ventana de contexto.

Supón por un instante que estás leyendo un libro con una lupa que sólo te deja ver 5 líneas. Puedes leer el libro completo, pero solo eres capaz de comprender 5 líneas de texto cada vez. Esto es exactamente lo que hace una LLM: solo puede prestar atención a una cantidad limitada de texto, y olvida lo que queda fuera de esa ventana.

El tamaño de la venta de contexto depende del modelo. Aquí tienes algunos ejemplos:

LLM	Tamaño de la ventana de contexto
GPT-2	~1,024 tokens
GPT-3	2,048 tokens
GPT-4	hasta 32,768 tokens
Claude 2	hasta 100,000 tokens
Gemini 1.5 (Google)	>1 millón (en pruebas)

Para ponerlo en perspectiva, 1,000 tokens ≈ 750 palabras en inglés (menos en otros idiomas). Un correo típico puede tener 100–300 tokens; una novela corta, decenas de miles.

Cuando el texto que proporcionas o prompt más la respuesta generada supera este límite, la LLM “olvida” partes de la conversación y puede “alucinar” y producir respuestas falsas o inconsistentes tras perder acceso a información previa crucial.

Temperatura: Controlando la Creatividad

Aquí es donde empieza lo interesante. El parámetro de temperatura controla la aleatoriedad de la respuesta. Una temperatura baja (como 0.2) hace que el modelo sea más predecible. Una temperatura alta (como 0.9) hace que sea más creativo (o impredecible).

Si deseas respuestas coherentes y precisas, se recomienda usar una temperatura baja. Pero si quiere subir la creatividad de una LLM, se puede subir la temperatura. Muchos modelos permiten ajustar este parámetro directamente desde la interfaz o mediante APIs.

La matemática de la temperatura

La temperatura se aplica durante la etapa de muestreo, cuando el modelo elige la siguiente palabra o token. Se modifica la distribución de probabilidad original usando la siguiente fórmula:

Donde:

P(xᵢ): Probabilidad del token original.
T: Temperatura (mayor = más aleatoriedad).
P′(xᵢ): Nueva probabilidad ajustada.

Cuando T = 1, la distribución no cambia. Si T < 1, se vuelve más determinista). Si T > 1, se aplana (más aleatoria).

Mira este ejemplo: según la temperatura, el modelo elige distintos tipos de comida cuando alguien escribe “mi comida favorita es” en el prompt.

Al aumentar la temperatura T, aumenta la probabilidad de que el modelo elija opciones como “tacos”, incluso si originalmente solo tenían un 5% de probabilidad, ya que la distribución se vuelve más uniforme entre los posibles tokens.

Ejemplo de código (OpenAI API en Python)

import openai
response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[
        {"role": "user", "content": "Escribe una historia corta sobre LLMs"}
    ],
    temperature=0.8,  # más creatividad
    max_tokens=200
)

print(response['choices'][0]['message']['content'])

Cambia temperature entre 0.0 (respuesta precisa) y 1.0 (más creativa) para ver diferencias.

Conclusión

En resumen, la temperatura es una herramienta clave para moldear el estilo de generación de texto en los modelos de lenguaje. Si bien una temperatura baja ofrece respuestas más predecibles y fiables —útiles en aplicaciones donde la coherencia y la precisión son prioritarias—, una temperatura más alta libera la creatividad del modelo, generando ideas menos convencionales y más expresivas. Por ello, entender y ajustar adecuadamente este parámetro permite adaptar el comportamiento de una LLM a las necesidades específicas de cada tarea, desde el soporte técnico hasta la escritura creativa.

Discover more from Catedra T-Systems X URV

Subscribe to get the latest posts sent to your email.

AI, LLM

Marc Sánchez Artigas

Marc Sánchez-Artigas received his Ph.D. degree in Computer Science in 2009 from the Universitat Pompeu Fabra (UPF), Spain. During his Ph.D. studies, he worked at Ecole Polytechnique Fédérale de Lausanne (EPFL). In the same year, he joined the Universitat Rovira i Virgili, where he currently works as a Serra-Hunter Associate Professor. He received the Best Paper Award from IEEE LCN’07 and the Best Dataset Award from ACM IMC’15. He has published 80+ articles in important venues such as IEEE P2P, ACM/IFIP Middleware, IEEE ICDCS, IEEE ICDE, IEEE INFOCOM and USENIX FAST, among others. During the years, he has participated in multiple research European projects (CloudSpaces, IOStack, CloudButton, EXTRACT, NearData) and European mobility networks (CloudStars), and coordinated the Horizon Europe project CloudSkin (grant no. 101092646).

Temperatura ¿Son las LLMs Creativas?

Tokens y su relación con el lenguaje

Temperatura: Controlando la Creatividad

La matemática de la temperatura

Ejemplo de código (OpenAI API en Python)

Conclusión

Discover more from Catedra T-Systems X URV

Leave a Reply Cancel reply