Modelos de lenguaje al banquillo

En internet hay una serie de posts virales donde los usuarios preguntan a varios modelos de lenguaje: "How many r's in Strawberry?" (¿Cuántas r's tiene strawberry?). La pregunta parece extremadamente sencilla, pero los modelos fallan consistentemente. El fenómeno no es exclusivo al inglés. En el Diagrama 1, uso ChatGPT para preguntar por la cantidad de veces que se usa la letra “L” y la letra "O" en la palabra “LOLLAPALOOZA” y el modelo se equivoca.

Diagrama 1. Conteo de letras con ChatGPT.

Estos errores son inofensivos. Pero ¿qué pasa cuando estos modelos fallan en escenarios con consecuencias graves? En este artículo voy a explorar esta pregunta analizando el caso de un juez colombiano que usó ChatGPT para obtener conocimiento técnico relevante en un caso judicial.

Introducción al caso judicial

Mi amigo Juan Camilo Boada escribió hace poco un muy buen artículo analizando este caso (acá está el link). Yo no soy abogado, pero haré lo posible por resumir los elementos esenciales del caso:

El 5 de octubre de 2013, un motociclista que conducía con exceso de velocidad atropelló a una mujer que cruzaba la carretera entre Armenia y Pereira, causándole la muerte, por lo cual fue acusado de homicidio culposo.
En primera instancia, el motociclista fue absuelto al considerar que la víctima fue imprudente al cruzar la carretera sin precaución y bajo efectos del alcohol, por lo que la causa del accidente no habría sido el exceso de velocidad del motociclista, sino la imprudencia de la víctima.
En segunda instancia, se revocó la anterior decisión y se condenó al motociclista por homicidio culposo.

Un punto clave en la decisión fue determinar si el alcohol encontrado en el cuerpo de la víctima era suficiente para que hubiese afectado sus reflejos. Para responder esta pregunta, el juez del caso decidió consultar a ChatGPT con la siguiente pregunta:

“¿La presencia en sangre de 20 miligramos sobre 100 mililitros de etanol a cuantas copas de vino, de aguardiente, de ron o de cerveza equivalen?”

Basándose en la respuesta, el juez concluyó que el nivel de alcohol era insignificante y, por tanto, no había influido en el accidente. El texto completo de la decisión se encuentra disponible en línea aquí y el juez incluye el link a la conversación completa. El Diagrama 2 muestra la parte final de la respuesta que obtuvo el juez.

Diagrama 2. Fragmento final de respuesta a la consulta del juez.

El modelo de lenguaje como experto

El uso de herramientas de inteligencia artificial en el ámbito judicial es un tema ampliamente debatido por su relevancia y complejidad. El proyecto de Sistemas de Algoritmos Públicos de la Universidad de los Andes, por ejemplo, ha documentado más de 50 casos en los que entidades del poder judicial en países de América Latina y el Caribe han implementado sistemas basados en inteligencia artificial.

En este artículo no pretendo abordar todas las aristas de este tema. Para quienes deseen profundizar en el tema, recomiendo trabajos como el de Socol de la Osa y Remolina (2024).

Mi objetivo aquí es proponer algunas herramientas conceptuales para reflexionar sobre una pregunta específica: ¿qué problemas surgen al utilizar modelos de lenguaje como fuentes de conocimiento experto?

Problema 1: Alucinaciones

El fenómeno de las alucinaciones ha sido ampliamente estudiado en el campo de los modelos de lenguaje. Huang y coautores (2024) proponen una taxonomía útil que distingue entre dos grandes tipos de alucinaciones: fácticas y de fidelidad. Ambas pueden tener implicaciones importantes cuando el modelo es utilizado como apoyo en procesos judiciales, como en el caso que nos ocupa.

Alucinación fáctica

Este tipo ocurre cuando el modelo genera información que contradice hechos verificables del mundo real.

En el contexto del cálculo de alcohol en sangre, una alucinación fáctica podría presentarse si el modelo proporciona una fórmula errónea para estimar la concentración de alcohol, o si asigna porcentajes incorrectos de alcohol a distintas bebidas —por ejemplo, decir que una cerveza contiene 25% de alcohol cuando en realidad ronda el 5%.

Alucinación de fidelidad

Este tipo de alucinación se refiere a situaciones en las que la respuesta del modelo no es coherente con la instrucción dada, el contexto proporcionado o consigo misma. Se subdivide en tres formas:

Inconsistencia con la instrucción
El modelo no responde a lo que se le pidió. En nuestro caso, el juez solicita una estimación del nivel de alcohol en sangre, pero el modelo podría desviarse y explicar los efectos del alcohol en el organismo o hablar de sanciones legales, sin abordar el cálculo solicitado. Este riesgo aumenta si el prompt del juez es ambiguo, como sucede en el caso analizado, donde faltan datos clave como el peso de la persona o el tiempo transcurrido desde el consumo.
Inconsistencia con el contexto

Aquí, el modelo responde con datos que contradicen el contexto proporcionado. Por ejemplo, si el juez indica que se encontraron 20mg de etanol pero el modelo modifica este número y realiza sus cálculos utilizando 40mg de etanol. Este tipo de error es especialmente delicado en decisiones que dependen de valores numéricos precisos.
Inconsistencia lógica interna

La respuesta del modelo contiene errores de razonamiento. En el caso del cálculo de alcohol en sangre, esto podría traducirse en operaciones matemáticas mal hechas, unidades mezcladas (por ejemplo, miligramos vs. gramos) o inferencias ilógicas (como suponer que una persona de 50 kg tendrá el mismo nivel de alcohol que una de 90 kg con el mismo consumo).

¿Qué tan comunes son estas alucinaciones? Un grupo de investigadores de varias universidades (2024) ha hecho pública una comparación del rendimiento de múltiples modelos abiertos en evaluaciones relacionadas con alucinaciones. El modelo que mejor puntúa en respuestas fácticas (mistralai/Mistral-7B-Instruct-v0.2) obtiene un puntaje de 58%. El equivalente para fidelidad obtiene un puntaje de 47% (teknium/OpenHermes-2-Mistral-7B). Si bien esta comparación solo incluye modelos abiertos, los resultados muestran que las alucinaciones son bastante comunes.

Incluso los modelos más avanzados del mercado, como GPT-4 o Claude, no están exentos de este problema. En evaluaciones centradas en razonamiento matemático —una capacidad crítica para tareas como el cálculo de alcohol en sangre— se ha reportado una tasa de error de alrededor del 3% (vellum LLM leaderboard). Aunque esta cifra puede parecer baja, en contextos judiciales incluso un pequeño margen de error puede tener consecuencias significativas. Estos datos refuerzan la necesidad de comprender los límites de los modelos antes de integrarlos como herramientas de apoyo en procesos de toma de decisiones sensibles.

Problema 2: Inestabilidad

Debido a la naturaleza probabilística de estos modelos (para los que no lo han leído los invito a ver mi primer artículo sobre el tema), incluso cuando el usuario introduce el mismo texto dos veces, el resultado rara vez será el mismo. A veces los cambios son insustanciales y son solo modificaciones en el estilo, pero otras veces los cambios son más profundos.

En el caso de la pregunta que hizo el juez: “¿La presencia en sangre de 20 miligramos sobre 100 mililitros de etanol a cuántas copa de vino, de aguardiente, de ron o de cerveza equivalen?” los resultados que obtengo yo son sorprendentemente distintos a los que obtuvo el juez y, además, varían entre sí. Usando ChatGPT (con el modelo GPT4-o) las primera vez que hice esa misma pregunta obtuve lo siguiente:

Diagrama 3. Fragmento final de la primera generación con la pregunta del juez.

La segunda vez obtuve esto:

Diagrama 4. Fragmento final de la segunda generación con la pregunta del juez.

Los invito a mirar las dos respuestas con cuidado antes de seguir leyendo.

El texto generado por el modelo impresiona por el uso de un formato claro y accesible que incluye números y ecuaciones. Transmite certeza. Al final, ese es el objetivo para el cual están entrenados estos modelos; generar texto que suene convincente para las personas. Sin embargo, no todo lo que brilla es oro.

Al inspeccionar en detalle los resultados generados por el modelo, es posible identificar varios problemas. Entre ellos, destacan errores lógicos evidentes. Por ejemplo, el resultado para la ecuación que calcula A en la segunda generación es erróneo. Pero lo más relevante acá es notar que las conclusiones a las que se llega en cada uno de los casos son muy diferentes. Por un lado, en la primera generación concluimos que para alcanzar 20mg de etanol en 100ml de sangre necesitaríamos una copa de vino o una cerveza pequeña o un trago de aguardiente. En la segunda generación, por el contrario, concluimos que “menos de un sorbo de cualquiera” sería suficiente para alcanzar ese nivel de alcohol en sangre. Dos conclusiones radicalmente distintas con implicaciones sobre la decisión del juez.

Problema 3: Explicabilidad

Finalmente, quiero cerrar resaltando el problema de la explicabilidad de los resultados generados por los modelos de lenguaje. Este es un tema particularmente relevante cuando estos sistemas se utilizan en contextos sensibles como el judicial, donde no solo importa qué decisión se toma, sino también por qué se toma.

En los últimos años, distintas instituciones han comenzado a formular marcos regulatorios para el uso de inteligencia artificial en el sector público. Un aspecto común en estos marcos es la exigencia de que los sistemas de IA sean explicables y transparentes. Por ejemplo, el AI Act de la Unión Europea establece que los sistemas deben permitir una trazabilidad y explicabilidad adecuadas, de forma que los usuarios comprendan tanto las capacidades como las limitaciones del sistema.

La UNESCO también ha impulsado lineamientos en esta dirección señalando que la explicabilidad es clave para garantizar la rendición de cuentas, permitir auditorías y generar confianza en las tecnologías de IA. En Colombia, el Consejo Superior de la Judicatura ha comenzado a incluir estos principios en sus lineamientos institucionales. En su acuerdo más reciente sobre el uso de IA por parte de funcionarios judiciales, se establece que solo deben utilizarse herramientas que puedan ofrecer razones o justificaciones comprensibles para los usuarios.

Aunque la intención de estas normativas es clara, en la práctica nos encontramos con una enorme brecha entre estas aspiraciones y las capacidades actuales de los modelos de lenguaje. En particular, los modelos de lenguaje no ofrecen, de forma nativa, mecanismos claros de justificación de sus respuestas. Esto plantea preguntas difíciles: ¿Qué significa explicar la respuesta de un modelo de lenguaje? ¿Cómo se pueden explicar sistemas completamente cerrados como ChatGPT? ¿Cómo se adapta el nivel de explicación al perfil del usuario (juez, abogado, ciudadano)?

Conclusión

Los modelos de lenguaje tienen problemas que, como mínimo, llaman a la cautela a la hora de usarlos para obtener conocimiento experto. Los problemas de alucinaciones, inestabilidad y falta de explicabilidad son todos relevantes para el caso del juez que se analizó en el artículo y sugieren que el juez no debió haber utilizado ChatGPT para resolver su pregunta. En este caso, además, existen otras formas de obtener el conocimiento experto necesario.

Si bien todo lo anterior es cierto, quiero complejizar un poco el escenario para cerrar. Ludwig y Mullainathan (2021) desarrollan una idea muy interesante: los modelos se equivocan, pero los humanos también. Los autores muestran que, por ejemplo, el clima del día o el resultado de un partido de fútbol americano pueden influir en las decisiones de un juez. Así que me pregunto: ¿Qué garantías necesitamos de estos modelos para usarlos en procesos judiciales? ¿Cómo distinguir entre las tareas en las que es más riesgoso usar estos modelos y aquellas en las que no lo es tanto? ¿Qué tasas de error estamos dispuestos a aceptar teniendo en cuenta que hay ganancias importantes en términos de eficiencia?

¡Gracias por haber leído el artículo! Aquellos suscritos a mi newsletter pueden escribirme directamente respondiendo el correo o usando este botón:

A quienes aún no se han suscrito, los invito a hacerlo para recibir directamente en su correo todos los artículos.