Algunos ex investigadores del MIT tienen una solución particular:

Cleanlab propone puntuar las respuestas de grandes modelos de lenguaje

25 de abril de 2024, 21:30 horas

Actualizado el 26 de abril de 2024 a las 08:09

Los chatbots se han convertido en uno de los ejes del auge de inteligencia artificial (AI). Desde ChatGPT y Copilot hasta Claude Chat y Perplexity, estas herramientas están de moda. Sin embargo, por mucho que nos emocionemos, no debemos confiar plenamente en sus respuestas.

Y dígaselo al abogado que usó ChatGPT para ganar un juicio y descubrió que los documentos presentados al juez contenían decisiones judiciales, referencias y citas falsas. Como podemos ver, los chatbots tienen muchas virtudes, pero la confiabilidad no es una de ellas.

Una posible solución al problema de la confiabilidad.

Un estudio publicado por una startup fundada por ex empleados de Google sugiere que los chatbots tienen una tasa de alucinaciones de al menos 3%. Para muchos usuarios esto puede ser un problema menor, pero la cosa cambia cuando hablamos de usos profesionales.

Herramientas impulsadas por grandes modelos de lenguaje (LLM) están llegando al mundo empresarial a través de soluciones como Copilot en Office 365. Ahora bien, si los empleados acaban manejando información errónea, esto podría acabar provocando más de un dolor de cabeza a la firma. .

Cleanlab, una startup fundada por antiguos investigadores del MIT, acaba de lanzar su propia iniciativa para abordar este problema. Estamos hablando de una herramienta potenciada por lo que llaman Trustworthy Language Model (TLM), un enfoque que pretende confiabilidad de las respuestas.

TLM funciona como una “capa de confianza” para que los usuarios puedan saber qué tan confiable es la respuesta que acaban de recibir a través de un sistema de puntuación. Esta herramienta ha sido diseñada para que pueda funcionar de forma complementaria a modelos como GPT-3.5, GPT-4 y modelos personalizados de empresa.

El sistema envía nuestra pregunta a varios modelos y luego analiza su devolución. La respuesta vendrá acompañada de un puntuación que estará entre 0 y 1. En un test sencillo en el que preguntamos la raíz cuadrada de nueve obtuvimos una respuesta correcta (3) con una puntuación de 0,885.

Cleanlab señala que ChatGPT en su versión gratuita puede equivocarse en cosas muy simples. Cuando se le pregunta cuántas veces aparece la letra “N” en la palabra “enter”, el chatbot OpenAI suele responder que la letra aparece dos veces. Lo hemos probado y efectivamente el chatbot responde incorrectamente.

La startup imagina que su tecnología será útil en una amplia gama de usos. Mencionan que podría ayudar. chatbots de atención al cliente para ser más confiable. El chatbot funcionaría automáticamente, pero si una de las respuestas cae por debajo del umbral de confiabilidad, se podría solicitar la intervención humana.

Si eres un entusiasta de la inteligencia artificial puedes probar TLM a través de la web. La herramienta también está disponible a través de una API. Cabe señalar que la solución está disponible a través de versiones gratuitas de código abierto y versiones pagas con funciones adicionales.

Imágenes | Laboratorio limpio | Captura de pantalla

En Xataka | El ganador más inesperado de la primera gran batalla por la IA es también el que creíamos muerto: Meta

For Latest Updates Follow us on Google News