¿Qué es el Último Examen de la Humanidad? Estos fueron los resultados de Grok 4 de Elon Musk

El Último Examen de la Humanidad, un proyecto diseñado para conoce los alcances de la Inteligencia Artificial (IA), arrojó resultados interesantes en Grok 4, el chatbot del magnate Elon Musk.

Desarrollado por el Center for AI Safety (CAIS) y la empresa Scale A, el denominado Último Examen de la Humanidad busca evaluar las capacidades de los modelos de inteligencia artificial, particularmente, en los modelos de lenguaje a gran escala.

Dicha prueba consta de 3 mil preguntas de opción múltiple y respuesta corta, las cuales fueron diseñadas para ser difíciles de responder, incluso para expertos humanos ya que requieren conocimiento profundo y razonamiento.

¿Qué es el Último Examen de la Humanidad?

El denominado Último Examen de la Humanidad fue diseñado por cerca de 1,000 expertos de más de 500 instituciones en 50 países, a fin de evaluar las capacidades de razonamiento avanzado de la IA.

La prueba abarca más de 100 disciplinas, entre las que destacan:

Matemáticas Biología y medicinaInformática Física Humanidades y ciencias socialesQuímicaIngeniería

En este sentido, el Último Examen de la Humanidad cuenta con preguntas dirigidas a personas con un nivel académico de doctorado o aún superior, por lo que se requiere de un razonamiento complejo y análisis profundo para llevar a cabo la prueba, pues esta no puede responderse fácilmente o mediante consultas en Internet.

Algunos elementos multinodales del examen son imágenes y gráficos o tablas, los cuales dan una complejidad aun mayor a la prueba.

La preguntas fueron elegidas a partir de un total de 70,000 candidatas, a fin de poner la prueba lo más difícil posible, aún para modelos de IA avanzados.

El Último Examen de la Humanidad: Modelos más avanzados de IA podrían alcanzar 50% de precisión en 2025

Grok 4, de Elon Musk, señala que los modelos más avanzados de IA alcanzaron puntuaciones muy bajas en el denominado Último Examen de la Humanidad, tal es el caso de OpenAI o1 (8.3%), DeepSeek-R1 (9.4%), GPT-4o (3.3%) y Grok-2 (3.8%).

Sin embargo, destaca el caso de OpenAI Deep Research, el cual alcanzó un 26.6% de precisión, por lo que Grok 4 afirma que antes finalizar 2025, los modelos de inteligencia artificial más avanzados podrían llegar a un 50% de precisión.

Leave a Reply

Your email address will not be published. Required fields are marked *