El laboratorio chino DeepSeek ha dado a conocer R1, un modelo de Inteligencia Artificial (IA) diseñado específicamente para el razonamiento, logrando igualar o incluso superar el desempeño de los modelos más avanzados de la compañía estadounidense OpenAI, especialmente en evaluaciones de matemáticas y programación. Este modelo es de código abierto, completamente gratuito y cuenta con 671 mil millones de parámetros.
Además, R1 ha alcanzado un 97,3% de aciertos en las evaluaciones matemáticas MATH-500, superando el 96,4% obtenido por uno de los modelos de OpenAI. El costo de su desarrollo es entre un 90% y un 95% inferior al de sus rivales. DeepSeek logró este avance utilizando un aprendizaje por refuerzo puro, sin necesidad de contar con datos previamente etiquetados.
El aprendizaje por refuerzo permite que el modelo aprenda de forma autónoma mediante un proceso de prueba y error. Aunque los resultados iniciales pueden ser imprecisos, el modelo va desarrollando estrategias únicas de razonamiento. DeepSeek perfeccionó este método al combinarlo con entrenamiento supervisado para crear la versión final de R1, que conserva este importante componente.
Al ser un modelo centrado en el razonamiento, R1 se comprueba «a sí mismo» de manera efectiva, lo que le ayuda a sortear ciertos desafíos comunes que enfrentan otros modelos, como la necesidad de dedicar más tiempo a generar soluciones en comparación con un modelo convencional sin capacidades de razonamiento.
Fuente: VTV
360°/AR/OBP