Generales Escuchar artículo

DeepSeek: así se compara con ChatGPT, Llama y otras IA en matemáticas y otros tests

El asistente DeepSeek a fines del año pasado y desde entonces, ...

El asistente DeepSeek a fines del año pasado y desde entonces, ha escalado hasta ocupar la primera posición en la tienda de Apple en Estados Unidos, por delante de ChatGPT, de OpenAI, además de generar un terremoto en Silicon Valley, ya que demuestra que China puede competir con el chatbot más popular desde hace más de dos años, ChatGPT.

DeepSeek es un asistente de inteligencia artificial (IA) generativa que la firma china del mismo nombre lanzó el pasado 11 de enero como app sin costo de uso. Además de responder preguntas en un formato conversacional, puede navegar por la web para ofrecer respuestas actualizadas, resumir documentos de texto de manera rápida y utilizar el razonamiento para resolver problemas complejos.

Qué puede hacer DeepSeek

Tal como explica la propia plataforma, DeepSeek tiene todo para competir con ChatGPT, Copilot, Gemini o Meta AI.

“¡Puedo hacer muchas cosas! Soy un modelo de lenguaje diseñado para asistirte en una amplia variedad de tareas. Aquí te dejo una lista de lo que puedo hacer:

1. Responder preguntas:

- Proporcionar información sobre temas generales como historia, ciencia, tecnología, cultura, deportes, etc.

- Explicar conceptos complejos de manera sencilla.

2. Ayudar con tareas académicas:

- Resolver problemas de matemáticas, física, química, biología, etc.

- Explicar teorías, fórmulas o conceptos.

- Revisar y corregir textos.

- Crear resúmenes, ensayos o informes.

3. Asistencia en redacción y edición:

- Escribir textos creativos, como cuentos, poesía, guiones, etc.

- Corregir gramática, ortografía y estilo.

- Sugerir mejoras en la estructura de un texto.

4. Traducción de idiomas:

- Traducir textos entre varios idiomas, como español, inglés, francés, alemán, portugués, etc.

5. Ayuda en programación:

- Escribir y depurar código en lenguajes como Python, JavaScript, Java, C++, etc.

- Explicar conceptos de programación y algoritmos.

- Ayudar a resolver errores en código.

6. Generación de ideas:

- Proponer ideas para proyectos, negocios, nombres, campañas, etc.

- Ayudar a planificar eventos o actividades.

7. Recomendaciones:

- Sugerir libros, películas, series, música, videojuegos, etc.

- Recomendar rutinas de estudio, ejercicios o hábitos.

8. Asistencia en organización:

- Ayudar a crear horarios, planificaciones o listas de tareas.

- Sugerir métodos de estudio o trabajo.

9. Simulación de conversaciones:

- Mantener diálogos sobre temas variados.

- Simular entrevistas o debates.

10. Resolución de problemas cotidianos:

- Ayudar a encontrar soluciones prácticas para problemas del día a día.

- Ofrecer consejos sobre temas como cocina, viajes, finanzas personales, etc.

11. Educación y aprendizaje:

- Explicar temas de manera didáctica.

- Crear esquemas, mapas conceptuales o resúmenes.

12. Entretenimiento:

- Contar chistes, adivinanzas o curiosidades.

- Jugar a juegos de palabras, trivia o acertijos.

13. Asistencia en toma de decisiones:

- Ayudar a analizar pros y contras de diferentes opciones.

- Ofrecer perspectivas sobre un tema.

14. Búsqueda de información:

- Aunque no tengo acceso a internet en tiempo real, puedo proporcionar información basada en mi entrenamiento (hasta octubre de 2023).

15. Apoyo emocional:

- Escuchar y ofrecer palabras de aliento o consejos generales (aunque no soy un profesional de la salud mental)."

En su base se encuentra el modelo DeepSeek V3, que se lanzó en diciembre. Este ha sido entrenado con 671.000 millones de parámetros con arquitectura Mixture of Experts (MoE), que divide un modelo de IA en pequeñas redes neuronales para que actúen de forma separada como si fueran distintos expertos.

Cómo se compara DeekSeek con otros modelos de IA

El actual interés por DeepSeek, y el impacto que está teniendo en Silicon Valley, es que según sus creadores tiene, a un menor costo de uso y entrenamiento, un puntaje similar o superior a los líderes del sector en todos los test estandarizados para motores de inteligencia artificial generativa.

Por ejemplo, en la evaluación de la comprensión del lenguaje (MMLU Pro) en una variedad de tareas, DeepSeek V3 alcanza una puntuación de 75.9 frente al 78.0 de Claude 3.5 Sonnet, el 72.6 de GPT 4o y el 73.3 de Llama 3.1 405B.

En la evaluación de la capacidad para responder preguntas complejas de nivel posgrado (GPAQ Diamond), DeepSeek V3 ha obtenido una puntuación de 59.1, por debajo de Claude 3.5 Sonnet (65.0), pero por encima de GPT 4o (49.9), Qwen 2.5 de 72B (49.0) y Llama 3.1 405B (51.1).

Queda en segunda posición en el análisis de la capacidad para resolver problemas de software del mundo real (SWE), en el que alcanza una puntuación de 42.0, frente a los 50.8 de Claude 3.5 Sonnet, seguidos de GPT 4o (38.8), Llama 3.1 405B (24.5) y Qwen 2.5 de 72B (23.8).

Y sobresale en las pruebas de resolución de desafíos (MATH 500), donde obtiene 90.2, mientras que Claude 3.5 Sonnet alcanza 78.9; Qwen 2.5 de 72B, 80.0; GPT 4o, 74.6, y Llama 3.1 405B, 73.8 puntos. También lo hace en la resolución de problemas matemáticos con AIME 2024, con una puntuación de 39.2, seguido de Qwen 2.5 de 72B y Llama 3.1 405B (ambos 23.3), Claude 3.5 Sonnet (16.0) y GPT 4o (9.3).

En programación, en la prueba Codeforces, DeepSeek V3 alcanza 51.6 puntos, Qwen 2.5 de 72B , 24.8; Llama 3.1 405B, 25.3 puntos; GPT 4o23.6; y Claude 3.5 Sonnet, una puntuación de 20.3.

Nuevos modelos de razonamiento

Recientemente, la empresa china lanzó una nueva serie de modelos de razonamiento: DeepSeek-R1-Zero y DeepSeek-R1. El primero se entrenó utilizando aprendizaje de refuerzo a gran escala, prescindiendo de un ajuste fino supervisado en etapas iniciales, tal como se explica en el estudio publicado en Arxiv.org.

Por otro lado, el modelo DeepSeek-R1 incorporó una metodología más avanzada, que combinó un entrenamiento multifase con datos de inicio frío antes de implementar el aprendizaje de refuerzo. Este método ayudó a resolver desafíos como la claridad en la lectura y la mezcla de idiomas. De acuerdo con sus creadores, este modelo alcanza un desempeño en tareas de razonamiento similar al de sistemas como OpenAI o1.

Los desarrolladores afirmaron: “Nuestra meta es investigar las capacidades de los LLM para mejorar el razonamiento sin utilizar datos supervisados, enfocándonos en su automejora mediante un proceso de aprendizaje de refuerzo puro”.

Fuente: https://www.lanacion.com.ar/tecnologia/deepseek-asi-se-compara-con-chatgpt-llama-y-otras-ia-en-matematicas-y-otros-tests-nid27012025/

Comentarios
Volver arriba