DeepSeek-V2-Lite demuestra su superioridad frente a GPT-OSS en hardware antiguo: un análisis exhaustivo de rendimiento en CPU

Un investigador ha realizado un análisis comparativo riguroso entre dos modelos de lenguaje de última generación —DeepSeek-V2-Lite y GPT-OSS-20B— en un portátil HP ProBook de 2018 equipado únicamente con un procesador Intel Core i3 de octava generación y gráficos integrados UHD 620, sin GPU dedicada de Nvidia. El estudio, ejecutado mediante el framework OpenVINO, revela diferencias significativas en rendimiento y estabilidad que podrían resultar decisivas para usuarios con hardware limitado. La metodología del análisis fue exhaustiva: ambos modelos fueron evaluados bajo condiciones idénticas, respondiendo a diez preguntas que abarcaban lógica, salud, historia, programación, escritura creativa, biografía, matemáticas, explicaciones técnicas, ética y ciencia gastronómica. Cada modelo completó tres iteraciones, totalizando 120 inferencias, con parámetros idénticos: contexto de 4096 tokens, salida máxima de 256 tokens, temperatura de 0.2 y top_p de 0.9. Las pruebas se ejecutaron tanto en CPU como en GPU integrada con una capa desalojada. Los resultados en velocidad fueron abrumadores a favor de DeepSeek-V2-Lite. El modelo de Deepseek alcanzó una media de 7.93 tokens por segundo en CPU y 8.08 en iGPU, con un tiempo hasta el primer token (TTFT) de 2.36 segundos en CPU y 1.86 segundos en iGPU. En contraste, GPT-OSS registró apenas 4.20 tokens por segundo en CPU y 4.36 en iGPU, con tiempos de TTFT de 3.13 y 3.07 segundos respectivamente. En términos prácticos, DeepSeek completaba una respuesta de 256 tokens en aproximadamente 32 segundos, mientras que GPT-OSS requería más de un minuto. La aceleración por GPU fue más efectiva en DeepSeek, reduciendo el TTFT un 21%, mientras que en GPT-OSS el cambio fue marginal. En cuanto a la calidad de las respuestas, el análisis manual de todas las salidas reveló un contraste aún más pronunciado. DeepSeek-V2-Lite obtuvo una puntuación de 7.5 sobre 10, demostrando consistencia y coherencia en la mayoría de las respuestas. El modelo destacó en preguntas sobre salud, historia, matemáticas, explicadores técnicos, ética y ciencia de alimentos. Generó un poema completo de temática cyberpunk, un resumen sólido de la Magna Carta, y explicaciones técnicas de calidad textual, como un análisis detallado de la reacción de Maillard. Sin embargo, falló en la pregunta de lógica silogística clásica, afirmando incorrectamente que el silogismo "Todos los A son B, algunos B son C, por lo tanto algunos A son C" es válido, cuando en realidad es una falacia lógica bien conocida. También fracasó en la pregunta de programación sobre la Torre de Hanoi, dejando la implementación sin código real. GPT-OSS-20B, por su parte, obtuvo una puntuación de apenas 2 sobre 10. Aunque demostró momentos de inteligencia genuina —como identificar correctamente la falacia lógica y proporcionar un contraejemplo riguroso con conjuntos, e implementar correctamente una solución recursiva a la Torre de Hanoi— el modelo se comportó de manera catastrófica en 8 de las 10 preguntas. Las respuestas presentaban bucles infinitos de repetición, alucinaciones y degradación progresiva del contenido. La pregunta sobre VPN generó repeticiones sin sentido como "El usuario es la perspectiva de tercera persona. El usuario es 3. El usuario es 3.", mientras que la pregunta histórica se desintegraba en bloques vacíos y puntos suspensivos hasta agotar el límite de tokens. La pregunta sobre Marie Curie confundía eventos de 2018-2023 con una científica fallecida en 1934. La teoría más probable es que GPT-OSS, configurado como modelo de razonamiento que realiza cadenas de pensamiento internas, agota su presupuesto de tokens en procesos internos y nunca llega a formular la respuesta. Con solo 256 tokens de salida disponibles, el modelo se queda atrapado entre el pensamiento y la respuesta. El análisis también señala que los problemas persistían consistentemente en cada iteración, descartando comportamientos aleatorios. Estos hallazgos tienen implicaciones significativas en el panorama actual de modelos de lenguaje. Mientras que muchos desarrolladores e investigadores se centran en crear modelos cada vez más grandes, este análisis demuestra que la arquitectura de expertos de mezcla (MoE) implementada en DeepSeek permite obtener rendimiento superior incluso en hardware extremadamente limitado. DeepSeek-V2-Lite se posiciona como la opción práctica para usuarios con máquinas antiguas o presupuestos de hardware restringidos, mientras que GPT-OSS requeriría ajustes adicionales, como mayor presupuesto de tokens de salida y configuraciones de cuantización menos agresivas, para funcionar de manera fiable. El investigador advierte que su conclusión se basa exclusivamente en la configuración Q4_K_M con 256 tokens máximos, dejando abierta la posibilidad de que versiones con cuantización superior y mayor capacidad de salida podrían mejorar el rendimiento de GPT-OSS. Sin embargo, el contraste fundamental permanece: en hardware de consumidor actual de nivel bajo, DeepSeek-V2-Lite ofrece velocidad, coherencia y fiabilidad, mientras que GPT-OSS presenta un comportamiento impredecible e inutilizable para aplicaciones prácticas bajo estas condiciones.

🎙️ Quick Summary

Hola, soy tu presentador de ClaudeIA Radio, y lo que voy a contaros hoy es una historia fascinante sobre lo que sucede cuando enfrentas dos modelos de inteligencia artificial en lo que podríamos llamar "las minas de carbón" del hardware moderno. Imaginad un portátil de 2018 con un procesador Intel i3, sin GPU dedicada, sin lujos. Pues bien, un investigador ha hecho algo hermoso: probar DeepSeek-V2-Lite contra GPT-OSS en esas condiciones extremas. Y lo que descubrió es que DeepSeek prácticamente destroza a su competidor. Casi el doble de velocidad, sin exagerar. Mientras DeepSeek termina una respuesta en media en 32 segundos, GPT-OSS tarda más de un minuto. En hardware antiguo, eso no es una diferencia técnica, es la diferencia entre una herramienta usable y una tortura cotidiana. Pero lo más preocupante no es la velocidad, es la estabilidad. GPT-OSS simplemente se desmorona. Entra en bucles infinitos, alucina, se queda atrapado repitiendo "El usuario es 3" una y otra vez. Es como si el modelo estuviera pensando tanto en silencio que se olvida de responder. Y lo peor es que esto sucede de manera consistente, no es un fallo aleatorio. Aquí viene lo verdaderamente interesante: DeepSeek funciona. Tiene algunos fallos, claro, pero es confiable. Esto demuestra algo que los gigantes tecnológicos no quieren que notemos: la arquitectura inteligente vence al tamaño bruto cuando los recursos escasean. Lo que más me llama la atención es lo que este análisis sugiere sobre el futuro de la IA. Mientras empresas como OpenAI persiguen modelos cada vez más enormes, existe un nicho enorme de usuarios en máquinas antiguas, en países con internet limitado, en dispositivos edge. DeepSeek parece haber entendido esto mejor. Así que la pregunta que os dejo es: ¿estamos quizá invirtiendo recursos en la dirección equivocada? ¿Deberíamos valorar más la eficiencia que la escala?

🤖 Classification Details

Rigorous benchmark comparing two MoE models with detailed methodology (120 inference runs, controlled conditions, manual quality assessment), specific quantified results, and reproducible testing on consumer hardware.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details