Un investigador ha realizado un análisis comparativo riguroso entre dos modelos de lenguaje de última generación —DeepSeek-V2-Lite y GPT-OSS-20B— en un portátil HP ProBook de 2018 equipado únicamente con un procesador Intel Core i3 de octava generación y gráficos integrados UHD 620, sin GPU dedicada de Nvidia. El estudio, ejecutado mediante el framework OpenVINO, revela diferencias significativas en rendimiento y estabilidad que podrían resultar decisivas para usuarios con hardware limitado.
La metodología del análisis fue exhaustiva: ambos modelos fueron evaluados bajo condiciones idénticas, respondiendo a diez preguntas que abarcaban lógica, salud, historia, programación, escritura creativa, biografía, matemáticas, explicaciones técnicas, ética y ciencia gastronómica. Cada modelo completó tres iteraciones, totalizando 120 inferencias, con parámetros idénticos: contexto de 4096 tokens, salida máxima de 256 tokens, temperatura de 0.2 y top_p de 0.9. Las pruebas se ejecutaron tanto en CPU como en GPU integrada con una capa desalojada.
Los resultados en velocidad fueron abrumadores a favor de DeepSeek-V2-Lite. El modelo de Deepseek alcanzó una media de 7.93 tokens por segundo en CPU y 8.08 en iGPU, con un tiempo hasta el primer token (TTFT) de 2.36 segundos en CPU y 1.86 segundos en iGPU. En contraste, GPT-OSS registró apenas 4.20 tokens por segundo en CPU y 4.36 en iGPU, con tiempos de TTFT de 3.13 y 3.07 segundos respectivamente. En términos prácticos, DeepSeek completaba una respuesta de 256 tokens en aproximadamente 32 segundos, mientras que GPT-OSS requería más de un minuto. La aceleración por GPU fue más efectiva en DeepSeek, reduciendo el TTFT un 21%, mientras que en GPT-OSS el cambio fue marginal.
En cuanto a la calidad de las respuestas, el análisis manual de todas las salidas reveló un contraste aún más pronunciado. DeepSeek-V2-Lite obtuvo una puntuación de 7.5 sobre 10, demostrando consistencia y coherencia en la mayoría de las respuestas. El modelo destacó en preguntas sobre salud, historia, matemáticas, explicadores técnicos, ética y ciencia de alimentos. Generó un poema completo de temática cyberpunk, un resumen sólido de la Magna Carta, y explicaciones técnicas de calidad textual, como un análisis detallado de la reacción de Maillard. Sin embargo, falló en la pregunta de lógica silogística clásica, afirmando incorrectamente que el silogismo "Todos los A son B, algunos B son C, por lo tanto algunos A son C" es válido, cuando en realidad es una falacia lógica bien conocida. También fracasó en la pregunta de programación sobre la Torre de Hanoi, dejando la implementación sin código real.
GPT-OSS-20B, por su parte, obtuvo una puntuación de apenas 2 sobre 10. Aunque demostró momentos de inteligencia genuina —como identificar correctamente la falacia lógica y proporcionar un contraejemplo riguroso con conjuntos, e implementar correctamente una solución recursiva a la Torre de Hanoi— el modelo se comportó de manera catastrófica en 8 de las 10 preguntas. Las respuestas presentaban bucles infinitos de repetición, alucinaciones y degradación progresiva del contenido. La pregunta sobre VPN generó repeticiones sin sentido como "El usuario es la perspectiva de tercera persona. El usuario es 3. El usuario es 3.", mientras que la pregunta histórica se desintegraba en bloques vacíos y puntos suspensivos hasta agotar el límite de tokens. La pregunta sobre Marie Curie confundía eventos de 2018-2023 con una científica fallecida en 1934.
La teoría más probable es que GPT-OSS, configurado como modelo de razonamiento que realiza cadenas de pensamiento internas, agota su presupuesto de tokens en procesos internos y nunca llega a formular la respuesta. Con solo 256 tokens de salida disponibles, el modelo se queda atrapado entre el pensamiento y la respuesta. El análisis también señala que los problemas persistían consistentemente en cada iteración, descartando comportamientos aleatorios.
Estos hallazgos tienen implicaciones significativas en el panorama actual de modelos de lenguaje. Mientras que muchos desarrolladores e investigadores se centran en crear modelos cada vez más grandes, este análisis demuestra que la arquitectura de expertos de mezcla (MoE) implementada en DeepSeek permite obtener rendimiento superior incluso en hardware extremadamente limitado. DeepSeek-V2-Lite se posiciona como la opción práctica para usuarios con máquinas antiguas o presupuestos de hardware restringidos, mientras que GPT-OSS requeriría ajustes adicionales, como mayor presupuesto de tokens de salida y configuraciones de cuantización menos agresivas, para funcionar de manera fiable.
El investigador advierte que su conclusión se basa exclusivamente en la configuración Q4_K_M con 256 tokens máximos, dejando abierta la posibilidad de que versiones con cuantización superior y mayor capacidad de salida podrían mejorar el rendimiento de GPT-OSS. Sin embargo, el contraste fundamental permanece: en hardware de consumidor actual de nivel bajo, DeepSeek-V2-Lite ofrece velocidad, coherencia y fiabilidad, mientras que GPT-OSS presenta un comportamiento impredecible e inutilizable para aplicaciones prácticas bajo estas condiciones.