Tecnología

Qwen3-Max-Thinking vs Gemini 3 Pro: la batalla oculta de la IA que define el futuro

27 de enero de 2026 12:39 AM

Comparativa visual de benchmarks entre Qwen3-Max-Thinking y Gemini 3 Pro mostrando ventajas en razonamiento lógico y seguimiento de instrucciones

Guerra de modelos: La inteligencia artificial no frena su ritmo y China irrumpe con fuerza en la conversación global.

Desde que ChatGPT revolucionó el sector en noviembre de 2022, cada pocas semanas aparece un nuevo modelo que redefine los límites. Esta vez, el protagonista es Qwen3-Max-Thinking, la apuesta de Alibaba diseñada para competir directamente con Gemini 3 Pro de Google. Pero más allá de los benchmarks, hay una batalla oculta que podría decidir el futuro de la IA: cómo piensan, cuánto cuestan y qué hacen con tus datos.

¿Qué hace diferente a Qwen3-Max-Thinking?

Alibaba no presenta este modelo como una simple actualización, sino como su «modelo estrella para razonamiento». La compañía asegura haber escalado parámetros y optimizado recursos para mejorar múltiples dimensiones: conocimiento factual, razonamiento complejo, seguimiento de instrucciones, alineación con preferencias humanas y capacidades de agente. En otras palabras, no vende solo potencia bruta, sino una forma de «pensar mejor».

Benchmarks: ¿quién gana en cada habilidad?

La tabla comparativa entre ambos modelos incluye 19 benchmarks. Gemini 3 Pro lidera en 11, mientras que Qwen3-Max-Thinking lo hace en 8. Pero estos números no cuentan toda la historia. Cada prueba mide una habilidad específica: desde conocimiento general hasta programación, uso de herramientas o análisis de contexto largo.

El punto fuerte de Qwen3-Max-Thinking aparece en el seguimiento de instrucciones y la alineación con preferencias humanas. En Arena-Hard v2, supera a Gemini con 90,2 frente a 81,7, una diferencia de 8,5 puntos. Este benchmark no premia solo el acierto técnico, sino la utilidad percibida por los usuarios al comparar respuestas a ciegas. En IFBench, Qwen también gana por la mínima: 70,9 frente a 70,4.

¿Qué significa esto en la práctica? Que cuando un usuario formula una instrucción ambigua o con matices, Qwen parece más capaz de interpretar la intención y ofrecer respuestas que se sienten naturales.

Otro terreno donde Qwen destaca es el razonamiento matemático y lógico. En HMMT (ediciones noviembre y febrero de 2025), supera a Gemini con 94,7 frente a 93,3 y 98,0 frente a 97,5, respectivamente. En IMOAnswerBench, la ventaja es mínima: 83,9 frente a 83,3. Estos resultados sugieren que, en problemas que requieren varios pasos de lógica, Qwen tiende a sacar ventaja.

Alibaba también ha incorporado capacidades de uso adaptativo de herramientas. En HLE (w/ tools), Qwen supera a Gemini con 49,8 frente a 45,8, lo que indica una mejor capacidad para recuperar información y ejecutar código cuando el modelo puede apoyarse en herramientas externas.

¿Dónde gana Gemini 3 Pro?

Gemini 3 Pro muestra su fortaleza en áreas más técnicas. Lidera en MMLU-Pro y MMLU-Redux, benchmarks asociados a conocimiento general. También domina en GPQA y HLE, pruebas exigentes de evaluación y preguntas complejas. En programación, supera a Qwen en LiveCodeBench v6 y SWE Verified, reforzando su posición como opción sólida para desarrolladores. Además, lidera en AA-LCR, especializado en análisis de documentos largos.

El factor oculto: precio y privacidad

Más allá de los benchmarks, hay dos preguntas clave: ¿cuánto cuesta? y ¿qué pasa con tus datos?.

En precios por 1 millón de tokens, Gemini 3 Pro oscila entre US$2 y US$4 en entrada, mientras que Qwen3-Max-Thinking se queda en US$1,2. La diferencia más notable aparece en la salida: Gemini cobra entre US$12 y US$18, frente a los US$6 de Qwen. En términos prácticos, Gemini es 1,67 veces más caro en entrada y 2 veces más en salida en el tramo habitual. Si el uso supera los 200.000 tokens de entrada, la brecha se amplía: 3,33 veces en entrada y 3 veces en salida.

Pero el precio no lo es todo. La privacidad y el tratamiento de datos emergen como el gran tema oculto de esta batalla. En el caso de Qwen, hay que distinguir entre dos entornos:

Chat web de consumo: Los términos permiten usar y almacenar el «contenido de Usuario» para desarrollar y mejorar tecnologías de IA, incluyendo datos desidentificados. No hay una opción clara para desactivar este uso.
Entorno profesional (Alibaba Cloud): Asegura que no usa los datos para entrenamiento y cifra la información con AES-256. Las conversaciones por API no se guardan, pero en otros modos sí puede conservarse historial.

Google, por su parte, garantiza que con Gemini API de pago, los prompts y respuestas no se usan para entrenar modelos y se tratan como confidenciales. Sin embargo, hay un factor adicional: la Ley de Inteligencia Nacional china, que obliga a organizaciones y ciudadanos a «apoyar, asistir y cooperar» con el trabajo de inteligencia nacional. Esta normativa ha generado preocupaciones en la Unión Europea y otros mercados.

¿Qué modelo elegir?

La respuesta depende del uso que le des:

Si buscas un modelo más económico y orientado a razonamiento: Qwen3-Max-Thinking ofrece ventajas en seguimiento de instrucciones, lógica matemática y uso de herramientas, con un precio significativamente menor.
Si priorizas conocimiento general, programación o análisis de documentos largos: Gemini 3 Pro sigue siendo una opción robusta, aunque más cara.

Pero la verdadera batalla no se libra solo en los benchmarks. El futuro de la IA también se decidirá en cuánto confiamos en cómo manejan nuestros datos y en qué modelo logra convencer a los usuarios de que no solo es potente, sino también seguro y transparente.

En Xataka | La cantidad de nuevas aplicaciones que llegan a la App Store se ha disparado. Tenemos un culpable: el «vibe coding»

Referencia de contenido: consultar fuente original aquí