GEMMA 3 LLM ABIERTA Y LOCAL DESAFIA A DeepSeek R1

JUE, 10 / ABR / 2025

Gemma 3 es el nuevo modelo de inteligencia artificial de Google pensado para integrarse en proyectos reales sin necesidad de grandes recursos. Con su código abierto y diseño versátil, busca ofrecer una IA potente y adaptable para desarrolladores, empresas y equipos técnicos.

Autor: Claudio Bottini

Características principales del modelo

Gemma 3 llega como una familia de modelos de IA escalables, pensados para correr incluso en entornos con una sola GPU. Es multimodal, lo que significa que puede procesar tanto texto como imágenes y videos breves.

Está disponible en versiones que van de 1 a 27 mil millones de parámetros y soporta más de 140 idiomas. Su ventana de contexto de hasta 128.000 tokens permite trabajar con grandes volúmenes de información, haciéndolo útil para tareas complejas como el análisis de texto profundo, el razonamiento visual y la generación de contenido enriquecido.

Una ventaja clave es su arquitectura abierta, que facilita la personalización, el despliegue y la ejecución tanto en la nube como en dispositivos locales. Gracias a su optimización para funcionar con un solo acelerador, reduce costos y mejora la accesibilidad sin resignar rendimiento.

Gemma 3 está optimizado para obtener un alto rendimiento incluso con un solo acelerador, lo que reduce los costos de implementación y permite su uso en entornos con recursos limitados.

Innovaciones técnicas y eficiencia computacional

Gemma 3 incorpora una arquitectura basada en transformadores con decodificador puro, ideal para tareas de generación de texto. Su sistema de atención es mixto: combina cinco capas de atención local con una capa global para captar dependencias a largo plazo sin saturar la memoria.

También introduce un codificador visual que convierte imágenes en tokens compatibles, habilitando capacidades multimodales. Una de las grandes apuestas técnicas del modelo es la cuantización: reduce el tamaño del modelo y el uso de memoria al disminuir la precisión de los datos, manteniendo un alto rendimiento.

Esto es posible gracias a puntos de control no cuantizados como base. Además, se aplican técnicas como la atención con consultas agrupadas (GQA), destilación de conocimiento desde modelos más grandes y un corpus de entrenamiento multilingüe.

El modelo también pasa por una fase de ajuste con retroalimentación humana (RLHF/AR), que refina su comportamiento en tareas como matemáticas, programación, comprensión y generación de respuestas más seguras.

El codificador visual de Gemma 3 convierte imágenes en tokens compatibles con el modelo de lenguaje, permitiendo que texto e imagen se integren de forma fluida. Esta tokenización visual habilita capacidades multimodales, como interpretar o generar contenido a partir de imágenes.

Implementación práctica y uso local

Para probar Gemma 3 sin complicaciones, se puede usar Google AI Studio desde el navegador. Para quienes necesiten mayor control, está disponible en Google Colab, Hugging Face, Kaggle y Ollama. Esta última permite ejecutar el modelo directamente en computadoras de escritorio, incluso sin GPU, gracias a su diseño optimizado.

El soporte para inferencia local permite trabajar con baja latencia, sin conexión a Internet, protegiendo la privacidad de los datos. También reduce el uso de ancho de banda y elimina la necesidad de pagar por APIs.

Gemma 3 puede integrarse en dispositivos móviles mediante Google AI Edge, lo que abre la puerta a aplicaciones de IA offline con buena respuesta. En tareas como la descripción de imágenes, las versiones más grandes del modelo (por ejemplo, la 4b) mostraron interpretaciones más precisas. Para textos largos o documentos, incluso las versiones más livianas mantuvieron buena velocidad y eficiencia.

En escenarios reales, como resúmenes o traducciones extensas, ofrece resultados consistentes sin depender de grandes infraestructuras.

Si solo queremos probarlo, Google AI Studio permite ejecutar directamente en nuestro navegador Gemma 3, sin necesidad de configuración.

Evaluación de rendimiento y comparativas

Gemma 3 fue sometido a benchmarks exigentes, mostrando mejoras claras respecto a versiones anteriores y resultados competitivos frente a otros modelos abiertos. En la arena de chatbots LMSYS, la versión 27B logró una puntuación Elo de 1338, por encima de modelos como DeepSeek-V3 y LLaMA 3.

En pruebas como MMLU-Pro y MATH, obtuvo 67,5 y 89 puntos respectivamente, superando ampliamente a su antecesor. También se destacó en tareas como programación, razonamiento estructurado y preguntas complejas.

En benchmarks visuales (DocVQA, TextVQA, InfoVQA), su rendimiento fue sólido, incluso si todavía queda detrás de modelos cerrados como GPT-4V. Con textos largos, rindió bien en RULER y MRCR, manteniendo capacidad de razonamiento incluso con 128K tokens.

En cuanto al rendimiento multilingüe, alcanzó puntajes altos en MGSM, GMMLU y XQuAD, superando a modelos como LLaMA 2 34B. En términos de seguridad, incorpora filtrado de datos y evaluaciones específicas para evitar respuestas problemáticas.

Comparado con DeepSeek R1, Gemma 3 ofrece mayor flexibilidad y una cobertura idiomática más amplia, aunque con diferencias en tareas que requieren razonamiento estructurado. Ambas opciones son válidas según el contexto, pero Gemma 3 logra un equilibrio atractivo entre potencia, portabilidad y facilidad de uso en desarrollos reales.

La evaluación mediante el sistema Elo permite comparar modelos con base en juicios humanos emparejados, ofreciendo una métrica relativa más ajustada que los benchmarks tradicionales para tareas lingüísticas y multimodales.

Encuentra la versión completa de la publicación en la que se basa este resumen, con todos los detalles técnicos en RedUSERS PREMIUM

ChatGPT 4.5 y CLAUDE 3.7 SONNET DOS IA EN PUGNA

La comparación entre ChatGPT-4.5 de OpenAI y Claude 3.7 Sonnet de Anthropic revela dos modelos avanzados con propuestas distintas, pensadas para públicos y necesidades diferentes dentro del universo de la inteligencia artificial generativa.