Google ha lanzado FunctionGemma, una versión especializada del modelo Gemma 3 270M que está entrenado específicamente para la llamada de funciones y diseñado para ejecutarse como un agente perimetral que asigna el lenguaje natural a acciones API ejecutables.
Pero, ¿Qué es FunctionGemma?
FunciónGemma es un transformador de solo texto de parámetros de 270M basado en Gemma 3 270M. Mantiene la misma arquitectura que Gemma 3 y se lanza como un modelo abierto bajo la licencia Gemma, pero el objetivo de capacitación y el formato de chat están dedicados a llamadas de funciones en lugar de diálogos de forma libre.
El modelo está pensado para ajustarse a tareas de llamada de funciones específicas. No se posiciona como un asistente de chat general. El objetivo principal del diseño es traducir las instrucciones del usuario y las definiciones de herramientas en llamadas de funciones estructuradas y luego, opcionalmente, resumir las respuestas de las herramientas para el usuario.
Desde una perspectiva de interfaz, FunctionGemma se presenta como un modelo de lenguaje causal estándar. Las entradas y salidas son secuencias de texto, con un contexto de entrada de 32 000 tokens y un presupuesto de salida de hasta 32 000 tokens por solicitud, compartido con la longitud de entrada.
Datos de arquitectura y entrenamiento.
El modelo utiliza la arquitectura de transformador Gemma 3 y la misma escala de parámetros de 270M que el Gemma 3 270M. La pila de capacitación y tiempo de ejecución reutiliza la investigación y la infraestructura utilizadas para Gemini, incluidos JAX y ML Pathways en grandes clústeres de TPU.
FunctionGemma utiliza el vocabulario de 256K de Gemma, que está optimizado para estructuras JSON y texto multilingüe. Esto mejora la eficiencia de los tokens para esquemas de funciones y respuestas de herramientas y reduce la longitud de la secuencia para implementaciones de borde donde la latencia y la memoria son limitadas.
El modelo se entrena en tokens 6T, con un límite de conocimiento en agosto de 2024. El conjunto de datos se centra en dos categorías principales:
La herramienta pública y la herramienta de definiciones de API utilizan interacciones que incluyen indicaciones, llamadas a funciones, respuestas a funciones y mensajes de seguimiento en lenguaje natural que resumen los resultados o solicitan aclaraciones.
Esta señal de entrenamiento enseña tanto la sintaxis (qué función llamar y cómo formatear los argumentos) como la intención (cuándo llamar a una función y cuándo solicitar más información).
Formato de conversación y tokens de control.
FunctionGemma no utiliza un formato de chat gratuito. Se espera una plantilla de conversación estricta que separe los roles y las regiones relacionadas con las herramientas. Los turnos de conversación están envueltos en roles… donde los roles suelen ser desarrollador, usuario o modelo.
Dentro de esos turnos, FunctionGemma se basa en un conjunto fijo de pares de tokens de control.
y para definiciones de herramientas y para llamadas de herramientas del modelo y para salidas de herramientas serializadas
Estos marcadores permiten que el modelo distinga el texto en lenguaje natural de los esquemas de funciones y de los resultados de la ejecución. La API Hugging Face apply_chat_template y las plantillas oficiales de Gemma generan esta estructura automáticamente para mensajes y listas de herramientas.
Ajuste fino y rendimiento de acciones móviles
Fuera de la caja, FunctionGemma ya está capacitado para el uso de herramientas genéricas. Sin embargo, la guía oficial de Mobile Actions y la tarjeta de modelo enfatizan que los modelos pequeños alcanzan el nivel de confiabilidad de producción solo después de un ajuste fino específico de la tarea.
La demostración de Mobile Actions utiliza un conjunto de datos donde cada ejemplo expone un pequeño conjunto de herramientas para las operaciones del sistema Android, por ejemplo, crear un contacto, configurar un evento de calendario, controlar la linterna y ver mapas. FunctionGemma aprende a asignar expresiones como “Crea un evento de calendario para el almuerzo de mañana” o “Enciende la linterna” a aquellas herramientas con argumentos estructurados.
En la evaluación de Mobile Actions, el modelo básico de FunctionGemma alcanza una precisión del 58 por ciento en un conjunto de pruebas realizado. Después de realizar ajustes finos con la receta del libro de cocina público, la precisión aumenta al 85 por ciento.
Agentes perimetrales y demostraciones de referencia
El principal objetivo de implementación de FunctionGemma son los agentes perimetrales que se ejecutan localmente en teléfonos, computadoras portátiles y pequeños aceleradores como NVIDIA Jetson Nano. El pequeño recuento de parámetros, 0,3 B, y la compatibilidad con la cuantificación permiten la inferencia con poca memoria y baja latencia en el hardware de consumo.
Google ofrece varias experiencias de referencia a través de Google AI Edge Gallery
Mobile Actions muestra un agente de estilo asistente completamente fuera de línea para el control de dispositivos mediante FunctionGemma, ajustado en el conjunto de datos de Mobile Actions e implementado en el dispositivo. Tiny Garden es un juego controlado por voz en el que el modelo descompone comandos como “Plantar girasoles en la fila superior y regarlos” en funciones específicas de dominio como plant_seed y water_plots con coordenadas de cuadrícula explícitas. FunciónGemma Physics Playground se ejecuta completamente en el navegador usando Transformers.js y permite a los usuarios resolver acertijos de física mediante instrucciones en lenguaje natural que el modelo convierte en acciones de simulación.
Estas demostraciones validan que un llamador de función de parámetro de 270M puede admitir lógica de varios pasos en el dispositivo sin llamadas al servidor, siempre que se realicen un ajuste fino y las interfaces de herramientas adecuadas.
Conclusiones clave
FunctionGemma es una variante de solo texto de parámetro 270M de Gemma 3 que está entrenada específicamente para llamadas de funciones, no para chat abierto, y se lanza como un modelo abierto según los términos de uso de Gemma. El modelo mantiene la arquitectura del transformador Gemma 3 y un vocabulario de tokens de 256k, admite 32k tokens por solicitud compartidos entre entrada y salida y está entrenado en tokens de 6T. FunctionGemma utiliza una plantilla de chat estricta con rol… y tokens de control dedicados para declaraciones de funciones, llamadas a funciones y respuestas de funciones, lo cual es necesario para el uso confiable de herramientas en sistemas de producción. En el punto de referencia de Mobile Actions, la precisión mejora del 58 por ciento para el modelo base al 85 por ciento después del ajuste fino específico de la tarea, lo que demuestra que los llamadores de funciones pequeñas necesitan datos de dominio más que ingeniería rápida. La escala de 270M y el soporte de cuantificación permiten que FunctionGemma se ejecute en teléfonos, computadoras portátiles y dispositivos de clase Jetson, y el modelo ya está integrado en ecosistemas como Hugging Face, Vertex AI, LM Studio y demostraciones perimetrales como Mobile Actions, Tiny Garden y Physics Playground.
Consulta los detalles técnicos y el modelo en HF. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.