El puntero del mouse ha estado en el centro de la informática personal durante más de medio siglo. Realiza un seguimiento de la posición del cursor. Registra clics. Más allá de eso, no hace casi nada. Los investigadores de Google DeepMind describieron un conjunto de principios experimentales y demostraciones para un puntero habilitado para IA que va mucho más allá: uno que entiende no sólo hacia dónde estás apuntando, sino a qué estás apuntando y por qué es importante.
El sistema funciona con Gemini y actualmente se encuentra en etapa experimental. Hoy hay dos demostraciones disponibles en Google AI Studio: una para editar una imagen y otra para buscar lugares en un mapa, ambas operables apuntando y hablando. También se está implementando una integración más profunda llamada Magic Pointer dentro de Chrome, y se planea una mayor integración para Googlebook, anunció esta semana la nueva línea de computadoras portátiles con tecnología Gemini de Google.
A qué se dirige DeepMind
La frustración a la que se enfrentan los investigadores de DeepMind es familiar para cualquiera que haya intentado utilizar un asistente de IA mientras estaba en pleno trabajo. Debido a que una herramienta de IA típica vive en su propia ventana, los usuarios deben arrastrar su mundo hacia ella. El equipo de investigación quiere lo contrario: IA intuitiva que se encuentre con los usuarios en todas las herramientas que utilizan, sin interrumpir su flujo.
En la práctica, el flujo de trabajo de IA actual a menudo se ve así: estás trabajando dentro de un documento o una pestaña del navegador, detectas algo sobre lo que quieres preguntar, cambias a una interfaz de chat, vuelves a describir lo que estabas viendo, ejecutas la consulta y vuelves a pegar el resultado. Esto se corresponde con una brecha técnica concreta: las interfaces actuales de LLM son en gran medida de entrada y salida de texto. No tienen conciencia del estado de la pantalla que los rodea. El puntero habilitado para IA es un intento de cerrar esa brecha al brindarle al modelo un contexto visual y semántico en tiempo real derivado de la posición del cursor y el estado de desplazamiento, sin requerir que los usuarios serialicen manualmente ese contexto en un mensaje escrito.
Cuatro principios de interacción
Los investigadores de DeepMind han desarrollado cuatro principios que juntos cambian el arduo trabajo de transmitir el contexto y la intención del usuario a la computadora, reemplazando indicaciones con mucho texto por interacciones más simples e intuitivas.
El primero es Mantener el flujo. Las capacidades de IA deberían funcionar en todas las aplicaciones, no obligar a los usuarios a tomar “desvíos de IA” entre ellas. El prototipo de puntero habilitado para IA está disponible dondequiera que el usuario esté trabajando. Por ejemplo, podrían señalar un PDF y solicitar un resumen con viñetas para pegarlo directamente en un correo electrónico, pasar el cursor sobre una tabla de estadísticas y solicitar una versión de gráfico circular, o resaltar una receta y pedir que se dupliquen todos los ingredientes. Esta es una postura arquitectónica directa: en lugar de crear asistencia de IA como una aplicación complementaria, la capacidad reside en el nivel del puntero y está presente en cualquier herramienta en la que el usuario ya esté trabajando.
El segundo es Mostrar y contar. Los modelos de IA actuales exigen instrucciones precisas. Para obtener una buena respuesta, el usuario debe escribir un mensaje detallado. Un puntero habilitado para IA agilizaría este proceso al capturar suavemente el contexto visual y semántico alrededor del puntero, permitiendo que la computadora “vea” y comprenda lo que es importante para el usuario. En el sistema experimental, basta con señalar y la IA sabrá exactamente con qué palabra, párrafo, parte de una imagen o bloque de código necesita ayuda el usuario. Desde un punto de vista técnico, esto significa que el sistema trata el estado de desplazamiento del cursor y el contenido de la interfaz de usuario circundante como entradas de modelo estructuradas, comparable a cómo los modelos multimodales procesan imágenes y texto juntos, excepto que aquí la región visual se recorta y contextualiza dinámicamente en tiempo real alrededor de un cursor en movimiento.
El tercero es Abrazar el poder de “Esto” y “Aquello”. En las interacciones cotidianas entre sí, los humanos rara vez hablan en párrafos largos y detallados. Podríamos decir: “Arregla esto”, “muévelo aquí” o “¿Qué significa esto?”. – mientras confiamos en los gestos físicos y nuestro contexto compartido para llenar cualquier vacío en la comprensión. Un sistema de inteligencia artificial que comprenda esta combinación de contexto, señalización y voz permitiría a los usuarios realizar solicitudes complejas en taquigrafía natural, sin necesidad de indicaciones complicadas. El nombre del principio es deliberado: el lenguaje deíctico (palabras como “esto” y “aquello” que dependen de una referencia física para tener significado) es la forma en que los humanos se comunican naturalmente cuando pueden señalar algo. El puntero habilitado para IA está diseñado para manejar exactamente esa clase de instrucción sin necesidad de que el usuario explique a qué se refiere “esto”.
El cuarto es convertir los píxeles en entidades procesables. Durante décadas, las computadoras solo han rastreado hacia dónde apuntamos. La IA ahora también puede entender a qué apunta el usuario. Esto transforma los píxeles en entidades estructuradas, como lugares, fechas y objetos, con los que los usuarios pueden interactuar instantáneamente. La foto de una nota garabateada se convierte en una lista interactiva de tareas pendientes; un fotograma pausado en un vídeo de viaje se convierte en un enlace de reserva para ese restaurante atractivo. Para los ingenieros de ML, este es el más sustancial desde el punto de vista técnico de los cuatro principios. Describe un paso de extracción de entidades que ocurre en el momento de la inferencia en cualquier contenido visual que esté debajo del cursor: convirtiendo regiones de píxeles sin procesar en objetos procesables escritos en lugar de dejarlos como contenido de pantalla no estructurado.
a donde va
Google DeepMind ahora está integrando estos principios para reinventar el apuntamiento en Chrome y la nueva experiencia de computadora portátil Googlebook. A partir de ahora, en lugar de escribir un mensaje complejo, los usuarios pueden usar su puntero para preguntarle a Gemini en Chrome sobre la parte de la página web que les interesa. Por ejemplo, seleccionar algunos productos en una página y pedir que los comparen, o señalar dónde quieren visualizar un nuevo sofá en su sala de estar.
Conclusiones clave
Google DeepMind presenta demostraciones experimentales de un puntero de mouse con inteligencia artificial impulsado por Gemini que captura el contexto visual y semántico alrededor del cursor, sin necesidad de indicaciones manuales. El sistema se basa en cuatro principios: mantener el flujo, mostrar y contar, aceptar el poder de “esto” y “aquello” y convertir los píxeles en entidades procesables. “Convertir píxeles en entidades procesables” es la idea técnica clave: el puntero convierte el contenido de la pantalla en entidades estructuradas como lugares, fechas y objetos sobre los que los usuarios pueden actuar instantáneamente. Ahora hay dos demostraciones en vivo disponibles en Google AI Studio (edición de imágenes y búsqueda de mapas); Gemini en Chrome se lanza hoy, y Magic Pointer para Googlebook llegará más adelante este año. El cambio de diseño central: en lugar de que los usuarios arrastren el contexto a una ventana de IA, la IA sigue el cursor a través de cada aplicación en la que el usuario ya está trabajando.
Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros
Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.