Creación de ilusiones ópticas de múltiples vistas con aprendizaje automático: exploración de métodos de disparo cero para la transformación dinámica de imágenes

Los anagramas son imágenes que cambian de apariencia cuando las miras desde diferentes ángulos o les das la vuelta. Crear este tipo de ilusiones normalmente implica comprender y luego engañar nuestra percepción visual. Sin embargo, ha surgido un nuevo enfoque que ofrece una forma sencilla y eficaz de generar estas cautivadoras ilusiones ópticas de múltiples vistas.

Existen muchos enfoques para crear ilusiones ópticas, pero la mayoría se basan en suposiciones específicas sobre cómo los humanos perciben las imágenes. Estas suposiciones a menudo conducen a modelos complejos que sólo en ocasiones capturan la esencia de nuestra experiencia visual. Investigadores de la Universidad de Michigan han propuesto una nueva solución. En lugar de construir un modelo basado en cómo ven las cosas los humanos, utiliza un modelo de difusión de texto a imagen. Este modelo no supone nada sobre la percepción humana; aprende únicamente de los datos.

El método introduce una forma novedosa de generar ilusiones clásicas, como imágenes que se transforman cuando se voltean o giran. Además, se aventura en un nuevo territorio de ilusiones denominado “anagramas visuales”, donde las imágenes cambian de apariencia cuando se reorganizan sus píxeles. Esto abarca giros, rotaciones y permutaciones más complejas, como la creación de rompecabezas con múltiples soluciones, conocidos como “rompecabezas polimórficos”. El método incluso se extiende a tres y cuatro vistas, ampliando el alcance de estas intrigantes transformaciones visuales.

La clave para que este método funcione es seleccionar cuidadosamente las vistas. Las transformaciones aplicadas a las imágenes deben preservar las propiedades estadísticas del ruido. Esto se debe a que el modelo se entrena bajo el supuesto de ruido gaussiano aleatorio, independiente e idénticamente distribuido.

El método utiliza un modelo de difusión para eliminar el ruido de una imagen desde varias vistas, creando múltiples estimaciones de ruido. Luego, estas estimaciones se combinan para formar una única estimación de ruido, lo que facilita un paso en el proceso de difusión inversa. El papel presenta evidencia empírica que respalda la efectividad de estos puntos de vista, mostrando tanto la calidad como la flexibilidad de las ilusiones generadas.

En conclusión, este método simple pero poderoso abre nuevas posibilidades para crear cautivadoras ilusiones ópticas de múltiples vistas. Al eludir los supuestos sobre la percepción humana y aprovechar las capacidades de los modelos de difusión, proporciona un enfoque nuevo y accesible al fascinante mundo de las transformaciones visuales. Ya sean volteos, rotaciones o rompecabezas polimórficos, este método ofrece una herramienta versátil para crear ilusiones que cautivan y desafían nuestra comprensión visual.

Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Niharika

" data-medium-file="https://www.marktechpost.com/wp-content/uploads/2023/01/1674480782181-Niharika-Singh-264x300.jpg" data-large-file="https://www.marktechpost.com/wp-content/uploads/2023/01/1674480782181-Niharika-Singh-902x1024.jpg"/>

Niharika es pasante de consultoría técnica en Marktechpost. Es estudiante de tercer año y actualmente cursa su licenciatura en tecnología en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la inteligencia artificial y una ávida lectora de los últimos avances en estos campos.

🐝 [Free Webinar] LLM en banca: creación de análisis predictivos para aprobaciones de préstamos (13 de diciembre de 2023)

Creación de ilusiones ópticas de múltiples vistas con aprendizaje automático: exploración de métodos de disparo cero para la transformación dinámica de imágenes

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Presentamos Géminis Omni

Justin Solomon nombrado decano asociado de educación en ingeniería | Noticias del MIT

Ampliación de la memoria conversacional en Kiro CLI mediante Amazon Bedrock AgentCore Memory

You missed

Guardia Civil asalta una granja liberando a una esclava sexual adolescente nigeriana ⋆ Metropolitano de Madrid

Claressa Shields duplica su apuesta por la bofetada de Alycia Baumgardner

Los láseres en los cráteres lunares podrían crear un sistema GPS lunar

El respaldo de Trump a Ken Paxton ayudará a los demócratas a volver azul a Texas