En el análisis de videos e imágenes del mundo real, las empresas a menudo enfrentan el desafío de detectar objetos que no eran parte del conjunto de capacitación original de un modelo. Esto se vuelve especialmente difícil en entornos dinámicos donde los objetos nuevos, desconocidos o definidos por el usuario aparecen con frecuencia. Por ejemplo, los editores de medios pueden querer rastrear marcas o productos emergentes en contenido generado por el usuario; Los anunciantes deben analizar las apariencias de productos en videos de influencia a pesar de las variaciones visuales; Los proveedores minoristas tienen como objetivo admitir la búsqueda flexible y descriptiva; Los autos autónomos deben identificar escombros de carretera inesperados; y los sistemas de fabricación deben atrapar defectos novedosos o sutiles sin etiquetado previo. En todos estos casos, los modelos tradicionales de detección de objetos de conjunto cerrado (CSOD), que solo reconocen una lista fija de categorías predefinidas, por su entrega. Ellos clasifican erróneamente los objetos desconocidos o los ignoran por completo, limitando su utilidad para las aplicaciones del mundo real. La detección de objetos abiertos (OSOD) es un enfoque que permite a los modelos detectar objetos conocidos y previamente invisibles, incluidos los no encontrados durante la capacitación. Admite indicaciones de entrada flexibles, que van desde nombres de objetos específicos hasta descripciones abiertas, y puede adaptarse a objetivos definidos por el usuario en tiempo real sin requerir reentrenamiento. Al combinar el reconocimiento visual con la comprensión semántica, a menudo a través de modelos en idioma de visión, OSOD ayuda a los usuarios a consultar el sistema ampliamente, incluso si es desconocido, ambiguo o completamente nuevo.
En esta publicación, exploramos cómo Amazon Bedrock Data Automation Utiliza OSOD para mejorar la comprensión de video.
Amazon Bedrock Data Automation and Video Blueprints con Osod
Amazon Bedrock Data Automation es un servicio basado en la nube que extrae ideas de contenido no estructurado, como documentos, imágenes, video y audio. Específicamente, para el contenido de video, la automatización de datos de roca madre de Amazon admite funcionalidades como la segmentación de capítulos, la detección de texto a nivel de cuadro, la Clasificación a nivel de capítulo de la Oficina de Publicidad Interactiva (IAB) y OSOD a nivel de cuadro. Para obtener más información sobre la automatización de datos de la roca madre de Amazon, consulte Automatizar información de video para la publicidad contextual utilizando Amazon Bedrock Data Automation.
Amazon Bedrock Data Automation Video Blueprints admite OSOD en el nivel de marco. Puede ingresar un video junto con un mensaje de texto que especifique los objetos deseados para detectar. Para cada cuadro, el modelo genera un diccionario que contiene cuadros delimitadores en formato XYWH (las coordenadas X e Y de la esquina superior izquierda, seguido del ancho y la altura de la caja), junto con las etiquetas y puntajes de confianza correspondientes. Puede personalizar aún más la salida en función de sus necesidades, por ejemplo, filtrándose mediante detecciones de alta confianza cuando se prioriza la precisión.
El texto de entrada es altamente flexible, por lo que puede definir campos dinámicos en los planos de video de automatización de datos de Amazon Bedrock alimentados por OSOD.
Ejemplo de casos de uso
En esta sección, exploramos algunos ejemplos de diferentes casos de uso para los planos de video de automatización de datos de Amazon Bedrock con OSOD. La siguiente tabla resume la funcionalidad de esta característica.
| Funcionalidad | Subfuncionalidad | Ejemplos |
| Comprensión visual multirranular | Detección de objetos de referencia de objeto de grano fino | "Detect the apple in the video." |
| Detección de objetos a partir de referencia de objeto de granularidad cruzada | "Detect all the fruit items in the image." |
|
| Detección de objetos de preguntas abiertas | "Find and detect the most visually important elements in the image." |
|
| Detección de alucinación visual | Identificar y marcar la mención del objeto en el texto de entrada que no corresponde al contenido real en la imagen dada. | "Detect if apples appear in the image." |
Análisis de anuncios
Los anunciantes pueden usar esta función para comparar la efectividad de varias estrategias de colocación de anuncios en diferentes ubicaciones y realizar pruebas A/B para identificar el enfoque publicitario más óptimo. Por ejemplo, la siguiente imagen es la salida en respuesta a la solicitud “Detectar las ubicaciones de los dispositivos Echo”.
Resultado inteligente
Al detectar elementos clave en el video, puede elegir estrategias de cambio de tamaño apropiadas para dispositivos con diferentes resoluciones y relaciones de aspecto, asegurándose de que se conserve información visual importante. Por ejemplo, la siguiente imagen es la salida en respuesta a la solicitud “Detectar los elementos clave en el video”.
Vigilancia con monitoreo inteligente
En los sistemas de seguridad del hogar, los productores o usuarios pueden aprovechar las capacidades de comprensión y localización de alto nivel del modelo para mantener la seguridad, sin la necesidad de enumerar manualmente todos los escenarios posibles. Por ejemplo, la siguiente imagen es la salida en respuesta a la solicitud “Compruebe los elementos peligrosos en el video”.
Etiquetas personalizadas
Puede definir sus propias etiquetas y buscar videos para recuperar los resultados específicos y deseados. Por ejemplo, la siguiente imagen es la salida en respuesta al mensaje “Detectar el automóvil blanco con ruedas rojas en el video”.
Edición de imágenes y videos
Con la detección de objetos flexible basada en texto, puede eliminar o reemplazar con precisión los objetos en el software de edición de fotos, minimizando la necesidad de máscaras imprecisas y dibujadas a mano que a menudo requieren múltiples intentos para lograr el resultado deseado. Por ejemplo, la siguiente imagen es la salida en respuesta al mensaje “Detectar a las personas que montan motocicletas en el video”.
Muestra de entrada y salida de planos de video
El siguiente ejemplo demuestra cómo definir un plan de video de automatización de datos de roca madre de Amazon para detectar objetos visualmente prominentes en el nivel del capítulo, con salida de muestra que incluye objetos y sus cuadros delimitadores.
El siguiente código es nuestro ejemplo de esquema de BluePrint:
El siguiente código está fuera de ejemplo de salida personalizada de video:
Para ver el ejemplo completo, consulte lo siguiente Repositorio de Github.
Conclusión
La capacidad de OSOD dentro de la automatización de datos de roca madre de Amazon mejora significativamente la capacidad de extraer información procesable del contenido de video. Al combinar consultas flexibles impulsadas por texto con localización de objetos a nivel de cuadro, OSOD ayuda a los usuarios en todas las industrias a implementar flujos de trabajo de análisis de video inteligentes, desde la evaluación de anuncios específicas y el monitoreo de seguridad hasta el seguimiento de objetos personalizados. Integrado sin problemas en el conjunto más amplio de herramientas de análisis de video disponibles en Amazon Bedrock Data Automation, OSOD no solo agiliza la comprensión de contenido, sino que también ayuda a reducir la necesidad de intervención manual y esquemas rígidos predefinidos, lo que lo convierte en un activo poderoso para aplicaciones escalables y de mundo real.
Para obtener más información sobre Amazon Bedrock Data Automation Video y Análisis de audio, ver Nuevas capacidades de automatización de datos de rock de Amazon optimizar el análisis de video y audio.
Sobre los autores
Dongsheng an es un científico aplicado en AWS AI, especializado en reconocimiento facial, detección de objetos abiertos y modelos en idioma de visión. Recibió su Ph.D. en informática de la Universidad Stony Brook, centrándose en el transporte óptimo y el modelado generativo.
Lana Zhang es un arquitecto senior de soluciones en el equipo de servicios de IA de IA de la Organización Mundial de AI de AWS, especializada en IA y IA generativa con un enfoque en casos de uso que incluyen moderación de contenido y análisis de medios. Ella se dedica a promover AWS AI y soluciones generativas de IA, lo que demuestra cómo la IA generativa puede transformar los casos de uso clásicos al agregar valor comercial. Ella ayuda a los clientes a transformar sus soluciones comerciales en diversas industrias, incluidas las redes sociales, los juegos, el comercio electrónico, los medios, la publicidad y el marketing.
Raj jayaraman es un arquitecto senior de soluciones de IA generativas en AWS, que trae más de una década de experiencia en ayudar a los clientes a extraer información valiosa de los datos. Especializado en AWS AI y soluciones generativas de IA, la experiencia de Raj radica en transformar las soluciones comerciales a través de la aplicación estratégica de las capacidades de IA de AWS, asegurando que los clientes puedan aprovechar todo el potencial de IA generativa en sus contextos únicos. Con una sólida experiencia en la guía de clientes en todas las industrias en la adopción de los servicios de análisis de AWS y de inteligencia empresarial, Raj ahora se enfoca en ayudar a las organizaciones en su viaje generativo de IA, desde demostraciones iniciales hasta pruebas de conceptos y, en última instancia, hasta implementaciones de producción.