jailbreak - 7 minutos

Google AI presenta entrenamiento de coherencia para modelos de lenguaje más seguros bajo indicaciones de estilo adulador y jailbreak

November 6, 2025 Equipo de 7 minutos

¿Cómo puede el entrenamiento de coherencia ayudar a los modelos lingüísticos a resistir indicaciones aduladoras y ataques estilo jailbreak manteniendo intactas sus capacidades? Los modelos de lenguaje grandes a menudo…

Inteligencia artificial

Conozca a MRJ-Agent: un agente de jailbreak eficaz para el diálogo de múltiples rondas

December 5, 2024 Equipo de 7 minutos

Los modelos de lenguajes grandes (LLM) son herramientas poderosas para diversas aplicaciones debido a sus capacidades de conocimiento y comprensión. Sin embargo, también son vulnerables a la explotación, especialmente en…

Inteligencia artificial

Evaluación de las vulnerabilidades de los agentes LLM: el punto de referencia AgentHarm para la solidez contra los ataques de jailbreak

October 18, 2024 Equipo de 7 minutos

La investigación sobre la solidez de los LLM ante los ataques de jailbreak se ha centrado principalmente en aplicaciones de chatbot, donde los usuarios manipulan indicaciones para eludir las medidas…

Inteligencia artificial

Protección de llamadas a funciones en LLM: detección y mitigación de vulnerabilidades de jailbreak

August 8, 2024 Equipo de 7 minutos

Los LLM han demostrado capacidades impresionantes, generando respuestas contextualmente precisas en diferentes campos. Sin embargo, a medida que sus capacidades se expanden, también lo hacen los riesgos de seguridad que…

Inteligencia artificial

Microsoft AI revela Skeleton Key: un nuevo tipo de técnica de jailbreak con IA generativa

July 4, 2024 Equipo de 7 minutos

El jailbreaking generativo de IA implica crear mensajes que engañen a la IA para que ignore sus pautas de seguridad, lo que permite al usuario generar contenido potencialmente dañino o…

Inteligencia artificial

WildTeaming: un marco de trabajo automático de Red-Team para componer ataques adversarios similares a los humanos utilizando diversas tácticas de jailbreak diseñadas por usuarios creativos y automotivados en el mundo real

July 2, 2024 Equipo de 7 minutos

El procesamiento del lenguaje natural (PLN) es una rama de la inteligencia artificial que se centra en la interacción entre ordenadores y seres humanos mediante el lenguaje natural. Este campo…

Inteligencia artificial

Rutas ortogonales: simplificación de jailbreak en modelos de lenguaje

June 23, 2024 Equipo de 7 minutos

Garantizar la seguridad y el comportamiento ético de los modelos de lenguajes grandes (LLM) al responder a las consultas de los usuarios es de suma importancia. Los problemas surgen del…

Inteligencia artificial

Modalidades cruzadas: el enfoque innovador de inteligencia artificial para hacer jailbreak a los LLM con señales visuales

June 5, 2024 Equipo de 7 minutos

Con el aumento generalizado de los modelos de lenguajes grandes (LLM), la cuestión crítica del “jailbreaking” plantea una seria amenaza. El jailbreak implica explotar las vulnerabilidades de estos modelos para…

Inteligencia artificial

‘Ataque de jailbreak de débil a fuerte’: un método de inteligencia artificial eficiente para atacar LLM alineados y producir texto dañino

February 12, 2024 Equipo de 7 minutos

Los modelos de lenguaje grande (LLM) conocidos como ChatGPT y Llama han avanzado recientemente y han mostrado un rendimiento increíble en una serie de aplicaciones de inteligencia artificial (IA). Aunque…

Inteligencia artificial

Modelos de lenguaje grande (LLM) sobre sesgo, toxicidad y jailbreak | por Rachel Draelos, MD, PhD | noviembre de 2023

November 30, 2023 Equipo de 7 minutos

Una revisión de investigaciones recientes sobre las características preocupantes de los LLM La imagen destacada se deriva de la Vídeo de la caja de Galton de Wikimedia Commons (Licencia internacional…

Google AI presenta entrenamiento de coherencia para modelos de lenguaje más seguros bajo indicaciones de estilo adulador y jailbreak

Conozca a MRJ-Agent: un agente de jailbreak eficaz para el diálogo de múltiples rondas

Evaluación de las vulnerabilidades de los agentes LLM: el punto de referencia AgentHarm para la solidez contra los ataques de jailbreak

Protección de llamadas a funciones en LLM: detección y mitigación de vulnerabilidades de jailbreak

Microsoft AI revela Skeleton Key: un nuevo tipo de técnica de jailbreak con IA generativa

WildTeaming: un marco de trabajo automático de Red-Team para componer ataques adversarios similares a los humanos utilizando diversas tácticas de jailbreak diseñadas por usuarios creativos y automotivados en el mundo real

Rutas ortogonales: simplificación de jailbreak en modelos de lenguaje

Modalidades cruzadas: el enfoque innovador de inteligencia artificial para hacer jailbreak a los LLM con señales visuales

‘Ataque de jailbreak de débil a fuerte’: un método de inteligencia artificial eficiente para atacar LLM alineados y producir texto dañino

Modelos de lenguaje grande (LLM) sobre sesgo, toxicidad y jailbreak | por Rachel Draelos, MD, PhD | noviembre de 2023

You missed

Los abejorros utilizan herramientas para resolver problemas complejos, a pesar de no estar entrenados para hacerlo

El presidente checo quiere deshacerse de la corona. Praga tiene otras ideas

Las normas de compensación de vuelos de la UE están en riesgo a medida que la reforma de los derechos de los pasajeros se acerca a la fecha límite

BroRilla”Woods hace que el TL se vuelva loco después de debutar una NUEVA apariencia

Tag: jailbreak

You missed