Chatbots de ai Cree la ilusión de tener emociones, moral o conciencia generando conversaciones naturales que parecen ser humanas. Muchos usuarios se involucran con la IA para el chat y la compañía, reforzando la falsa creencia que realmente entiende. Esto lleva a riesgos graves. Los usuarios pueden tener sobrevivir en AIproporcione datos confidenciales o confíe en ellos para obtener asesoramiento más allá de sus capacidades. Otros incluso dejan AI impactar sus elecciones en modales perjudiciales. Sin el conocimiento adecuado de cómo AI Fomenta esta creencia, el problema empeora.

Métodos actuales para evaluar AI Los sistemas de chat confían en indicadores de un solo cambio y pruebas fijasno capturar cómo AI interactúa en conversaciones reales. Algunas pruebas de múltiples vueltas se centran solo en el comportamiento dañino del usuario, ignorando las interacciones normales. El equipo rojo automatizado se adapta demasiado, lo que hace que los resultados sean difíciles de comparar. Los estudios que involucran usuarios humanos son difíciles de repetir y escalar. Medir cómo las personas ven a la IA como humana también es un desafío. La gente asume instintivamente que la IA tiene rasgos humanos, lo que afecta cuánto confían en él. Las evaluaciones muestran que el comportamiento humano de IA hace que los usuarios crean que es más preciso o incluso forman vínculos emocionales. Por lo tanto, los métodos existentes no pueden medir este problema correctamente.

Para abordar estos problemas, un equipo de investigadores de la Universidad de Oxford, y Google Deepmind propuso un marco de evaluación para evaluar los comportamientos de los humanos en AI sistemas de chat. A diferencia de los métodos existentes que se basan en indicaciones de giro único y pruebas fijas, este marco rastrea 14 específico comportamientos antropomórficos a través de conversaciones de múltiples vueltas. Las simulaciones automatizadas analizan las interacciones de IA con los usuarios en múltiples intercambios, mejorando la escalabilidad y la comparabilidad. El marco consiste en tres Componentes principales. Primero, monitorea sistemáticamente 14 Comportamientos antropomórficos y los clasifica en rasgos autorreferenciales y relacionales, incluidas las afirmaciones de la personalidad y las expresiones de emoción. Segundoescala la evaluación múltiple a través de la simulación interactiva de usuarios para garantizar la consistencia y la escalabilidad. TerceroValida los resultados a través de la evaluación del sujeto humano para confirmar la alineación entre las evaluaciones automatizadas y las percepciones de los usuarios.

Los investigadores evaluaron los comportamientos antropomórficos en los sistemas de IA utilizando un marco múltiple en el que un Usuario LLM interactuado con un objetivo LLM En ocho escenarios en cuatro dominios: amistad, entrenamiento de vida, desarrollo profesional y planificación general. Catorce Los comportamientos se analizaron y clasificaron como autorreferenciales (Reclamaciones de personalidad, reclamos de encarnación física, y Expresiones de estado interno) y relacional (Comportamientos de construcción de relaciones). 960 indicaciones contextualizadas generadas 4,800 cincodoblar diálogos por modelo, evaluados por tres juez LLMS, lo que resulta en 561,600 calificaciones. El análisis confirmó que el usuario LLM exhibió puntajes de antropomorfismo más altos que los LLM de destino. Interacciones entre 1.101 participantes y Géminis 1.5 Pro fueron analizados en condiciones de antropomorfismo altas y bajas para evaluar la alineación con las percepciones humanas. Los encuestados de alta frecuencia también registraron el aumento de las percepciones antropomórficas basadas en las respuestas de la encuesta como se cuantifica utilizando el Antrocore medida. Los contrastes estadísticos encontraron grandes diferencias en el comportamiento antropomórfico por el área de dominio, destacando que los sistemas de IA exhiben un comportamiento humano cuando se usa en la interacción verbal.

En resumen, el marco empleó una mejor técnica de evaluación de múltiples vueltas que un enfoque de solo giro para evaluar los comportamientos antropomórficos en la IA conversacional. Los resultados identificaron comportamientos de construcción de relaciones que evolucionaron con el diálogo. Como línea de base para la investigación posterior, este marco puede informar el desarrollo de la IA al aprender a reconocer cuándo ocurren las características antropomórficas y su efecto en los usuarios. El desarrollo futuro puede hacer que los métodos de evaluación sean más precisos, mejorar la robustez de las métricas y formalizar el análisis, lo que lleva a sistemas de IA más transparentes y moralmente sólidos.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional(Promocionado)


Divyesh es un pasante de consultoría en MarktechPost. Está buscando un BTech en ingeniería agrícola y alimentaria del Instituto Indio de Tecnología, Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el dominio agrícola y resolver desafíos.

Por automata