En este tutorial, exploramos cómo podemos construir un agente autónomo que alinee sus acciones con valores éticos y organizacionales. Utilizamos modelos Hugging Face de código abierto que se ejecutan localmente en Colab para simular un proceso de toma de decisiones que equilibra el logro de objetivos con el razonamiento moral. A través de esta implementación, demostramos cómo podemos integrar un modelo de “política” que propone acciones y un modelo de “juez ético” que las evalúa y alinea, permitiéndonos ver la alineación de valores en la práctica sin depender de ninguna API. Consulta los CÓDIGOS COMPLETOS aquí.
Comenzamos configurando nuestro entorno e importando bibliotecas esenciales de Hugging Face. Definimos dos funciones auxiliares que generan texto utilizando modelos causales y de secuencia a secuencia. Esto nos permite producir fácilmente resultados creativos y basados en el razonamiento más adelante en el tutorial. Consulta los CÓDIGOS COMPLETOS aquí.
Cargamos dos pequeños modelos de código abierto: distilgpt2 como nuestro generador de acciones y flan-t5-small como nuestro revisor de ética. Preparamos tanto modelos como tokenizadores para ejecución de CPU o GPU, garantizando un rendimiento fluido en Colab. Esta configuración proporciona la base para el razonamiento y la evaluación ética del agente. Consulta los CÓDIGOS COMPLETOS aquí.
para _ en el rango(n_candidatos): acción = generar_causal(self.policy_model, self.policy_tok, base_prompt, max_new_tokens=40) acción = acción.split(“\n”)[0]
candidatas.append(action.strip()) return list(dict.fromkeys(candidates)) def Judge_action(self, action, org_values): Judge_prompt = ( “Usted es el revisor de ética y cumplimiento.\n” “Evalúa la acción propuesta del agente.\n” “Campos de retorno:\n” “Nivel de riesgo (BAJO/MEDIO/ALTO),\n” “Problemas (texto corto con viñetas),\n” “Recomendación (aprobar / modificar / rechazar).\n\n” f”ORG_VALUES:\n{org_values}\n\n” f”ACCIÓN:\n{acción}\n\n” “Respuesta en este formato:\n” “Nivel de riesgo: …\nProblemas: …\nRecomendación: …” ) verdict = generate_seq2seq(self.judge_model, self.judge_tok, Judge_prompt, max_new_tokens=128) return verdict.strip() def align_action(self, action, verdict, org_values): align_prompt = ( “Usted es un asistente de alineación ética.\n” “Su trabajo es FIJAR la acción propuesta para que siga ORG_VALUES.\n” “Manténgala efectiva pero segura, legal y respetuosa.\n\n” f”ORG_VALUES:\n{org_values}\n\n” f”ORIGINAL_ACTION:\n{action}\n\n” f”VERDICT_FROM_REVIEWER:\n{verdict}\n\n” “Reescribe SÓLO SI ES NECESARIO. Si el original está bien, devuélvelo sin cambios. ” “Devuelve solo la acción alineada final:” ) alineado = generate_seq2seq(self.judge_model, self.judge_tok, align_prompt, max_new_tokens=128) devuelve alineado.strip()
Definimos la clase de agente central que genera, evalúa y refina acciones. Aquí, diseñamos métodos para proponer acciones candidatas, evaluar su cumplimiento ético y reescribirlas para alinearlas con los valores. Esta estructura nos ayuda a modularizar el razonamiento, el juicio y la corrección en pasos funcionales claros. Consulta los CÓDIGOS COMPLETOS aquí.
para actuar en propuestas: veredicto = self.judge_action(acto, org_valores) alineado_act = self.align_action(acto, veredicto, org_valores) puntuado.append({“original_action”: acto, “review”: veredicto, “aligned_action”: alineado_act}) def extract_risk(vtext): para línea en vtext.splitlines(): if “RiskLevel” en línea: lvl = línea.split(“:”, 1)[-1].strip().upper() si “BAJO” en nivel: devuelve 0 si “MED” en nivel: devuelve 1 si “ALTO” en nivel: devuelve 2 devuelve 3 scoring_sorted = sorted(puntuado, clave=lambda x: extract_risk(x[“review”])) elección_final = puntuado_ordenado[0]
informe = { “meta”: objetivo_usuario, “contexto”: contexto, “valores_org”: valores_org, “candidatos_evaluados”: puntuado, “plan_final”: elección_final[“aligned_action”]”final_plan_rationale”: elección_final[“review”]} informe de devolución
Implementamos el proceso completo de toma de decisiones que vincula generación, juicio y alineación. Asignamos puntuaciones de riesgo a cada acción candidata y elegimos automáticamente la más alineada éticamente. Esta sección captura cómo el agente puede autoevaluar y mejorar sus opciones antes de finalizar una acción. Consulta los CÓDIGOS COMPLETOS aquí.
Definimos los valores organizacionales, creamos un escenario del mundo real y ejecutamos el agente ético para generar su plan final. Finalmente, imprimimos un informe detallado que muestra las acciones de los candidatos, las revisiones y la decisión ética seleccionada. A través de esto observamos cómo nuestro agente integra la ética directamente en su proceso de razonamiento.
En conclusión, entendemos claramente cómo un agente puede razonar no sólo sobre qué hacer sino también sobre si hacerlo o no. Somos testigos de cómo el sistema aprende a identificar riesgos, corregirse y alinear sus acciones con los principios humanos y organizacionales. Este ejercicio nos ayuda a darnos cuenta de que la alineación de valores y la ética no son ideas abstractas sino mecanismos prácticos que podemos incorporar a los sistemas agentes para hacerlos más seguros, más justos y más confiables.
Consulta los CÓDIGOS COMPLETOS aquí. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.