Construyendo agentes interactivos en mundos de videojuegos.

Notas

[1] Abramson, J., Ahuja, A., Barr, I., Brussee, A., Carnevale, F., Cassin, M., Chhaparia, R., Clark, S., Damoc, B., Dudzik, A. y Georgiev, P., 2020. Imitando la inteligencia interactiva. preimpresión de arXiv arXiv:2012.05672.

[2] Abramson, J., Ahuja, A., Brussee, A., Carnevale, F., Cassin, M., Fischer, F., Georgiev, P., Goldin, A., Harley, T. y Hill, F., 2021. Creación de agentes interactivos multimodales con imitación y aprendizaje autosupervisado. preimpresión de arXiv arXiv:2112.03763.

[3] Abramson, J., Ahuja, A., Carnevale, F., Georgiev, P., Goldin, A., Hung, A., Landon, J., Lillicrap, T., Muldal, A., Richards, B. y Santoro, A., 2022. Evaluación de agentes interactivos multimodales. preimpresión de arXiv arXiv:2205.13274.

[4] Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., Drain, D., Fort, S., Ganguli, D., Henighan, T. y Joseph, N., 2022. Capacitación de un asistente útil e inofensivo con aprendizaje reforzado a partir de la retroalimentación humana. preimpresión de arXiv arXiv:2204.05862.

[5] Christiano, PF, Leike, J., Brown, T., Martic, M., Legg, S. y Amodei, D., 2017. Aprendizaje por refuerzo profundo a partir de las preferencias humanas. Avances en los sistemas de procesamiento de información neuronal., 30.