Cómo utilizar GPT-5 de forma eficaz

y posee características poderosas y útiles. El modelo tiene una variedad de parámetros y opciones entre los que puede elegir, que debe seleccionar correctamente para optimizar el rendimiento del GPT-5 para su área de aplicación.

En este artículo, profundizaré en las diferentes opciones que tiene al usar GPT-5 y lo ayudaré a elegir la configuración óptima para que funcione bien en su caso de uso. Analizaré las diferentes modalidades de entrada que puede usar, las funciones disponibles que tiene GPT-5, como herramientas y carga de archivos, y analizaré los parámetros que puede configurar para el modelo.

Este artículo no está patrocinado por OpenAI y es simplemente un resumen de mis experiencias con el uso de GPT-5, y analiza cómo se puede utilizar el modelo de forma eficaz.

Esta infografía destaca los contenidos principales de este artículo. Analizaré cómo GPT-5 maneja las entradas multimodales y cómo puedes usarlas de manera efectiva. Además, cubriré la llamada a herramientas y la configuración de esfuerzo de razonamiento/verbosidad. También discutiré la salida estructurada y cuándo es útil, así como la carga de archivos. Imagen de ChatGPT.

Por qué deberías usar GPT-5

GPT-5 es un modelo muy potente que puede utilizar para una amplia variedad de tareas. Puede, por ejemplo, utilizarlo como asistente de chatbot o para extraer metadatos importantes de documentos. Sin embargo, GPT-5 también tiene muchas opciones y configuraciones diferentes, sobre muchas de las cuales puede leer más en la guía de OpenAI sobre GPT-5. Analizaré cómo navegar por todas estas opciones y utilizar GPT-5 de manera óptima para su caso de uso.

Habilidades multimodales

GPT-5 es un modelo multimodal, lo que significa que puede ingresar texto, imágenes y audio, y el modelo generará texto. También puede combinar diferentes modalidades en la entrada, por ejemplo, ingresar una imagen y un mensaje preguntando sobre la imagen y recibir una respuesta. Por supuesto, se espera ingresar texto en un LLM, pero la capacidad de ingresar imágenes y audio es muy poderosa.

Como mencioné en artículos anteriores, los VLM son extremadamente poderosos por su capacidad para comprender imágenes directamente, lo que generalmente funciona mejor que realizar OCR en una imagen y luego comprender el texto extraído. El mismo concepto se aplica también al audio. Puede, por ejemplo, enviar directamente un clip de audio y no solo analizar las palabras del clip, sino también el tono, la velocidad de conversación, etc. del clip de audio. La comprensión multimodal simplemente le permite una comprensión más profunda de los datos que está analizando.

Herramientas

Herramientas es otra característica poderosa que tienes disponible. Puede definir herramientas que el modelo puede utilizar durante la ejecución, lo que convierte a GPT-5 en un agente. Un ejemplo de una herramienta sencilla es la función get_weather():

def get_weather(ciudad: str): devuelve “Soleado”

Luego puede poner sus herramientas personalizadas a disposición de su modelo, junto con una descripción y los parámetros para su función:

herramientas = [
{
“type”: “function”,
“name”: “get_weather”,
“description”: “Get today’s weather.”,
“parameters”: {
“type”: “object”,
“properties”: {
“city”: {
“type”: “string”,
“description”: “The city you want the weather for”,
},
},
“required”: [“city”]}, }, ]

Es importante garantizar información detallada y descriptiva en las definiciones de funciones, incluida una descripción de la función y los parámetros para utilizar la función.

Puede definir muchas herramientas para ponerlas a disposición de su modelo, pero es importante recordar los principios básicos para las definiciones de herramientas de IA:

Las herramientas están bien descritas. Las herramientas no se superponen. Deje claro al modelo cuándo utilizar la función. La ambigüedad hace que el uso de herramientas sea ineficaz

Parámetros

Hay tres parámetros principales que deben tener en cuenta al utilizar GPT-5:

Esfuerzo de razonamiento Verbosidad Salida estructurada

Ahora describiré los diferentes parámetros y cómo abordar su selección.

esfuerzo de razonamiento

El esfuerzo de razonamiento es un parámetro donde se selecciona entre:

El razonamiento mínimo esencialmente hace que GPT-5 sea un modelo sin razonamiento y debe usarse para tareas más simples, donde se necesitan respuestas rápidas. Puede, por ejemplo, utilizar un mínimo esfuerzo de razonamiento en una aplicación de chat donde las preguntas son fáciles de responder y los usuarios esperan respuestas rápidas.

Cuanto más difícil sea su tarea, más razonamiento deberá utilizar, aunque deberá tener en cuenta el coste y la latencia de utilizar más razonamiento. El razonamiento cuenta como tokens de salida y, al momento de escribir este artículo, 10 USD/millón de tokens para GPT-5.

Normalmente experimento con el modelo, empezando por el menor esfuerzo de razonamiento. Si noto que el modelo tiene dificultades para dar respuestas de alta calidad, subo en el nivel de razonamiento, primero desde mínimo -> bajo. Luego continúo probando el modelo y veo qué tan bien funciona. Debe esforzarse por utilizar el menor esfuerzo de razonamiento con una calidad aceptable.

Puede establecer el esfuerzo de razonamiento con:

cliente = OpenAI() request_params = { “modelo” = “gpt-5”, “input” = mensajes, “razonamiento”: {“esfuerzo”: “medio”}, # puede ser: mínimo, bajo, medio, alto } client.responses.create(**request_params)

Verbosidad

La verbosidad es otro parámetro configurable importante y puede elegir entre:

La verbosidad establece cuántos tokens de salida (aquí excluyendo los tokens de pensamiento) debe generar el modelo. El valor predeterminado es la verbosidad media, que OpenAI también ha declarado que es esencialmente la configuración utilizada para sus modelos anteriores.

Supongamos que desea que el modelo genere respuestas más largas y detalladas, debe establecer el nivel de detalle en alto. Sin embargo, la mayoría de las veces me encuentro eligiendo entre una verbosidad baja y media.

Para aplicaciones de chat, la verbosidad media es buena porque un modelo muy conciso puede hacer que los usuarios sientan que el modelo es menos útil (muchos usuarios prefieren más detalles en las respuestas). Sin embargo, para fines de extracción, cuando solo desea generar información específica, como la fecha de un documento, configuro el nivel de detalle en bajo. Esto ayuda a garantizar que el modelo solo responda con el resultado que deseo (la fecha), sin proporcionar razonamiento ni contexto adicionales.

Puede establecer el nivel de detalle con:

client = OpenAI() request_params = { “model” = “gpt-5”, “input” = mensajes, “text” = {“verbosity”: “medium”}, # puede ser: bajo, medio, alto } client.responses.create(**request_params)

Salida estructurada

La salida estructurada es una configuración poderosa que puede utilizar para garantizar que GPT-5 responda en formato JSON. Esto vuelve a ser útil si desea extraer puntos de datos específicos y ningún otro texto, como la fecha de un documento. Esto garantiza que el modelo responda con un objeto JSON válido, que luego podrá analizar. Toda la extracción de metadatos que hago utiliza esta salida estructurada, ya que es extremadamente útil para garantizar la coherencia. Puede utilizar una salida estructurada agregando la clave “texto” en los parámetros de solicitud de GPT-5, como se muestra a continuación.

cliente = OpenAI() request_params = { “modelo” = “gpt-5”, “entrada” = mensajes, “texto” = {“formato”: {“tipo”: “json_object”}}, } cliente.responses.create(**request_params)

Asegúrese de mencionar “JSON” en su mensaje; de lo contrario, obtendrá un error si utiliza una salida estructurada.

Carga de archivos

La carga de archivos es otra característica poderosa disponible a través de GPT-5. Anteriormente hablé de las capacidades multimodales del modelo. Sin embargo, en algunos escenarios, es útil cargar un documento directamente y hacer que OpenAI lo analice. Por ejemplo, si aún no ha realizado OCR ni extraído imágenes de un documento, puede cargar el documento directamente en OpenAI y hacerle preguntas. Por experiencia, cargar archivos también es rápido y, por lo general, obtendrás respuestas rápidas, dependiendo principalmente del esfuerzo que solicites.

Si necesita respuestas rápidas de documentos y no tiene tiempo para usar OCR primero, la carga de archivos es una característica poderosa que puede usar.

Desventajas de GPT-5

GPT-5 también tiene algunas desventajas. La principal desventaja que he notado durante el uso es que OpenAI no comparte los tokens de pensamiento cuando usas el modelo. Sólo se puede acceder a un resumen del pensamiento.

Esto es muy restrictivo en aplicaciones en vivo, porque si desea utilizar mayores esfuerzos de razonamiento (medio o alto), no puede transmitir ninguna información desde GPT-5 al usuario, mientras el modelo está pensando, lo que genera una mala experiencia de usuario. La opción entonces es utilizar menores esfuerzos de razonamiento, lo que conduce a resultados de menor calidad. Otros proveedores de modelos de frontera, como Anthropic y Gemini, tienen tokens de pensamiento disponibles.

También ha habido mucha discusión sobre cómo GPT-5 es menos creativo que sus predecesores, aunque esto generalmente no es un gran problema con las aplicaciones en las que estoy trabajando, ya que la creatividad generalmente no es un requisito para el uso de API de GPT-5.

Conclusión

En este artículo, proporcioné una descripción general de GPT-5 con los diferentes parámetros y opciones, y cómo utilizar el modelo de manera más efectiva. Si se usa correctamente, GPT-5 es un modelo muy poderoso, aunque naturalmente también tiene algunas desventajas, la principal desde mi perspectiva es que OpenAI no comparte los tokens de razonamiento. Siempre que trabajo en aplicaciones LLM, siempre recomiendo tener modelos de respaldo disponibles de otros proveedores de modelos fronterizos. Esto podría ser, por ejemplo, tener GPT-5 como modelo principal, pero si falla, puedes recurrir a Gemini 2.5 Pro de Google.

👉 Encuéntrame en las redes sociales:

📩 Suscríbete a mi newsletter

🧑‍💻 Ponte en contacto

🔗 LinkedIn

🐦X/Twitter

✍️ Medio

También puedes leer mis otros artículos: