Rendimiento de Pydantic: 4 consejos sobre cómo validar grandes cantidades de datos de manera eficiente

son tan fáciles de usar que también es fácil usarlos de manera incorrecta, como sostener un martillo por la cabeza. Lo mismo ocurre con Pydantic, una biblioteca de validación de datos de alto rendimiento para Python.

En Pydantic v2, el motor de validación central se implementa en Rust, lo que la convierte en una de las soluciones de validación de datos más rápidas del ecosistema Python. Sin embargo, esa ventaja de rendimiento solo se logra si usa Pydantic de una manera que realmente aproveche este núcleo altamente optimizado.

Este artículo se centra en el uso eficiente de Pydantic, especialmente al validar grandes volúmenes de datos. Destacamos cuatro errores comunes que pueden generar diferencias de rendimiento de orden de magnitud si no se controlan.

1) Prefiera las restricciones anotadas a los validadores de campo

Una característica central de Pydantic es que la validación de datos se define de forma declarativa en una clase de modelo. Cuando se crea una instancia de un modelo, Pydantic analiza y valida los datos de entrada de acuerdo con los tipos de campo y validadores definidos en esa clase.

El enfoque ingenuo: validadores de campo

Usamos un @field_validator para validar datos, como verificar si una columna de identificación es realmente un número entero o mayor que cero. Este estilo es legible y flexible, pero tiene un costo de rendimiento.

clase UserFieldValidators (BaseModel): id: int correo electrónico: etiquetas EmailStr: lista[str]

@field_validator(“id”) def _validate_id(cls, v: int) -> int: si no, isinstance(v, int): aumentar TypeError(“id debe ser un número entero”) si v < 1: aumentar ValueError("id debe ser >= 1″) return v @field_validator(“email”) def _validate_email(cls, v: str) -> str: si no isinstance(v, str): v = str(v) si no _email_re.match(v): elevar ValueError(“formato de correo electrónico no válido”) return v @field_validator(“tags”) def _validate_tags(cls, v: list[str]) -> lista[str]: si no es instancia(v, lista): genera TypeError(“las etiquetas deben ser una lista”) si no (1 <= len(v) <= 10): genera ValueError("la longitud de las etiquetas debe estar entre 1 y 10") para i, etiqueta en enumerate(v): si no es instancia(etiqueta, str): genera TypeError(f"etiqueta[{i}] debe ser una cadena") si etiqueta == "": elevar ValueError(f"etiqueta[{i}] no debe estar vacío")

La razón es que los validadores de campo se ejecutan en Python, después de la coerción del tipo central y la validación de restricciones. Esto evita que se optimicen o fusionen en el proceso de validación principal.

El enfoque optimizado: anotado

Podemos usar Anotado de la biblioteca de mecanografía de Python.

clase UserAnnotated(BaseModel): id: Anotado[int, Field(ge=1)]
correo electrónico: anotado[str, Field(pattern=RE_EMAIL_PATTERN)]
Etiquetas: Anotado[list[str]Campo(longitud_min=1, longitud_max=10)]

Esta versión es más corta, más clara y muestra una ejecución más rápida a escala.

Por qué Anotado es más rápido

Anotado (PEP 593) es una característica estándar de Python, de la biblioteca de mecanografía. Las restricciones colocadas dentro de Annotated se compilan en el esquema interno de Pydantic y se ejecutan dentro de pydantic-core (Rust).

Esto significa que no se requieren llamadas de validación de Python definidas por el usuario durante la validación. Además, no se introducen objetos Python intermedios ni flujos de control personalizados.

Por el contrario, las funciones @field_validator siempre se ejecutan en Python, introducen una sobrecarga de llamadas a funciones y, a menudo, duplican comprobaciones que podrían haberse manejado en la validación principal.

Matiz importante

Un matiz importante es que Annotated en sí no es “Rust”. La aceleración proviene del uso de restricciones que pydantic-core entiende y puede usar, no de que Annotated exista por sí solo.

Punto de referencia

La diferencia entre sin validación y validación anotada es insignificante en estos puntos de referencia, mientras que los validadores de Python pueden convertirse en una diferencia de orden de magnitud.

Gráfico de rendimiento de la validación (Imagen del autor)

Punto de referencia (tiempo en segundos) ┏━━━━━━━━━━━━━━━━┳━━━━━━━━━━━┳━━ ━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━━━━━┓ ┃ Método ┃ n=100 ┃ n=1k ┃ n=10k ┃ n=50k ┃ ┡━━━━━━━━━━━━━━━━╇━━━━━━━━━━━╇━━ ━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━━━━━┩ │Validadores de campo│ 0,004 │ 0,020 │ 0,194 │ 0,971 │ │ Sin validación │ 0,000 │ 0,001 │ 0,007 │ 0,032 │ │ Anotado │ 0,000 │ 0,001 │ 0,007 │ 0,036 │ └────────────────┴───────────┴── ────────┴───────────┴───────────┘

En términos absolutos pasamos de casi un segundo de tiempo de validación a 36 milisegundos. Un aumento de rendimiento de casi 30 veces.

Veredicto

Utilice Anotado siempre que sea posible. Obtendrá un mejor rendimiento y modelos más claros. Los validadores personalizados son poderosos, pero usted paga por esa flexibilidad en el costo del tiempo de ejecución, así que reserve @field_validator para la lógica que no se puede expresar como restricciones.

Rendimiento de Pydantic: 4 consejos sobre cómo validar grandes cantidades de datos de manera eficiente

ByEquipo de 7 minutos

1) Prefiera las restricciones anotadas a los validadores de campo

El enfoque ingenuo: validadores de campo

El enfoque optimizado: anotado

Por qué Anotado es más rápido

Punto de referencia

Veredicto

2). Validar JSON con model_validate_json()

El enfoque ingenuo

El enfoque optimizado

¿Por qué esto es más rápido?

Comparado

Veredicto

3) Utilice TypeAdapter para validación masiva

El enfoque ingenuo

Enfoque optimizado

¿Por qué esto es más rápido?

Comparado

Veredicto

4) Evite from_attributes a menos que lo necesite

Por qué from_attributes=True es más lento

Punto de referencia

Veredicto

Conclusión

By Equipo de 7 minutos

Related Post

Los funcionarios estadounidenses quieren acceso temprano a la IA avanzada y las grandes empresas han estado de acuerdo

Inworld AI lanza Realtime TTS-2: un modelo de voz de circuito cerrado que se adapta a tu forma de hablar realmente

Simplificación del desarrollo de IA generativa con MLflow v3.10 en Amazon SageMaker AI

You missed

Los bebés pueden “captar” los bostezos de su madre en el útero, según un nuevo estudio

Marco Rubio, más despistado que nunca sobre la guerra con Irán

Listos para el despegue turístico « Euro Weekly News

Blog de chismes deportivos n.° 1 en el mundo