¿Tiene problemas con la ciencia de datos? 5 errores comunes de los principiantes

ciencia de datos, ante todo bien hecha.

Ha elegido una de las carreras tecnológicas más lucrativas y de más rápido crecimiento.

Pero esta es la verdad: la mayoría de los estudiantes pierden meses (incluso años) dándole vueltas a las cosas equivocadas. Evite estos errores para acelerar su carrera en ciencia de datos.

Después de más de 4 años trabajando en el campo, he visto exactamente lo que separa a aquellos que consiguen rápidamente su primer trabajo en ciencia de datos… de aquellos que nunca pasan de interminables tutoriales.

En este artículo, desglosaré los cinco errores más importantes que frenan a los científicos de datos principiantes para que usted pueda evitarlos activamente.

No aprender matemáticas fundamentales

Las matemáticas son, con diferencia, las más importantes… y, sin embargo, también las que más se pasan por alto.

Mucha gente, incluso profesionales, piensa que no es necesario conocer las matemáticas subyacentes detrás de la ciencia de datos y el aprendizaje automático.

De hecho, es muy poco probable que se realice una retropropagación manual, se construya un árbol de decisión desde cero o se construya un experimento A/B a partir de los primeros principios.

Por lo tanto, es fácil dar esto por sentado y evitar aprender la teoría básica.

Sin embargo, esto es peligroso y no lo recomiendo.

Claro, puedes construir una red neuronal con unas pocas líneas de PyTorch, pero ¿qué sucede cuando tiene un comportamiento extraño y necesitas depurarlo?

¿O qué pasaría si alguien le preguntara cuál es el intervalo de predicción en torno a su resultado de un modelo de regresión lineal?

Estos escenarios surgen con más frecuencia de lo que cree, y la única manera de responderlos es teniendo una comprensión sólida de las matemáticas subyacentes.

Piense en las matemáticas como el sistema operativo de su cerebro para la ciencia de datos. Cada modelo, cada algoritmo, cada conocimiento que usted produce se ejecuta en él.

Si su sistema operativo tiene errores o está desactualizado, nada más funciona sin problemas, sin importar cuán sofisticadas sean sus herramientas.

Sienta las bases ahora mientras estás en la fase de aprendizaje, ya que esto te permitirá avanzar mucho más rápido en tu carrera.

Tratando de encontrar el “mejor” curso

A menudo me preguntan:

¿Cuál es el mejor curso?

Realmente los amo a todos, pero esta pregunta debe desaparecer.

Como principiante total, el mejor curso es el que eliges y completas.

Muchos cursos introductorios a ciencia de datos, aprendizaje automático y Python le enseñarán lo mismo.

Puede que encuentres un profesor o un estilo de enseñanza mejor que otro, pero fundamentalmente adquirirás conocimientos muy similares a los de otra persona que esté realizando algún otro curso.

Predispuesto hacia la acción y hacia la puesta en marcha al principio, luego puedes ajustar tu dirección si sientes que estás desalineado. Deja de pensar demasiado.

Como dice el famoso dicho:

La mejor época para plantar un árbol fue hace 20 años. El segundo mejor momento es hoy.

El recorrido y los antecedentes de cada persona son diferentes y no existe una “única forma” de ingresar a la ciencia de datos.

Así que toma los consejos de todos (incluso los míos) siempre con una pizca de sal y adáptalo a ti mismo. Haga lo que le parezca correcto y mejor.

No realizar aprendizaje basado en proyectos

En ese mismo tema, otro error común es el infierno de los tutoriales.

Créeme, ese no es un lugar en el que quieras estar.

Si no sabes qué es el infierno tutorial, esta publicación de blog lo explica muy bien:

El infierno de los tutoriales es donde escribes código que otros te explican cómo escribir, pero no entiendes cómo escribirlo tú mismo cuando te dan una pizarra en blanco. En algún momento, es hora de quitarte las ruedas de apoyo y construir algo por tu cuenta.

Básicamente, estás siguiendo un tutorial tras otro y no intentas crear nada por tu cuenta.

Para aprender los conceptos, necesitas practicarlos y aplicarlos de forma independiente en tu trabajo. Así es como solidifica su comprensión y se realiza el verdadero aprendizaje.

Imagine que solo ha creado un modelo XGBoost siguiendo tutoriales en línea.

Si luego le brindan un estudio de caso para llevar como parte de una entrevista, tendrá muchas dificultades porque no ha tenido experiencia en la construcción de modelos sin un tutorial paso a paso.

Lo que defiendo es el “aprendizaje basado en proyectos”.

Quiere aprender lo suficiente y luego crear inmediatamente un proyecto.

Créame, este enfoque es exponencialmente mejor que realizar numerosos tutoriales (¡hablando de una experiencia dolorosa aquí!).

Proyectos de cantidad sobre calidad

Si bien realizar proyectos es la mejor manera de aprender, no satures tu GitHub con un montón de proyectos “fáciles”.

Si todos sus proyectos giran en torno a un conjunto de datos ya prediseñado de Kaggle y utilizan los métodos .fit() y .predict() de sci-kit learn, probablemente sea hora de probar algo un poco más difícil.

Ahora bien, no estoy programando estos proyectos de nivel básico, ya que son una excelente manera de ensuciarse las manos.

Sin embargo, en algún momento, la calidad de tus proyectos importará más que la cantidad.

Los proyectos más grandes y profundos serán los que realmente conseguirán que te contraten. Los reclutadores no quieren ver otro problema titánico con el conjunto de datos; en todo caso, sería una señal de alerta hoy en día.

Algunas ideas para probar:

Cree algoritmos de aprendizaje automático desde cero utilizando Python nativo. Reimplementar un trabajo de investigación e intentar replicar los resultados de los autores. Cree un sistema de recomendación básico para algo personal en su vida. Afinar un LLM.

Esta no es de ninguna manera una lista exhaustiva y el mejor proyecto es el que es personal para ti, como siempre digo.

Saltando directamente a la IA

Voy a ser honesto contigo.

Odio la IA.

No, no creo que reemplace a los científicos de datos.

No, no creo que sea tan bueno como la gente piensa.

Y estoy seguro de que no me preocupará en absoluto durante los próximos cinco años.

Las razones por las que no estoy preocupado podrían ocupar un vídeo completo, así que lo dejaré para más adelante. Pero en realidad es curioso lo poco que me preocupa.

De todos modos, la razón por la que digo esto es que me desconcierta cuando veo a los principiantes saltar directamente al aprendizaje de IA y LLM.

Este es un excelente ejemplo del síndrome del objeto brillante.

Como principiante, concéntrese en los conceptos básicos de matemáticas y estadística, y en algoritmos de la vieja escuela, como árboles de decisión, modelos de regresión y máquinas de vectores de soporte.

Son de hoja perenne y permanecerán disponibles durante mucho tiempo, por lo que es aconsejable invertir en ellos desde el principio.

La IA sigue siendo una entidad desconocida, y es difícil saber si será tan popular y útil dentro de unos años.

Si el tema es popular ahora y realmente útil, lo será dentro de 1 año, 3 años e incluso dentro de una década. Así que no te preocupes, tienes mucho tiempo para estudiar temas de vanguardia.

¿Recuerdas lo que dije antes acerca de que no todos los proyectos te contratan?

¿Que los más largos y profundos marcan la diferencia?

Pero, ¿cómo son realmente estos proyectos?

Bueno, mira mi artículo anterior, que analiza proyectos específicos que te ayudan a destacar (y cuáles son una total pérdida de tiempo).

¡Nos vemos allí!

¡Otra cosa!

Únase a mi boletín gratuito donde comparto sugerencias, ideas y consejos semanales sobre cómo conseguir su primer trabajo en ciencia de datos o aprendizaje automático. Además, como suscriptor, ¡obtendrás mi plantilla de currículum GRATIS!

https://boletín.egorhowell.com

Conéctate conmigo