La única hoja de ruta de ciencia de datos que necesita para conseguir un trabajo

¿Buscas convertirte en científico de datos y no sabes por dónde empezar?

En este artículo, quiero proporcionarle una hoja de ruta de aprendizaje directa y sin sentido que pueda seguir para entrar en la industria.

Al final, finalmente tendrá una comprensión clara de lo que se requiere y los mejores recursos para usar, lo que, con suerte, debería reducir cualquier abrumador que pueda tener y ayudarlo a conseguir ese trabajo de ciencia de datos más rápido.

Una colina en la que estoy dispuesto a morir es que, en mi opinión, las estadísticas son el área más importante que debe conocer como científico de datos.

Las nuevas tendencias de aprendizaje automático van y vienen, las tecnologías a menudo se reemplazan, pero las estadísticas han resistido la prueba del tiempo durante siglos.

De acuerdo a Wikipedia:

La estadística es la disciplina que se refiere a la recopilación, organización, análisis, interpretación y presentación de datos.

Dado que el título es científico de “datos”, creo que es obvio cómo es la estadística vital para nuestro campo.

Afortunadamente, no necesita tener un doctorado en inferencia causal o cálculo estocástico para tener el conocimiento estadístico requerido. Los fundamentos son los más importantes y literalmente el 90% del trabajo.

Que aprender

Las áreas que necesita para comprender fuertemente son:

  • Estadística de resumen – Media, mediana, modo, varianza, correlaciones, cualquier cosa que le permita resumir datos para sacar conclusiones interesantes.
  • Visualizaciones – Aprenda a trazar datos con gráficos como gráfico de barras, gráfico de línea, gráfico circular, etc. Después de todo, una imagen habla 1000 palabras.
  • Distribuciones de probabilidad – Aprenda los más comunes como Normal, Poisson, Binomial y Gamma. Estos son los que uso con mayor frecuencia.
  • Teoría de la probabilidad Esta área es bastante grande, pero las principales cosas que deben aprender son: variables aleatorias, teorema del límite central, muestreo y estimación de máxima probabilidad.
  • Prueba de hipótesis – Si va a trabajar en algún experimento, debe comprender cómo se ejecutan estadísticamente. Esto implica aprender sobre los intervalos de confianza, los niveles de significación, la prueba Z, la prueba t y las estadísticas de prueba. Simplemente necesita saber cómo ejecutar pruebas de hipótesis.
  • Estadísticas bayesianas – Vale la pena conocer algunas estadísticas bayesianas, ya que encuentro que las personas arrojan este término libremente en el campo todo el tiempo sin comprender realmente. Es un área masiva, pero como siempre, aprenda los fundamentos, como el teorema de Bayes, los antecedentes conjugados, los intervalos creíbles y la regresión bayesiana.

Cómo aprender

Como mencioné al principio, quiero que esta hoja de ruta sea simple y evite cualquier parálisis de análisis que pueda experimentar, por lo que para aprender casi todo lo anterior, recomiendo obtener el Estadísticas prácticas para la ciencia de datos (enlace de afiliado) libro de texto.

Sin embargo, no cubre las estadísticas bayesianas, y para eso, recomiendo Piensa en Bayes (enlace de afiliado) libro de texto.

Estos dos libros son todo lo que necesita y están diseñados específicamente para científicos de datos y están en Python.

Las estadísticas, por naturaleza, es un campo bastante aplicado, y algunos de los conceptos requieren un conocimiento de matemáticas puras para comprender completamente.

Además, cuando se trata de áreas como el aprendizaje automático, necesita una buena comprensión del álgebra lineal y el cálculo para comprender completamente lo que está sucediendo debajo del capó.

Que aprender

Cálculo

Cálculo Es cómo los algoritmos de aprendizaje automático realmente “aprenden”. Su “aprendizaje” se realiza a través de la optimización continua numérica, y las áreas que debe aprender son:

  • ¿Qué es un derivado y qué mide?
  • Aprenda los derivados de funciones estándar como seno, coseno, exponencial, bronceado, etc.
  • ¿Qué son los puntos de inflexión, los máximos y los mínimos?
  • Las reglas de cadena y producto son la razón por la cual las redes neuronales funcionan tan bien, ya que son el proceso central detrás de la propagación backpropagación.
  • Comprender los derivados parciales y su uso en el cálculo multivariable.
  • ¿Qué es la integración y qué está haciendo?
  • Integración por piezas y sustitución.
  • La integral de las funciones estándar como el seno, el registro natural y otros polinomios.

Álgebra lineal

Álgebra lineal es un campo matemático que trata con vectores, matrices y sus transformaciones.

Deberías aprender:

  • Vectores, su magnitud, orientación y componente. Además, operaciones como las reglas DOT y el producto cruzado.
  • Las matrices y sus operaciones, incluidas las reglas Trace, Inverse, Transpose, Dot Product y Cross Product.
  • Aprenda a resolver sistemas de ecuaciones lineales a través de técnicas como eliminación, reducción de filas y regla de Cramer.
  • Obtenga una comprensión de los valores propios y los vectores propios. Estas son la base de técnicas como el análisis de componentes principales, lo que ayuda a reducir la dimensionalidad en los conjuntos de datos.

Cómo aprender

En videos anteriores, recomendé algunos libros de texto que, aunque útiles, eran bastante densos y no prácticos para la mayoría de las personas para pasar en solo unos meses.

Por eso ahora sugiero tomar el Matemáticas para el aprendizaje automático y la especialización en ciencias de los datos en Coursera.

Este curso está diseñado específicamente para la ciencia de datos con ejercicios en Python. Onda la teoría innecesaria y se centra en lo que realmente necesita para el trabajo del mundo real.

Hay dos, y solo dos, lenguajes de programación que necesita: Pitón y Sql.

Que aprender

Pitón

Mantenlo simple y aprenda los fundamentos:

  • Variables y tipos de datos
  • Operadores booleanos y de comparación
  • Flujo de control y condicionales
  • Para y mientras bucles
  • Funciones y clases

También desea aprender bibliotecas de computación científica específicas:

Sql

Desea aprender todas las funciones fundamentales necesarias para el análisis en SQL. Es un lenguaje bastante pequeño, por lo que no hay muchas cosas que aprender.

  • Seleccionar * de (consulta estándar)
  • Alterar, insertar, crear (Modificar tablas)
  • Grupo de, ordenar por
  • Donde, y, o, entre, en, tener(tablas de filtro)
  • AVG, Count, Min, Max, suma(funciones agregadas)
  • Completa unión, a la izquierda, unión derecha, unión interior, unión
  • CASO(si las declaraciones)
  • Dateadd, fatediff, datePart(Funciones de fecha y hora)

Cómo aprender

Hay muchos cursos introductorios de Python y SQL, y todos enseñan el mismo material. Entonces, elija uno y vaya con él. Literalmente no puedes equivocarte aquí.

Si desea una recomendación, entonces haga un pago W3Schools o videos de Freecodecamp. He usado ambos y los he encontrado muy bien.

Además de Python y SQL, debe invertir algo de tiempo aprendiendo otras tecnologías que se utilizan en el trabajo.

Que aprender

Hay tantas herramientas, y cada empresa es diferente, pero estas son las que permanecen consistentes en todo momento:

  • Git y Github– Prácticamente todas las empresas usan esto para el control de versiones, por lo que debe aprenderlo; No hay forma de evitarlo, me temo.
  • Intento/ZSH –Trabajará mucho en la terminal, y la mayoría de las empresas confían en sistemas similares a UNIX, por lo que debe sentirse cómodo operando en la línea de comandos.
  • Poesía / Pyenv / UvaAdministrar paquetes y versiones de Python es crucial en cualquier aplicación del mundo real, por lo que vale la pena familiarizarse con estas herramientas.

Cómo aprender

Para Git, recomiendo este curso de choque de Freecodecamp:

Para el aprendizaje de los script de terminal y shell bash, también recomiendo este video de FreecodeCamp.

Y para aprender pyenv, poesía y UV, consulte estos artículos:

¡Bien, es hora de las cosas divertidas!

El aprendizaje automático es un campo vasto, y no podemos aprender todo, incluso si probamos toda nuestra vida.

Para ser un científico de datos, como siempre digo, solo necesitamos conocer los fundamentos y un poco de aprendizaje profundo.

Olvídese de aprender LLM, transformadores, modelos de difusión, etc. que no es necesario para la mayoría de los puestos de nivel de entrada, y para ser honesto, para muchos trabajos en general.

Concéntrese en clavar lo básico, ya que trascienden a todo lo demás. Hasta el día de hoy, todavía uso modelos de regresión básicos, al igual que muchos ingenieros de aprendizaje automático senior con los que trabajo.

Se trata de la aplicación y la comprensión de su problema, en lugar de tratar de ser llamativo utilizando la última tecnología de última generación cuando no es necesario.

Que aprender

Los algoritmos y conceptos clave que debe aprender son:

  • Regresión lineal, logística y polinómica.
  • Árboles de decisión, bosques aleatorios y árboles de gradiente.
  • Máquinas de vectores de soporte.
  • Redes neuronales regulares.
  • K-Media y K-Nearest Vecin Clustering.
  • Regularización, sesgo frente a la compensación de varianza y validación cruzada.

Cómo aprender

Los siguientes dos recursos son todo lo que necesita. Por lo tanto, trabaje de manera iterativa, y su conocimiento de aprendizaje automático superará el de la mayoría de los profesionales en la industria. Confía en mí.

El primer curso de Ml que tomé fue Especialización de aprendizaje automático de Andrew Ng Y creo que es probablemente el mejor que existe. Podrías salirse con la suya con solo hacer este por sí solo, ya que es tan bueno.

El segundo es probablemente el mejor libro de aprendizaje automático jamás escrito: ML práctico con Scikit-Learn, Keras y Tensorflow (enlace de afiliado).Si tuviera que dar solo un libro para aprender el aprendizaje automático, ¡este sería!

En mi opinión, esto es opcional, pero sé que muchos de ustedes están interesados en el aprendizaje profundo, por lo que lo he incluido aquí para completar.

Personalmente, no perdería demasiado tiempo aquí, ya que puede ser fácil perderse en todos los últimos desarrollos.

Que aprender

Estos conceptos de aprendizaje profundo han resistido la prueba del tiempo, por lo que vale la pena invertir en su aprendizaje:

Cómo aprender

Estos son los recursos que he usado para aprender aprendizaje profundo, y son todo lo que necesitas.

Especialización de aprendizaje profundo por Andrew Ng. -Este es el curso de seguimiento de la especialización de aprendizaje automático y enseñará todo lo que necesita saber sobre el aprendizaje profundo, los CNN y los RNN.

De nuevo, el ML práctico con Scikit-Learn, Keras y Tensorflow (enlace de afiliado)Libro de texto como una excelente sección de aprendizaje profundo del Capítulo 14 en adelante.

Finalmente, algunos de ustedes pueden haber oído hablar Andrej Karpathysi no lo has hecho, es probablemente uno de los mejores investigadores de IA en este momento y ha trabajado en Tesla y OpenAI.

De todos modos, su Redes neuronales: cero a héroe YouTube El curso es fenomenal y le enseña cómo construir sus propios transformadores generativos previamente capacitados (GPT) desde cero.


Si revisa todo en este artículo, tendrá un excelente conocimiento para ingresar el campo de la ciencia de datos.

Sin embargo, tener este conocimiento no es suficiente; Debe construir una cartera sólida para conseguir un trabajo.

Es por eso que recomiendo visitar mi artículo anterior, donde explico los proyectos exactos que necesita construir para asegurar un trabajo lo antes posible.

¡Nos vemos allí!

Deje de construir proyectos de ML inútiles: lo que realmente funciona | Hacia la ciencia de los datos
Cómo encontrar proyectos de aprendizaje automático que lo contraten.tenddatascience.com

Ofrezco llamadas de coaching 1: 1 donde podemos conversar sobre lo que necesite, ya sean proyectos, consejos profesionales o simplemente descubrir su próximo paso. ¡Estoy aquí para ayudarte a avanzar!

Llamada de tutoría 1: 1 con Egor Howell
Orientación profesional, asesoramiento laboral, ayuda del proyecto, revisión de reanudarTopmate.io