Deje de construir proyectos de ML inútiles: lo que realmente funciona

todo el tiempo:

“¿Qué proyectos debo hacer para conseguir un trabajo en ciencias de datos o aprendizaje automático?”

Esta pregunta es defectuosa desde el principio.

Un gran proyecto es personal para usted, lo que significa que cualquier proyecto que sugiero que sea automáticamente una opción “mala”.

En este artículo, su objetivo es desglosar los tipos de proyectos que realmente lo ayudan a ser contratado y el marco que puede seguir para encontrarlos.

4–5 proyectos simples

Comience construyendo 4–5 proyectos más pequeños para darle a su cartera algo de peso inicial.

El objetivo principal aquí es principalmente para “óptica” y para garantizar que sus perfiles de currículum/CV, GitHub y LinkedIn parezcan activos y bien poblados.

Tómese unas semanas para construir estos proyectos más pequeños, asegurando que tengan una calidad suficiente y no algo que haya generado apresuradamente con ChatGPT.

Intente construir una amplia gama de proyectos, cada uno utilizando diferentes herramientas, conjuntos de datos y algoritmos de aprendizaje automático.

Algoritmos y modelos ML

Le recomiendo que tenga proyectos con los siguientes algoritmos:

  • Gradiente de árboles impulsados– El algoritmo estándar de oro para datos tabulares, por lo que es algo que definitivamente usará en el trabajo.
  • Redes neuronales– Buena comprensión de los marcos de aprendizaje profundo como Flujo tensor o Pytorch es valioso, especialmente si desea trabajar en visión por computadora, PNL o IA.
  • Algoritmos de agrupación– Modelos como K-medias y Dbscan Demuestre su comprensión del aprendizaje no supervisado, que es necesario para algunos roles.

Obtener datos emocionantes y novedosos

Es mucho mejor obtener un conjunto de datos más desordenado y más realista que refleje los datos que encontrará en el mundo real. Esto impresionará aún más a los empleadores y entrevistadores, demostrando directamente sus habilidades como científico de datos.

Al seleccionar conjuntos de datos para sus proyectos, evite usar conjuntos de datos de uso en exceso, como Mnista, Titánicoo Iris. Si viera esto, sería un rechazo instantáneo, o al menos, me desanime mucho.

Algunos buenos lugares para obtener datos:

  • Use API públicas y gratuitas: puede consultar el free-apis sitio para algunas ideas.
  • Datos de raspado web de sitios relevantes (¡asegúrese de que pueda hacer esto primero!) – –Aquí es una lista de sitios web que permiten el raspado web.
  • Fuentes de datos del gobierno público –data.gov es un ejemplo que puedes usar.
  • Reúna sus propios datos a través de encuestas y cuestionarios.

Para decidir en qué deberían estar sus proyectos, es mejor comenzar respondiendo preguntas específicas que cree que será interesante descubrir de los datos.

Recomiendo mostrar sus resultados utilizando herramientas como Racionalizar o implementar un modelo simple a través de Acciones de Github.

Sin embargo, no se estrese por construir un sistema de producción completamente de extremo a extremo utilizando algo como AWS o sus servicios, como EC2 o ECS. En esta etapa, está completamente bien si no sabes cómo hacerlo, y no es el objetivo de estos pequeños proyectos.

Un gran proyecto

Aquí es donde realmente necesita concentrarse y tomarse su tiempo.

Después de haber construido sus proyectos más pequeños, es hora de hacer un gran proyecto. Este podría tomar un par de meses si está trabajando en él durante una o dos horas cada día.

Esto puede intimidarlo, pero debe esforzarse si desea un proyecto que se destaque del resto.

La pregunta es, ¿qué debes construir?

Como mencioné anteriormente, no puedo elegir este proyecto para usted, pero puedo proporcionar un marco a seguir, lo que le permite encontrar un gran proyecto usted mismo.

Proyecto de ejemplo

Déjame darte un ejemplo de un gran proyecto.

En mi compañía anterior, estábamos contratando para un científico de datos junior para trabajar en mejoramiento y investigación de operaciones problemas.

El candidato que contratamos se destacó por una razón principal: tenían un proyecto muy relevante y profundamente personal que coincidía estrechamente con el papel.

Les apasionaba el fútbol de fantasía de la NFL y querían mejorar la forma en que construyeron sus alineaciones semanales (esto es similar a la Fantasy Premier League en el Reino Unido).

Por lo tanto, desarrollaron su propio motor de optimización para asignar a los jugadores de manera más efectiva dentro de las limitaciones del programa.

No era solo el motor en sí; Leeron documentos académicos sobre estrategias de optimización y estudiaron cómo otros se acercaban al mismo problema.

¿Ves por qué este fue un proyecto tan poderoso?

  • Era un problema personal en el que les interesaba.
  • Era único, y no habíamos visto algo así antes o desde entonces.
  • Mostró su pasión e interés en la optimización y la investigación de operaciones.
  • Era directamente relevante para el trabajo para el que estaban solicitando.

Mi marco

Aquí hay un marco simple para que siga para obtener grandes ideas de proyectos:

  1. Enumere al menos cinco cosas que le interesan fuera del trabajo y el campo de ciencia de datos o aprendizaje automático.
  2. Para cada cosa, se le ocurran preguntas a las que le gustaría respuestas u otras personas pueden encontrar interesantes.
  3. Piense en cómo el aprendizaje automático podría ayudar a responder esas preguntas. No se preocupe si la pregunta parece imposible; ser lo más creativo posible.
  4. Elige una pregunta que más te emociona. Idealmente, elija algo que se sienta ligeramente fuera de su alcance; De esa manera, realmente aprenderás y te alejarás de tu zona de confort.

Construyendo complejidad y escala

Para que este proyecto se destaque, necesitamos agregarle algo de complejidad y escala. Esto significa cosas diferentes, y hay varias formas de incorporar esto.

Si apunta a un papel como ingeniero de aprendizaje automático, es especialmente valioso construir e implementar el proyecto de extremo a extremo.

Su proyecto debe incluir idealmente lo siguiente:

  • Recopilación y almacenamiento de datos.
  • Preprocesamiento de datos.
  • Entrenamiento y evaluación de modelos.
  • Implementación del modelo (a través de API, aplicación web, etc.).
  • Análisis y presentación de sus resultados.

Para hacer esto, necesitará aprender algunos de los siguientes:

Puede parecer mucho, pero no necesita hacer todo en esta lista.

Lo principal es comenzar y aprender estas cosas en el camino; No intentes aprender todo a la vez; Eso es procrastinación.

Documentar y comunicarse

La parte final y posiblemente más esencial es documentar su aprendizaje.

Las habilidades técnicas por sí solas no te conseguirán el trabajo.

La comunicación es una de las habilidades más esenciales para tener como ingeniero de aprendizaje automático o científico de datos, especialmente cuando subes de rango.

Muestre su proyecto por:

  • Agregar sus proyectos a GitHub y tener un readMe bien documentado.
  • Incluyendo instrucciones para la configuración y el uso para permitir a los usuarios explorar e interactuar con su proyecto.
  • Escriba una publicación de blog que explique sus proyectos y cómo lo hizo.
  • Compártalo en LinkedIn, Twitter, Reddit, Discord, YouTube o donde sea que las personas que puedan estar interesadas en probarlo lo están.

Cuanto más comparta su trabajo, más visible será para posibles empleadores y colaboradores.


En realidad, no es tan difícil crear una cartera sólida de proyectos; Solo requiere un trabajo y paciencia constantes, lo que la mayoría de las personas no están dispuestas a hacer.

No hay un proyecto “rápido” que lo contrate; Lo que te hará contratar es tomarse el tiempo para construir algo personal, de buena calidad y novela.

Ese es el secreto.

¡Otra cosa!

Ofrezco llamadas de coaching 1: 1 donde podemos conversar sobre lo que necesite, ya sean proyectos, consejos profesionales o simplemente descubrir su próximo paso. ¡Estoy aquí para ayudarte a avanzar!

Llamada de tutoría 1: 1 con Egor Howell
Orientación profesional, asesoramiento laboral, ayuda del proyecto, revisión de reanudar Topmate.io

Conéctate conmigo