5 Conceptos estadísticos que debe conocer antes de su próxima entrevista de ciencia de datos

por mi cuenta Ciencia de datos Viaje de búsqueda de empleo y he tenido mucha suerte de haber tenido la oportunidad de entrevistar con muchas compañías.

Estas entrevistas han sido una combinación de técnicos y de comportamiento cuando se reúnen con personas reales, y también obtuve mi parte justa de las tareas de evaluación para completar por mi cuenta.

Al pasar por este proceso, he investigado mucho sobre qué tipo de preguntas se hacen comúnmente durante las entrevistas de ciencia de datos. Estos son conceptos con los que no solo debe estar familiarizado, sino que también sabe cómo explicar.

1. Valor P

Imagen del autor

Cuando realice una prueba estadística, generalmente tendrá una hipótesis nula H0 y una hipótesis alternativa H1.

Supongamos que está ejecutando un experimento para determinar la efectividad de algunos medicamentos para bajar de peso. El Grupo A tomó un placebo y el Grupo B tomó el medicamento. Luego, calcula un número medio de libras perdidas durante seis meses para cada grupo y desea ver si el número de peso perdido para el Grupo B es estadísticamente significativamente mayor que el grupo A. En este caso, la hipótesis nula, H0 sería que no había diferencias estadísticamente significativas en el número medio de LBS perdido entre los grupos, lo que significa que la medicación no tenía efecto real en la pérdida de peso. H1 sería que había una diferencia significativa y el Grupo B perdió más peso debido a la medicación.

Para recapitular:

  • H0: LBS LBS perdido Grupo A = LBS Media El Grupo B
  • H1: Media LBS Los perdidos del Grupo A

Luego conducirías un prueba t Comparar medios para obtener un valor p. Esto se puede hacer en Python u otro software estadístico. Sin embargo, antes de obtener un valor p, primero elegiría un valor alfa (α) (también conocido como nivel de significancia) al que comparará la P.

El valor alfa típico elegido es 0.05, lo que significa que la probabilidad de un error tipo I (diciendo que hay una diferencia en las medias cuando no lo hay) es 0.05 o 5%.

Si su valor P es alfa, no puede rechazar su hipótesis nula.

2. Z-score (y otros métodos de detección atípicos)

La puntuación Z es una medida de hasta qué punto un punto de datos se encuentra de la media y es uno de los métodos de detección atípicos más comunes.

Para comprender el puntaje Z, debe comprender conceptos estadísticos básicos como:

  • Significar – El promedio de un conjunto de valores
  • Desviación estándar – Una medida de dispersión entre valores en un conjunto de datos en relación con la media (también la raíz cuadrada de varianza). En otras palabras, muestra cuán lejos están los valores separados en el conjunto de datos de la media.

Un valor de puntaje Z de 2 para un punto de datos dado indica que ese valor es 2 desviaciones estándar por encima de la media. Una puntuación Z de -1.5 indica que el valor es 1.5 desviaciones estándar por debajo de la media.

Por lo general, un punto de datos con una puntuación Z de> 3 o <-3 se considera un caso atípico.

Los valores atípicos son un problema común dentro de la ciencia de datos, por lo que es importante saber cómo identificarlos y tratarlos.

Para obtener más información sobre algunos otros métodos simples de detección de valores atípicos, consulte mi artículo sobre Z-Score, IQR y puntaje Z modificado:

3. Regresión lineal

Imagen del autor

Regresión lineal es uno de los modelos de ML y estadística más fundamentales y es crucial tener éxito en cualquier papel de ciencia de datos.

En un alto nivel, Regresión lineal Su objetivo es modelar la relación entre una variable (s) independiente (s) con una variable dependiente e intenta usar una variable independiente para predecir el valor de la variable dependiente. Lo hace ajustando una “línea de mejor ajuste” al conjunto de datos, una línea que minimiza la suma de las diferencias al cuadrado entre los valores reales y los valores predichos.

Un ejemplo de esto es cuando se intenta modelar la relación entre la temperatura y el consumo de energía eléctrica. Al medir el consumo eléctrico de un edificio a menudo, la temperatura afectará el uso porque a medida que la electricidad se usa para enfriar, a medida que aumenta la temperatura, los edificios usarán más energía para enfriar sus espacios.

Por lo tanto, podemos usar un modelo de regresión para modelar esta relación donde la variable independiente es la temperatura y la variable dependiente es el consumo (ya que el uso depende de la temperatura y no viceversa).

La regresión lineal generará una ecuación en el formato y = mx+b, donde m es la pendiente de la línea y B es la intersección y. Para hacer una predicción para Y, conectaría su valor X a la ecuación.

La regresión tiene 4 supuestos diferentes de los datos subyacentes que pueden recordarse por la línea del acrónimo:

L: relación lineal entre la variable independiente x y la variable dependiente y.

I: Independencia de los residuos. Los residuos no se influyen entre sí. (Un residual es la diferencia entre el valor predicho por la línea y el valor real).

N: distribución normal de los residuos. Los residuos siguen una distribución normal.

E: igual varianzade residuos en diferentes valores x.

La métrica de rendimiento más común cuando se trata de regresión lineal es el R², que le indica la proporción de varianza en la variable dependiente que puede explicarse por la variable independiente. Un R² de 1 indica una relación lineal perfecta, mientras que un R² de 0 significa que no hay capacidad predictiva para este conjunto de datos. Un buen R² tiende a ser 0.75 o más, pero esto también varía según el tipo de problema que esté resolviendo.

La regresión lineal es diferente de la correlación. Correlación Entre dos variables le brinda un valor numérico entre -1 y 1 que le indica la fuerza y ​​la dirección de la relación entre dos variables. Regresión Le ofrece una ecuación que puede usarse para predecir valores futuros basados ​​en la línea de mejor ajuste para valores pasados.

4. Teorema del límite central

El Teorema del límite central (CLT) es un concepto fundamental en las estadísticas que establece que la distribución de la media de la muestra abordará una distribución normal a medida que el tamaño de la muestra se hace más grande, independientemente de la distribución original de los datos.

Una distribución normal, también conocida como la curva de campana, es una distribución estadística en la que la media es 0 y la desviación estándar es 1.

CLT se basa en estos supuestos:

  • Los datos son independientes
  • La población de datos tiene un nivel de varianza finito
  • El muestreo es aleatorio

Un tamaño de muestra de ≥ 30 se considera típicamente como el valor mínimo aceptable para que el CLT se mantenga verdadero. Sin embargo, a medida que aumenta el tamaño de la muestra, la distribución se verá cada vez más como una curva de campana.

CLT permite a los estadísticos hacer inferencias sobre los parámetros de la población utilizando la distribución normal, incluso cuando la población subyacente no se distribuye normalmente. Forma la base de muchos métodos estadísticos, incluidos los intervalos de confianza y las pruebas de hipótesis.

5. sobreajuste y poco acorralado

Imagen del autor

Cuando un modelo Underfits,No ha podido capturar patrones en los datos de entrenamiento correctamente. Debido a esto, no solo funciona mal en el conjunto de datos de entrenamiento, sino que también funciona mal en datos invisibles.

Cómo saber si un modelo está socavando:

  • El modelo tiene un alto error en el tren, la validación cruzada y los conjuntos de pruebas

Cuando un modelo sobretensionesesto significa que ha aprendido los datos de capacitación demasiado de cerca. Esencialmente, ha memorizado los datos de capacitación y es excelente para predecirlos, pero no puede generalizar a los datos invisibles cuando llega el momento de predecir nuevos valores.

Cómo saber si un modelo está en exceso:

  • El modelo tiene un error bajo en todo el conjunto del tren, pero un alto error en la prueba y los conjuntos de validación cruzada

Además:

Un modelo que tiene un alto sesgo.

Un modelo que sobrefiña tiene una alta varianza.

Encontrar un buen equilibrio entre los dos se llama Comercio de parcialidad de varianza.

Conclusión

Esta no es una lista completa. Otros temas importantes para revisar incluyen:

  • Árboles de decisión
  • Errores tipo I y tipo II
  • Matrices de confusión
  • Regresión vs clasificación
  • Bosques aleatorios
  • División de tren/prueba
  • Validación cruzada
  • El ciclo de vida de ML

Estos son algunos de mis otros artículos que cubren muchos de estos conceptos básicos de ML y estadísticas:

Es normal sentirse abrumado al revisar estos conceptos, especialmente si no ha visto muchos de ellos desde sus cursos de ciencia de datos en la escuela. Pero lo más importante es garantizar que esté actualizado con lo que es más relevante para su propia experiencia (por ejemplo, los conceptos básicos del modelado de series de tiempo si esa es su especialidad), y simplemente tiene una comprensión básica de estos otros conceptos.

Además, recuerde que la mejor manera de explicar estos conceptos en una entrevista es usar un ejemplo y caminar a los entrevistadores a través de las definiciones relevantes a medida que habla sobre su escenario. Esto también te ayudará a recordar todo mejor.

Gracias por leer

  • Conéctate conmigo en LinkedIn
  • Cómprame un café ¡Para apoyar mi trabajo!
  • Ahora estoy ofreciendo tutoría de ciencia de datos 1: 1, coaching/tutoría profesional, asesoramiento de escritura, reseñas de currículums y más sobre Compañero superior!