5 Conceptos estadísticos que debe conocer antes de su próxima entrevista de ciencia de datos

por mi cuenta Ciencia de datos Viaje de búsqueda de empleo y he tenido mucha suerte de haber tenido la oportunidad de entrevistar con muchas compañías.

Estas entrevistas han sido una combinación de técnicos y de comportamiento cuando se reúnen con personas reales, y también obtuve mi parte justa de las tareas de evaluación para completar por mi cuenta.

Al pasar por este proceso, he investigado mucho sobre qué tipo de preguntas se hacen comúnmente durante las entrevistas de ciencia de datos. Estos son conceptos con los que no solo debe estar familiarizado, sino que también sabe cómo explicar.

1. Valor P

Imagen del autor

Cuando realice una prueba estadística, generalmente tendrá una hipótesis nula H0 y una hipótesis alternativa H1.

Supongamos que está ejecutando un experimento para determinar la efectividad de algunos medicamentos para bajar de peso. El Grupo A tomó un placebo y el Grupo B tomó el medicamento. Luego, calcula un número medio de libras perdidas durante seis meses para cada grupo y desea ver si el número de peso perdido para el Grupo B es estadísticamente significativamente mayor que el grupo A. En este caso, la hipótesis nula, H0 sería que no había diferencias estadísticamente significativas en el número medio de LBS perdido entre los grupos, lo que significa que la medicación no tenía efecto real en la pérdida de peso. H1 sería que había una diferencia significativa y el Grupo B perdió más peso debido a la medicación.

Para recapitular:

H0: LBS LBS perdido Grupo A = LBS Media El Grupo B
H1: Media LBS Los perdidos del Grupo A

Luego conducirías un prueba t Comparar medios para obtener un valor p. Esto se puede hacer en Python u otro software estadístico. Sin embargo, antes de obtener un valor p, primero elegiría un valor alfa (α) (también conocido como nivel de significancia) al que comparará la P.

El valor alfa típico elegido es 0.05, lo que significa que la probabilidad de un error tipo I (diciendo que hay una diferencia en las medias cuando no lo hay) es 0.05 o 5%.

Si su valor P es alfa, no puede rechazar su hipótesis nula.

2. Z-score (y otros métodos de detección atípicos)

La puntuación Z es una medida de hasta qué punto un punto de datos se encuentra de la media y es uno de los métodos de detección atípicos más comunes.

Para comprender el puntaje Z, debe comprender conceptos estadísticos básicos como:

Significar – El promedio de un conjunto de valores
Desviación estándar – Una medida de dispersión entre valores en un conjunto de datos en relación con la media (también la raíz cuadrada de varianza). En otras palabras, muestra cuán lejos están los valores separados en el conjunto de datos de la media.

Un valor de puntaje Z de 2 para un punto de datos dado indica que ese valor es 2 desviaciones estándar por encima de la media. Una puntuación Z de -1.5 indica que el valor es 1.5 desviaciones estándar por debajo de la media.

Por lo general, un punto de datos con una puntuación Z de> 3 o <-3 se considera un caso atípico.

Los valores atípicos son un problema común dentro de la ciencia de datos, por lo que es importante saber cómo identificarlos y tratarlos.

Para obtener más información sobre algunos otros métodos simples de detección de valores atípicos, consulte mi artículo sobre Z-Score, IQR y puntaje Z modificado:

5 Conceptos estadísticos que debe conocer antes de su próxima entrevista de ciencia de datos

ByEquipo de 7 minutos

1. Valor P

2. Z-score (y otros métodos de detección atípicos)

3. Regresión lineal

4. Teorema del límite central

5. sobreajuste y poco acorralado

Conclusión

Gracias por leer

By Equipo de 7 minutos

Related Post

Meta Superintelligence Labs lanza Muse Spark 1.1: un modelo de razonamiento multimodal para tareas agentes en Meta Model API

Google AI Studio agrega importación desde GitHub para crear una aplicación implementable

Pequeños barcos robot construyen estructuras flotantes | Noticias del MIT

You missed

Alberto González y Jeh Johnson dicen que los poderes legales de la Guerra contra el Terrorismo han ido demasiado lejos

Tribunal español se niega a remitir la amnistía a inmigrantes a Europa

Los niños de Kristin Cavallari viajan en autocar mientras ella está en primera clase para enseñar dinero

Las agitadas colisiones de minilunas en el sistema solar temprano produjeron granos empaquetados dentro de los meteoritos