Del curso: Desafío de programación: Python para ciencia de datos
Correlación entre dos variables - Tutorial de Python
Del curso: Desafío de programación: Python para ciencia de datos
Correlación entre dos variables
(Música de videojuego) La palabra correlación se usa en la vida cotidiana para denotar alguna forma de asociación. En términos estadísticos, correlación denota una asociación entre dos variables cuantitativas. Por ejemplo, es posible que nos interese comprender cómo se correlaciona la altura de los jugadores de baloncesto con su precisión de tiro. Si la correlación es positiva, significa que ambas variables se mueven en la misma dirección. Si es negativa, quiere decir que, cuando el valor de una variable aumenta, los valores de las otras variables disminuyen. La correlación también puede ser neutral o cero, lo que significa que las variables no están relacionadas. En este reto tenemos que averiguar si existe relación entre los años de experiencia laboral de los empleados y el salario que reciben. Para esto, puedes hacer uso de Python y la librería de pandas. Haz pausa ahora y después puedes comparar tu código con el mío. ¿Pudiste obtener la correlación entre la experiencia y el salario que reciben los colaboradores? Bueno, en mi caso, voy a importar primero las librerías de pandas y seaborn. Luego, voy a cargar la información en el dataframe y voy a imprimir los primeros 20 registros, donde podemos ver el nombre, el sexo, estado civil, edad, experiencia, salario, si ocupa una gerencia o no y el departamento para el que labora. Y ahora, para obtener la correlación, hago uso del método corr de pandas que, por defecto, calcula el coeficiente de correlación de Pearson. Voy a ejecutarlo y, como puedes ver, en nuestro caso tenemos una relación lineal positiva. Recordemos que el coeficiente de correlación de Pearson puede tomar cualquier valor entre el rango de -1 y 1. Cuando es igual a 1, es una correlación lineal positiva perfecta; cuando es mayor que 0, es una correlación positiva, como en nuestro caso; cuando es igual a 0, es sin relación lineal; menos de 0, correlación negativa y cuando es igual a -1, es una relación lineal negativa perfecta. Finalmente, voy a crear un mapa de calor con la matriz de correlación que pasamos como argumento, como puedes ver aquí, haciendo uso de la librería de seaborn. Ejecutamos. Y algo importante es que el mapa de calor es una técnica de visualización de datos donde cada valor es representado por un color de acuerdo con la intensidad en la escala dada. Si podemos ver, Experiencia y Salario nos da 0,99, que es el mismo valor que obtuvimos cuando ejecutamos la correlación desde pandas. La correlación no implica causa y esto es muy importante la correlación solo cuantifica la fuerza y la dirección de la relación entre dos variables. Puede haber una fuerte correlación entre dos variables, pero no nos permite concluir que una causa la otra.
Contenido
-
-
-
-
Correlación entre dos variables3 min 48 s
-
(Bloqueado)
Calcular la media (promedio) para cada columna2 min 38 s
-
(Bloqueado)
Obtener el mínimo, máximo, desviación estándar y varianza de un dataframe3 min 49 s
-
(Bloqueado)
Normalizar las columnas de un dataframe2 min 50 s
-
(Bloqueado)
Agregar un registro a un dataframe2 min 57 s
-
(Bloqueado)
Eliminar encabezados, convertir los datos a flotantes2 min 56 s
-
(Bloqueado)
Extraer los nombres de las columnas que sean de tipo numérico3 min 10 s
-
(Bloqueado)
Extraiga filas que cumplan con un criterio2 min 48 s
-
(Bloqueado)
Extraer los registros más altos3 min 3 s
-
(Bloqueado)
Cambiar el orden de las columnas en un dataframe2 min 36 s
-
-
-