top of page

Qué son las dummy variables

Actualizado: 4 ago

Uno de los conceptos clave en las asignaturas de Data Analysis o Econometría de IE University son las variables cualitativas o dummy variables dentro de los modelos de regresión. A continuación lo explicamos con algunas claves.


Índice de contenido


  1. ¿Para qué sirven las variables dummy?

  2. Un ejemplo práctico

  3. ¿Cómo se interpretan los coeficientes?

  4. La trampa de las dummy variable

  5. Tabla resumen


¿Para que sirven las variables dummy?


Una variable dummy es aquella que toma un valor entre 1 o 0 para indicar la presencia o ausencia de una condición. Se utiliza sobre todo en análisis estadísticos y modelos de regresión para aportar información categórica.


Ejemplos comunes de variables dummy:


  1. Sexo: por ejemplo, que se tome el valor 1 para los hombres y 0 para las mujeres.

  2. Región geográfica: con el valor 1 para una determinada región geográfica y 0 para otras regiones.

  3. Estado civil: se puede utilizar el valor 1 para los casados y 0 para los solteros.

  4. Presencia o ausencia de una característica: se puede crear una variable dummy que tome el valor 1 si un individuo tiene una determinada característica (por ejemplo, si tiene un móvil) y 0 si no la tiene.

  5. Edad: en este caso se utiliza el valor 1 para una determinada edad (por ejemplo, los mayores de 65 años) y 0 para el resto de edades.


Las variables se incluyen en un modelo de regresión lineal, lo que permite evaluar la relación entre un valor principal y la variable dependiente de interés. 

 

Un ejemplo práctico


Para analizar cómo el nivel de educación afecta al salario de los trabajadores. Se crea una variable dummy para representar si un trabajador tiene un título universitario o no. En este caso, la variable toma el valor 1 si el trabajador tiene un título universitario y 0 si no lo tiene.


Elaboramos un Multiple Linear Regression Model (MLRM), es decir, modelo de regresión con más de una variable, y por tanto se incluye una variable cuantitativa como la experiencia laboral. 

Esta sería la fórmula correcta:


Salario = β0 + β1 Educación + β2 Experiencia + ε


Las claves:

  • El salario es la variable dependiente.

  • Educación es la variable independiente que toma el valor 1 si el trabajador tiene un título universitario y 0 si no lo tiene.

  • Experiencia es la variable independiente que representa la trayectoria profesional.

  • β0, β1, y β2 son los coeficientes de regresión que estimamos a partir de los datos para ajustar el modelo de regresión lineal múltiple.

  • ε es el término de error, que representa la variación en el salario que no se explica por la educación y la experiencia laboral.


La relación entre variables se interpreta a través de los modelos de regresión.
La relación entre variables se interpreta a través de los modelos de regresión.


¿Cómo se interpretan los coeficientes?


Los coeficientes β1 y β2 se interpretan de la siguiente manera:


  • β1 representa el cambio en el salario asociado con tener un título, manteniendo constante la experiencia laboral. Si β1 es positivo, se puede asociar un título universitario con tener un salario más alto.

  • β2 representa el cambio en el salario asociado con cada año adicional de experiencia laboral, manteniendo constante la educación. Si β2 es positivo, se conecta directamente la experiencia laboral con la posibilidad de optar a un salario elevado.

  • Si β1 y β2 no son estadísticamente significativos, no podemos concluir que haya relación entre la educación, la experiencia y el salario.


La trampa de las dummy variables


Se produce cuando se incluyen todas las posibles variables cualitativas en el modelo, lo que resulta en una colinealidad perfecta entre ellas. Por ejemplo, si en la categoría "sexo" incluimos una variable para hombre y otra para mujer en el modelo en lugar de una única que tome el valor 1 o 0 según pertenezca a cada categoría.


De esta manera el modelo es inestable y los coeficientes estimados son incorrectos.


Este problema genera multicolinealidad, que es lo que ocurre cuando dos o más variables independientes en un modelo están muy correlacionadas entre sí, lo que complica la capacidad de determinar la contribución única de cada variable a la variable dependiente.

Por lo tanto, se debe eliminar una de las variables cualitativas del modelo. 


Los modelos inestables favorecen la aparición de errores.
Los modelos inestables favorecen la aparición de errores.

Tabla resumen


Concepto

Ejemplos

Coeficiente

Trampa de las dummy variables

Una variable dummy es aquella que toma el valor 1 o 0 para indicar la presencia o ausencia de una cierta característica o condición.


  1. Sexo

  2. Región geográfica

  3. Estado civil

  4. Presencia o ausencia de una característica

  5. Grupo de edad




El cambio en la variable dependiente asociado con el cumplimiento de la dummy, manteniendo constante el resto

 



Se produce cuando se incluyen todas las posibles variables cualitativas en el modelo, lo que resulta en una colinealidad perfecta entre ellas.



Para saber más a cerca de las Dummy Variables, consulta la guía escrita por Jeffrey Wooldridge, "Introductory Econometrics: A Modern Approach".  Disponible en Amazon a través del siguiente enlace.


Si tienes interés en profundizar acerca de alguna de estas cuestiones para mejorar tu desempeño en tu carrera universitaria en IE University, ICADE, CUNEF, Columbia o cualquier otra, o para formar parte de uno de nuestros cursos para empresas Executive, puedes mandarnos un mensaje.


 
 
 
bottom of page