Influencia de las variables en el número de protestas a nivel mundial

Curso: POL304 - Estadística para el análisis político 2

Carlos Crespín, Christian Silvera, Kevin Villarreal

26-11-2022

1. Introducción

Uno de los temas más emergentes dentro de las ciencias sociales es el estudio de los movimientos de protestas que se está generalizando a nivel global y los factores que explican dichos movimientos de protesta. Dicho creciente interés se explica a partir de la crisis de legitimidad que actualmente sufren las democracias realmente existentes y un crecimiento de movimientos y actores políticos descritos como autoritarios que están teniendo una mayor aceptación dentro de la opinión pública y ocupan un mayor número de espacios dentro de los canales de discusión política brindados por los mecanismos formales de la democracia. El sentido común nos orienta priorizar una serie de causas tanto en el ámbito político como en el económico social como factores de explicación a número de protestas por año que se dan en cada país, cuestión que va a ser discutida en la presente investigación.

Tomando como referencia las discusiones previas sobre el tema, partimos de la siguiente hipótesis: el número de protestas en cada país a nivel mundial se explican a partir de las condiciones políticas y económicas - sociales bajo las cuáles se encuentra cada país tomando en cuenta por el presente estudio. Dicha compleja interacción de factores explica los procesos sociales que llevan consigo un mayor o menor número de protestas según el país seleccionado.

Para analizar dicho tema, vamos a realizar un análisis de regresión de poisson que busca hallar la explicación del número de protestas (la variable dependiente) que se llevaron a cabo en 131 países durante el 2019 a partir de una serie de factores de carácter político y económico - social. Las variables a utilizar dentro del primer campo son tanto la percepción de la corrupción según la encuesta de Amnistía Internacional y la calidad de la democracia según el índice del Polity V. Por otro lado, el presente trabajo analiza otra serie de variables que se entremezclan dentro del ámbito económico - social. Las cuáles son tanto el Producto Bruto Interno per cápita, el Índice de Desarrollo Humano, la tasa de desempleo, el índice Gini, la tasa de inflación al consumo, la tasa de pobreza monetaria y el salario mínimo en dólares.

Realizando una indagación más profunda en este proyecto, también realizaremos un análisis factorial exploratorio para observar de qué manera se distribuyen las variables entre sí para ver si existen factores que puedan agrupar y resumir cada una de las variables independientes. Asimismo, se realizará una conglomeración de los casos de estudio para ver si es posible agruparlos dentro de sus respectivos subconjuntos y entender las similitudes que existen entre ellos.

Aperturamos nuestra nueva base de datos

country PobUnemp2019 mensualsalary2019 Porcentpobreza2019 PBIpercapita2019 Infla2019 hdi_2019 GINI2019 CPI2019 caldemo2019 protestnumber
Angola 7.421 3445473 31.1 2177.7990 17.0812152 0.595 51.3 26 0.366 1
Albania 11.470 1472812242 0.4 5396.2159 1.4110908 0.810 33.2 35 0.488 17
Armenia 18.300 1527937457 1.0 4604.6463 1.4434466 0.778 34.4 42 0.807 2
Azerbaijan 4.850 1275168755 0.1 4805.7537 2.6105718 0.761 33.7 30 0.192 1
Burundi 1.589 48328632 65.1 223.8629 -0.6867722 0.431 38.6 19 0.158 1
Belgium 5.360 12178118946 0.1 46599.1113 1.4368196 0.936 27.4 75 0.889 6
Benin 1.470 216993145 19.9 1219.5155 -0.7050266 0.530 47.8 41 0.488 27
Burkina Faso 4.693 467251842 30.5 796.1152 -3.2333893 0.452 35.3 40 0.708 2
Bangladesh 4.438 18363859531 13.5 2154.2268 5.5919964 0.644 32.4 26 0.256 5
Bulgaria 4.230 2342370000 0.9 9879.2685 3.1037294 0.810 40.4 43 0.623 2
Bosnia 15.690 2332570551 0.1 6119.7624 0.5627822 0.783 33.0 36 0.521 8
Belarus 4.160 1418800000 0.0 6837.7178 5.5981560 0.817 25.2 45 0.257 3
Bolivia 3.820 1335620197 1.9 3552.0681 1.8395450 0.717 42.2 31 0.553 14
Brazil 11.930 3213621677 5.4 8876.0598 3.7329762 0.766 53.9 35 0.676 3
Botswana 22.610 59360104 15.4 7247.4295 2.7728644 0.717 53.3 61 0.672 1

2. Gráficos

Medidas de tendencia central de la población desempleada por país
PobUnemp2019
Min. : 0.554
1st Qu.: 3.743
Median : 5.399
Mean : 7.461
3rd Qu.: 9.837
Max. :28.470

Medidas de tendencia central del salario mensual promedio por país
mensualsalary2019
Min. :0.000e+00
1st Qu.:3.618e+08
Median :1.418e+09
Mean :4.712e+09
3rd Qu.:4.232e+09
Max. :8.333e+10

Medidas de tendencia central del porcentaje de población en condición de pobreza por país
Porcentpobreza2019
Min. : 0.000
1st Qu.: 0.225
Median : 2.400
Mean :12.515
3rd Qu.:18.975
Max. :80.700

Medidas de tendencia central del PBI per cápita por país
PBIpercapita2019
Min. : 223.9
1st Qu.: 1545.8
Median : 4667.4
Mean : 12518.1
3rd Qu.: 14249.4
Max. :113218.7

Medidas de tendencia central de la tasa de inflación por país en el 2019
Infla2019
Min. : -4.2949
1st Qu.: 0.9751
Median : 2.6043
Mean : 8.2248
3rd Qu.: 4.7459
Max. :255.3050

Medidas de tendencia central del Índice de Desarrollo Humano por país
hdi_2019
Min. :0.3930
1st Qu.:0.5765
Median :0.7355
Mean :0.7150
3rd Qu.:0.8357
Max. :0.9620

Medidas de tendencia central del Índice de GINI
GINI2019
Min. :24.20
1st Qu.:32.92
Median :36.60
Mean :38.31
3rd Qu.:43.45
Max. :63.00

Medidas de tendencia central del Índice de Percepción de Corrupción
CPI2019
Min. :12.00
1st Qu.:29.00
Median :37.00
Mean :42.12
3rd Qu.:52.75
Max. :87.00

Medidas de tendencia central de la calidad democrática de cada país
caldemo2019
Min. :0.0760
1st Qu.:0.3613
Median :0.5485
Mean :0.5545
3rd Qu.:0.7622
Max. :0.9110

Gráfico de barras con países cuya calidad democrática es inferior al 0.2

Medidas de tendencia central del número de protestas por año
protestnumber
Min. : 1.000
1st Qu.: 1.000
Median : 3.000
Mean : 5.685
3rd Qu.: 5.000
Max. :66.000

Gráfico de barras con los países con el mayor número de protestas por año

3. Primer modelo de regresión de Poisson

Realizaremos nuestro primer modelo de Poisson, en la cual el número de protestas será nuestra variable dependiente, mientras que el salario mensual, el PBI per cápita y la calidad de la democracia serán nuestras variables independientes.

Resumen de Regresion Lineal salario-PBI-Calidad democracia
OLS asegurados (I)
(Intercept) 2.255***
(0.092)
mensualsalary2019 2e-11***
(2e-12)
PBIpercapita2019 0.00001***
(0.000002)
caldemo2019 -1.508***
(0.194)
Num.Obs. 130
AIC 1313.1
BIC 1324.5
Log.Lik. -652.535
RMSE 8.69
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Tal como se puede apreciar en la tabla, observamos que nuestras tres variables poseen un p.value de 0.001, con lo cual podemos rechazar la hipótesis nula y confirmamos su efecto estadístico en el número de protestas por año. Se puede observar que un mayor salario mensual y un PBI per cápita más grande influye positivamente en el número de protestas, mientras que el efecto de de la calidad de la democracia es inverso. Para tener un mayor conocimiento sobre el efecto de las variables explicativas, podemos exponenciar los coeficientes del modelo:

EXP() de la Regresión Poisson para Interpretación
POISSON (I)
(Intercept) 9.5327***
[7.9349, 11.3960]
mensualsalary2019 1.0000***
[1.0000, 1.0000]
PBIpercapita2019 1.0000***
[1.0000, 1.0000]
caldemo2019 0.2214***
[0.1513, 0.3242]
Num.Obs. 130
AIC 1313.1
BIC 1324.5
Log.Lik. -652.535
RMSE 8.69
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Una vez exponenciados los coeficientes, es más sencillo entender el efecto de cada variable sobre el número de protestas por año. En la tabla se puede observar que tanto el salario mensual en dólares y el PBI per cápita solo incluye al 1 en su intérvalo de confianza, con lo cual podemos confirmar que el efecto de ambas variables en nuestra variable dependiente es de un 0%. No obstante, podemos observar que por cada unidad que aumente la calidad de la democracia, el número de protestas por año se multiplica en un 0.1912 veces.

Uno de los supuestos del modelo de Poisson es que la media y la varianza sean iguales. Para revisar dicho supuesto, es necesario realizar una prueba de equisdispersión.

Test de Equidispersión
Es probable?
overdispersion TRUE
underdispersion FALSE

Tal como se puede observar en la tabla, se puede constatar que en el modelo existe la sobredispersión. Para subsanar dicho problema, recurrimos al modelo de Quassipoisson.

Resumen de Regresion Lineal salario-PBI-Calidad democracia
Poisson (I)
(Intercept) 2.255***
(0.092)
mensualsalary2019 2e-11***
(2e-12)
PBIpercapita2019 0.00001***
(0.000002)
caldemo2019 -1.508***
(0.194)
Num.Obs. 130
AIC 1313.1
BIC 1324.5
Log.Lik. -652.535
RMSE 8.69
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Ahora vamos a exponenciar los coeficientes del modelo de quiasipoisson para conocer con mayor precisión el grado de variabilidad de las variables explicativa sobre el número de protestas, la cual no difiere de lo expuesto en la tabla del modelo de regresión de Poisson, solo que los errores típicos ya no afecta el grado de significancia de los predictores.

EXP() de la Regresión Quasi Poisson (II) para Interpretación
QuasiPoisson (I)
(Intercept) 9.5327***
[4.96400, 17.273]
mensualsalary2019 1.0000**
[1.00000, 1.000]
PBIpercapita2019 1.0000
[0.99999, 1.000]
caldemo2019 0.2214*
[0.05986, 0.826]
Num.Obs. 130
Log.Lik.
RMSE 8.69
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Básicamente, no salta el mismo resultado que cuando exponenciamos el primer modelo de Poisson, solamente el error de la sobredispersión ya no se encuentra presente, tal como se puede evidenciar en la revisión de los errores típicos

##                          sePoi   seQuasiPoi
## (Intercept)       9.232560e-02 3.172203e-01
## mensualsalary2019 2.114545e-12 7.265339e-12
## PBIpercapita2019  2.304486e-06 7.917954e-06
## caldemo2019       1.943437e-01 6.677432e-01

4. Segundo modelo de Poisson

Nuestro segundo modelo de Poisson busca explicar el número de protestas por año a partir de la tasa de inflación por consumo, IDH y percepción de la corrupción.

Resumen de Regresion Lineal Inflacion-IDH-corrupcion
OLS asegurados (2)
(Intercept) 0.831***
(0.202)
Infla2019 0.002+
(0.0009)
hdi_2019 2.136***
(0.368)
CPI2019 -0.016***
(0.003)
Num.Obs. 130
AIC 1407.6
BIC 1419.0
Log.Lik. -699.784
F 14.043
RMSE 9.03
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

A partir de los valores de la tabla, podemos observar que las tres variables independientes son estadísticamente significativos. Mientras que la percepción de la corrupción y el IDH poseen un p.value menor a 0.001, el p.value de la tasa de inflación es menor a 0.05. Asimismo, podemos afirmar que a mayor inflación e IDH, existe un mayor número de protestas por año. Por otro lado, la percepción de la corrupción se encuentra relacionada de forma inversa con la variable dependiente.

Para tener un mayor conocimiento sobre el efecto de las variables explicativas, podemos exponenciar los coeficientes del modelo:

EXP() de la Regresión Poisson para Interpretación
POISSON (II)
(Intercept) 2.2962***
[1.5351, 3.3903]
Infla2019 1.0015+
[0.9996, 1.0032]
hdi_2019 8.4657***
[4.1396, 17.5068]
CPI2019 0.9844***
[0.9782, 0.9906]
Num.Obs. 130
AIC 1407.6
BIC 1419.0
Log.Lik. -699.784
F 14.043
RMSE 9.03
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

En la tabla se puede que observar que por cada unidad que aumente la inflación por consumo, el número de protestas se multiplica por 1.0019. Por otro lado, por cada unidad en la cual se aumente el IDH de cada país, el número de protestas por año se multiplica por 6.9320. Finalmente, por cada unidad en que se aumente la percepción de la corrupción, el número de protestas por año se multiplica por 0.9835.

Realizamos la prueba de la equidispersión:

Test de Equidispersión
Es probable?
overdispersion TRUE
underdispersion FALSE

Confirmamos que existe sobredispersión en el segundo modelo, por lo que tenemos que utilizar la Quasipoisson para cumplir con los requisitos correspondientes:

Una vez subsanados la sobredispersión, podemos exponenciar los coeficientes para que sea más explícita la manera en cómo la variabilidad del número de protestas es explicada por las variables independientes.

EXP() de la Regresión Quasi Poisson (II) para Interpretación
QuasiPoisson (II)
(Intercept) 2.2962
[0.4598, 9.500]
Infla2019 1.0015
[0.9928, 1.007]
hdi_2019 8.4657
[0.5850, 143.983]
CPI2019 0.9844
[0.9607, 1.008]
Num.Obs. 130
Log.Lik.
F 0.971
RMSE 9.03
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Trae los mismo resultados que el modelo de regresión, pero cambian los errores típicos:

##                    sePoi  seQuasiPoi
## (Intercept) 0.2020573789 0.768486965
## Infla2019   0.0009088518 0.003456646
## hdi_2019    0.3677547003 1.398685340
## CPI2019     0.0031889750 0.012128662

5. Tercer modelo de Poisson

El tercer modelo de Poisson tiene como variables explicativas la tasa de desempleo, el porcentaje de pobreza monetaria y el coeficiente de desigualdad GINI

Resumen de Regresion Lineal Desempleo-Pobreza-GINI
OLS asegurados (3)
(Intercept) 2.393***
(0.200)
PobUnemp2019 -0.0008
(0.007)
Porcentpobreza2019 -0.006*
(0.003)
GINI2019 -0.015**
(0.006)
Num.Obs. 130
AIC 1422.8
BIC 1434.2
Log.Lik. -707.380
F 8.388
RMSE 9.07
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Tal como lo explica la tabla, la variable tasa de desempleo no posee efecto alguna en el número de protestas por año. Por otro lado, el efecto de la tasa de pobreza monetaria es negativa y estadísticamente significativa debido a su p.value menor a 0.05, mientras que el GINI igualmente es negativa y estadísticamente significativa en su relación con el número de protestas por año por su p.value menor a 0.01.

Para tener un mayor conocimiento sobre el efecto de las variables explicativas, podemos exponenciar los coeficientes del modelo:

EXP() de la Regresión Poisson para Interpretación
POISSON (III)
(Intercept) 10.9449***
[7.3947, 16.2235]
PobUnemp2019 0.9992
[0.9847, 1.0136]
Porcentpobreza2019 0.9940*
[0.9889, 0.9989]
GINI2019 0.9846**
[0.9733, 0.9960]
Num.Obs. 130
AIC 1422.8
BIC 1434.2
Log.Lik. -707.380
F 8.388
RMSE 9.07
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Tal como observamos en la tabla, no es necesario analizar el resultado en la tabla de desempleo ya que no explica la variabilidad del número de protestas por año. Por otro lado, en lo que respecta al porcentaje de pobreza podemos observar que cada vez que aumente una unidad de la misma, el número de protestas se multiplica por un 0.9940, mientras que cada vez que se aumente una unidad de la variable GINI, el número de protestas por año se multiplica por 0.9846.

Vamos a realizar la prueba de equidispersión.

Test de Equidispersión
Es probable?
overdispersion TRUE
underdispersion FALSE

La tabla nos confirma que el tercer modelo tiene la presencia de la sobredispersión, por lo que es necesario realizar la prueba de la Quasipoisson

Resumen de Regresion Lineal Desempleo-IPobreza-GINI
OLS asegurados (3)
(Intercept) 2.393***
(0.200)
PobUnemp2019 -0.0008
(0.007)
Porcentpobreza2019 -0.006*
(0.003)
GINI2019 -0.015**
(0.006)
Num.Obs. 130
AIC 1422.8
BIC 1434.2
Log.Lik. -707.380
F 8.388
RMSE 9.07
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparamos ambos modelos

Regresiones Poisson y QuasiPoisson
POISSON (III) QUASIPOISSON (III)
(Intercept) 2.393*** 2.393**
(0.200) (0.744)
PobUnemp2019 -0.0008 -0.0008
(0.007) (0.027)
Porcentpobreza2019 -0.006* -0.006
(0.003) (0.010)
GINI2019 -0.015** -0.015
(0.006) (0.022)
Num.Obs. 130 130
AIC 1422.8
BIC 1434.2
Log.Lik. -707.380
F 8.388 0.609
RMSE 9.07 9.07
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Podemos exponenciar los coeficientes para que sea más clara la forma en cómo la variabilidad del número de protestas es explicada por las variables independientes.

EXP() de la Regresión Quasi Poisson (II) para Interpretación
QuasiPoisson (III)
(Intercept) 10.9449**
[2.5664, 47.603]
PobUnemp2019 0.9992
[0.9440, 1.051]
Porcentpobreza2019 0.9940
[0.9740, 1.011]
GINI2019 0.9846
[0.9421, 1.027]
Num.Obs. 130
Log.Lik.
F 0.609
RMSE 9.07
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Como en los modelos previos, la diferencia entre uno y otro yace en los errores típicos.

##                          sePoi   seQuasiPoi
## (Intercept)       9.232560e-02 3.172203e-01
## mensualsalary2019 2.114545e-12 7.265339e-12
## PBIpercapita2019  2.304486e-06 7.917954e-06
## caldemo2019       1.943437e-01 6.677432e-01

6. Modelo de regresión con todas las variables

Resumen de Regresion Lineal Desempleo-IPobreza-GINI
OLS asegurados (4)
(Intercept) 1.632***
(0.476)
PobUnemp2019 0.008
(0.008)
Porcentpobreza2019 -0.0001
(0.004)
GINI2019 -0.015*
(0.006)
mensualsalary2019 2e-11***
(2e-12)
PBIpercapita2019 0.000001
(0.000004)
caldemo2019 -1.680***
(0.222)
Infla2019 0.002+
(0.001)
hdi_2019 1.783**
(0.588)
CPI2019 0.0007
(0.005)
Num.Obs. 130
AIC 1279.2
BIC 1307.9
Log.Lik. -629.614
RMSE 8.52
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Tal como se puede apreciar en la tabla, las variables sobre la tasa de desempleo, porcentaje de pobreza, PBI per cápita, inflación y percepción de la corrupción no son estadísticamente significativa en el modelo de Poisson. Por otro lado, el IDH, la calidad de la democracia, el salario mensual y el índice GINI son estadísticamente significativos y relacionados de forma positiva con excepción de esta última variable y la calidad de la democracia.

Para poder observar con mayor detalle la forma en cómo afecta la variabilidad del número de protestas, tenemos que exponenciar los coeficientes.

EXP() de la Regresión Poisson para Interpretación
POISSON (IV)
(Intercept) 5.1136***
[1.9899, 12.8890]
PobUnemp2019 1.0082
[0.9933, 1.0229]
Porcentpobreza2019 0.9999
[0.9921, 1.0075]
GINI2019 0.9853*
[0.9731, 0.9975]
mensualsalary2019 1.0000***
[1.0000, 1.0000]
PBIpercapita2019 1.0000
[1.0000, 1.0000]
caldemo2019 0.1865***
[0.1208, 0.2888]
Infla2019 1.0017+
[0.9996, 1.0035]
hdi_2019 5.9497**
[1.9039, 19.0922]
CPI2019 1.0007
[0.9914, 1.0101]
Num.Obs. 130
AIC 1279.2
BIC 1307.9
Log.Lik. -629.614
RMSE 8.52
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Tomando en cuenta solamente las variables estadísticamente significativas, podemos afirmar que por cada unidad que se aumenta del coeficiente GINI, el número de protestas por año se multiplica 0.9853. De la misma forma, por cada unidad que se aumente en calidad de la democracia, el número de protestas se multiplica por 0.1865. Por otro lado, por cada unidad que se aumente del índice IDH, el número de protestas se multiplica por 5.9497, es decir, aumenta en un 494,97%. Finalmente, en el intérvalo del salario mensual en dólares se puede observar el 1, con lo cual no permitiría establecer una relación de causalidad entre dicha variable y el número de protestas por año

Para cumplir con los requisitos del modelo, requerimos una prueba de equisdispersión.

Test de Equidispersión
Es probable?
overdispersion TRUE
underdispersion FALSE

Para subsanar la sobredispersión, realizamos un modelo de quassipoisson:

Resumen de Regresion Lineal
Poisson (4)
(Intercept) 1.632***
(0.476)
PobUnemp2019 0.008
(0.008)
Porcentpobreza2019 -0.0001
(0.004)
GINI2019 -0.015*
(0.006)
mensualsalary2019 2e-11***
(2e-12)
PBIpercapita2019 0.000001
(0.000004)
caldemo2019 -1.680***
(0.222)
Infla2019 0.002+
(0.001)
hdi_2019 1.783**
(0.588)
CPI2019 0.0007
(0.005)
Num.Obs. 130
AIC 1279.2
BIC 1307.9
Log.Lik. -629.614
RMSE 8.52
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Realizamos una comparación entre ambos modelos

Regresiones Poisson y QuasiPoisson
POISSON (III) QUASIPOISSON (III)
(Intercept) 2.393*** 2.393**
(0.200) (0.744)
PobUnemp2019 -0.0008 -0.0008
(0.007) (0.027)
Porcentpobreza2019 -0.006* -0.006
(0.003) (0.010)
GINI2019 -0.015** -0.015
(0.006) (0.022)
Num.Obs. 130 130
AIC 1422.8
BIC 1434.2
Log.Lik. -707.380
F 8.388 0.609
RMSE 9.07 9.07
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Exponenciamos los coeficientes del modelo una vez que hayamos tratado la sobredispersión previamente detectada

EXP() de la Regresión Quasi Poisson (II) para Interpretación
QuasiPoisson (IV)
(Intercept) 5.1136
[0.19960, 105.5519]
PobUnemp2019 1.0082
[0.95750, 1.0571]
Porcentpobreza2019 0.9999
[0.97299, 1.0251]
GINI2019 0.9853
[0.94454, 1.0264]
mensualsalary2019 1.0000**
[1.00000, 1.0000]
PBIpercapita2019 1.0000
[0.99997, 1.0000]
caldemo2019 0.1865*
[0.04407, 0.8194]
Infla2019 1.0017
[0.99378, 1.0073]
hdi_2019 5.9497
[0.14464, 328.7680]
CPI2019 1.0007
[0.96950, 1.0322]
Num.Obs. 130
Log.Lik.
RMSE 8.52
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Al igual que en los otros modelos, la diferencia entre el modelo y la quiasipoisson yace en la cantidad de errores atípicos.

##                           sePoi   seQuasiPoi
## (Intercept)        4.764549e-01 1.593734e+00
## PobUnemp2019       7.500472e-03 2.508895e-02
## Porcentpobreza2019 3.946757e-03 1.320184e-02
## GINI2019           6.318002e-03 2.113361e-02
## mensualsalary2019  2.317589e-12 7.752299e-12
## PBIpercapita2019   3.802561e-06 1.271950e-05
## caldemo2019        2.223914e-01 7.438957e-01
## Infla2019          9.824384e-04 3.286240e-03
## hdi_2019           5.879892e-01 1.966814e+00
## CPI2019            4.776618e-03 1.597771e-02

7. Comparación entre modelos

## 
## ===========================================================
##                              Dependent variable:           
##                    ----------------------------------------
##                                 protestnumber              
##                       (1)        (2)       (3)       (4)   
## -----------------------------------------------------------
## mensualsalary2019   0.000***                      0.000*** 
##                     (0.000)                        (0.000) 
##                                                            
## PBIpercapita2019   0.00001***                      0.00000 
##                    (0.00000)                      (0.00000)
##                                                            
## caldemo2019        -1.508***                      -1.680***
##                     (0.194)                        (0.222) 
##                                                            
## Infla2019                      0.002*              0.002*  
##                                (0.001)             (0.001) 
##                                                            
## hdi_2019                      2.136***            1.783*** 
##                                (0.368)             (0.588) 
##                                                            
## CPI2019                       -0.016***             0.001  
##                                (0.003)             (0.005) 
##                                                            
## PobUnemp2019                             -0.001     0.008  
##                                          (0.007)   (0.008) 
##                                                            
## Porcentpobreza2019                      -0.006**   -0.0001 
##                                          (0.003)   (0.004) 
##                                                            
## GINI2019                                -0.015*** -0.015** 
##                                          (0.006)   (0.006) 
##                                                            
## Constant            2.255***  0.831***  2.393***  1.632*** 
##                     (0.092)    (0.202)   (0.200)   (0.476) 
##                                                            
## -----------------------------------------------------------
## Observations          130        130       130       130   
## Log Likelihood      -652.535  -699.784  -707.380  -629.614 
## Akaike Inf. Crit.  1,313.069  1,407.568 1,422.760 1,279.228
## ===========================================================
## Note:                           *p<0.1; **p<0.05; ***p<0.01

Tomando el Log Likelihood, podemos observar que el mejor modelo entre los 4 es el último, en el cual se toma todas las variables de la base de datos. Entre los 3 primeros modelos, el mejor es el primero en donde se toma en cuenta el salario mensual en dólares, el PBI per cápita y la calidad de la democracia.

8. Analisis factorial

Observamos la base de datos para poder generar una agrupación de las variables en factores que nos ayuden a reducir de la dimensionalidad de las posibles respuestas y tener valores que pueden explicar más detalladamente el número de protestas por año, pro lo que utilizaremos el analisis factorial.

## 'data.frame':    130 obs. of  11 variables:
##  $ country           : chr  "Angola" "Albania" "Armenia" "Azerbaijan" ...
##  $ PobUnemp2019      : num  7.42 11.47 18.3 4.85 1.59 ...
##  $ mensualsalary2019 : num  3.45e+06 1.47e+09 1.53e+09 1.28e+09 4.83e+07 ...
##  $ Porcentpobreza2019: num  31.1 0.4 1 0.1 65.1 0.1 19.9 30.5 13.5 0.9 ...
##  $ PBIpercapita2019  : num  2178 5396 4605 4806 224 ...
##  $ Infla2019         : num  17.081 1.411 1.443 2.611 -0.687 ...
##  $ hdi_2019          : num  0.595 0.81 0.778 0.761 0.431 0.936 0.53 0.452 0.644 0.81 ...
##  $ GINI2019          : num  51.3 33.2 34.4 33.7 38.6 27.4 47.8 35.3 32.4 40.4 ...
##  $ CPI2019           : int  26 35 42 30 19 75 41 40 26 43 ...
##  $ caldemo2019       : num  0.366 0.488 0.807 0.192 0.158 0.889 0.488 0.708 0.256 0.623 ...
##  $ protestnumber     : int  1 17 2 1 1 6 27 2 5 2 ...

Hay que convertir en numérico las variables número de protestas y percepción de la corrupción

Hay que subsetear la data en la cual señalamos la variable a la cual no queremos realizar dicha indagación, debido a que los indices ya son data de variables agrupadas, con lo que nos quedaremos solamente con 5 variables por factorizar.

Hacemos el cálculo de matriz de correlación:

Exploramos las correlaciones

Al analizar la matriz de correlaciones realizada a las 5 variables que no representan un índice, podemos observar que los bloques correlacionales generados no muestran por si una buena esperanza de realizar un buen análisis factorial.

Hay que observar si podemos factorizar los datos para agruparlos:

## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = corMatrix)
## Overall MSA =  0.45
## MSA for each item = 
##       PobUnemp2019  mensualsalary2019 Porcentpobreza2019   PBIpercapita2019 
##               0.35               0.39               0.46               0.45 
##          Infla2019 
##               0.62

Observando que pueden agruparse el siguiente paso sera verificar la matriz de correlación,para realizar esto podemos utilizar dos pruebas, las cuáles son la matriz identidad y la matriz singular.

## [1] FALSE
## [1] FALSE

A traves de estas 2 pruebas podemos observar que a partir de la prueba tenemos evidencia de que la matriz de correlación posiblemente no sea la más idónea, sin embargo se realizara de todos modos para ver una posible agrupación.

Por lo que tenemos que determinar en cuantos factores o variables latentes podríamos redimensionar la data:

## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.
## Parallel analysis suggests that the number of factors =  1  and the number of components =  NA

Se sugieren dos, por lo que tenemos que redimensionar a un número menor de factores.

Resultado inicial:

## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully
## 
## Loadings:
##                    MR1    MR2   
## PobUnemp2019               0.996
## mensualsalary2019  -0.138 -0.163
## Porcentpobreza2019  1.000       
## PBIpercapita2019   -0.352 -0.143
## Infla2019           0.179       
## 
##                  MR1   MR2
## SS loadings    1.181 1.041
## Proportion Var 0.236 0.208
## Cumulative Var 0.236 0.444

A traves del primer resultado podemos ver que las variables no tiene una gran significacia par apoder ser agrupadas en los grupos de variables, al ser 2 factores debemos de redimensionar la data para observar un mejor resultado.

Resultado mejorado:

## 
## Loadings:
##                    MR1    MR2   
## PobUnemp2019               0.996
## mensualsalary2019               
## Porcentpobreza2019  1.000       
## PBIpercapita2019                
## Infla2019                       
## 
##                  MR1   MR2
## SS loadings    1.181 1.041
## Proportion Var 0.236 0.208
## Cumulative Var 0.236 0.444

A traves de este resultado mejorado observamos que las variables efectivamente no tienen una gran incidencia para poder formar parte de los grupos de factores.

Podemos realizar una visualización de una estructura simple de nuestras variables a utilizar para confirmar esto:

Al observar los resultados obtenidos, vemos que la cantidad de variables que aportaron más a los factores vienen siendo solamente 3, los cuales son la cantidad de población desempleada, el porcentaje de pobreza de cada país y el PBI per cápita, pero esta última teniendo un efecto significativo muy bajo al no ser mayor que 0.4.

Por lo que se puede ver que para el desarrollo de nuestra investigación el análisis factorial no es el método más efectivo ya que las variables no pueden agruparse para reducir la dimensionalidad de las posibles interpretaciones, siendo que están representan diferentes elementos que pueden explicar la problemática de protestas por año.

9. Análisis de Conglomerados

Por último, se este proyecto intentará abordar un análisis de conglomerados para agrupar distintos casos con sus respectivos similares.No obstante, debido a errores en el uso de la estrategia de partición para decidir la cantidad óptima de clusters, se formulará directamente 3 de estos.

Aquí se puede apreciar la base de datos preparada para realizar el análisis de clusters. Esto incluye la matriz de distancias.
PobUnemp2019 Porcentpobreza2019 PBIpercapita2019 Infla2019 hdi_2019 GINI2019 CPI2019 caldemo2019 pam
Angola 7.421 31.1 2177.7990 17.0812152 0.595 51.3 26 0.366 1
Albania 11.470 0.4 5396.2159 1.4110908 0.810 33.2 35 0.488 2
Armenia 18.300 1.0 4604.6463 1.4434466 0.778 34.4 42 0.807 2
Azerbaijan 4.850 0.1 4805.7537 2.6105718 0.761 33.7 30 0.192 2
Burundi 1.589 65.1 223.8629 -0.6867722 0.431 38.6 19 0.158 1
Belgium 5.360 0.1 46599.1113 1.4368196 0.936 27.4 75 0.889 3
Benin 1.470 19.9 1219.5155 -0.7050266 0.530 47.8 41 0.488 1
Burkina Faso 4.693 30.5 796.1152 -3.2333893 0.452 35.3 40 0.708 1
Bangladesh 4.438 13.5 2154.2268 5.5919964 0.644 32.4 26 0.256 1
Bulgaria 4.230 0.9 9879.2685 3.1037294 0.810 40.4 43 0.623 2
Bosnia 15.690 0.1 6119.7624 0.5627822 0.783 33.0 36 0.521 2
Belarus 4.160 0.0 6837.7178 5.5981560 0.817 25.2 45 0.257 2
Bolivia 3.820 1.9 3552.0681 1.8395450 0.717 42.2 31 0.553 2
Brazil 11.930 5.4 8876.0598 3.7329762 0.766 53.9 35 0.676 2
Botswana 22.610 15.4 7247.4295 2.7728644 0.717 53.3 61 0.672 2

En el gráfico se puede apreciar una mayor pertenencia del cluster 3, puesto que sus valores abarcan en mayor medida superan la línea delimitada por el average silhouette width de 0.34. Por otro lado, tanto el cluster 2 como el 1 presentan casos mal clusterizados.

Estos son los países mal clusterizados. Son 9 países los que se encuentran mal clusterizados por esta estrategia de aglomeración por partición usando la función PAM.

## [1] "Costa Rica" "Croatia"    "Ghana"      "Mauritania" "Mauritius" 
## [6] "Nicaragua"  "Poland"     "Tajikistan" "Venezuela"

Por último, se mostrará el promedio de cada cluster según la variable.

##   pam PobUnemp2019 Porcentpobreza2019 PBIpercapita2019 Infla2019  hdi_2019
## 1   1     6.841047         33.4651163         1676.275 18.855480 0.5331163
## 2   2     8.516814          3.0559322         6685.891  3.581886 0.7539492
## 3   3     6.188929          0.2714286        41457.327  1.682177 0.9123571
##   GINI2019  CPI2019 caldemo2019
## 1 42.43023 28.34884   0.3847674
## 2 38.23220 39.10169   0.5312881
## 3 32.14286 69.64286   0.8640357

En este caso, el cuadro muestra que en el primer cluster hay un promedio de aproximadamente 7% de población desempleada y alrededor de un 33% en condiciones de pobreza, seguido de el PBI per cápita más bajo de todos los clusters y la inflación alta. En oposición a ello, en el cluster 3 se puede apreciar que el promedio de población desempleada es menor entre los clusters. Asimismo, un porcentaje de la población en condiciones de pobreza no supera el 1%. Asimismo, cuentan con el PBI per cápita más alto, al igual que el IDH. Por último, con una tasa de inflación que no supera el 2%. Se podría afirmar que los países del cluster 3 cuentan con mejores condiciones de vida respecto de los otros.

10. Conclusiones

A través del análisis realizado por las variables económicas-sociales y ver como estas inciden en el número de protestas, es de suma relevancia evaluar que a través de los resultados evaluados en las regresiones, es que en la última regresión realizada con todas las variables, es que se puede ver que las variables que influyen directamente en el número de protestas es el salario mensual, calidad de la democracia, la desigualdad en los ingresos bajo la escala GINI, el índice de desarrollo humano y variables como la inflación que explican las protestas pero en baja medida. Es por esto por lo que se tiene que poner en relevancia la importancia de estas variables para futuros análisis en los que se tome en cuenta factores como la calidad de la democracia o el IDH debido a que a través de las regresiones realizadas se vio una alta significancia, por lo que hacer más estudios sobre la relación que tienen estos factores frente al número de protestas es de gran importancia.

Por otro lado, al realizar el análisis factorial se puede ver que al intentar generar factores para poder reducir la dimensionalidad de las variables y poder dar un análisis más certero de los resultados es que el generar una agrupación de las 5 variables que no representaban índices no se podían agrupar debido a que cada una explica diferentes dimensiones para explicar esta problemática y no pueden ser abordadas agrupándolas, siendo que 4 de las 9 variables ya representan índices que abordan la problemática cada uno explicando cierta parte de la problemática que genera todas las protestas.

Por último, se pudo observar que, en el análisis de clusters, el tercero fue el que mejor aglomeradaba, a comparación del primero y el segundo. A su vez, este cluster agrupaba a los paises con mejores condiciones de vida.