02 abril 2012

Los errores de las encuestas para las primarias


Finalmente me senté a revisar las encuestas de las primarias a mi disposición comparándolas  con los resultados reales (reportados por el CNE). Antes de continuar aclaro que sólo tengo encuestas publicadas en 2011 y nada publicado en enero o febrero del 2012. Sin embargo, creo que igual son datos que sirven para analizar el desempeño de las diferentes encuestadoras más aún en el actual clima de guerra de encuestas en el que nos encontramos. 


En total 25 encuestas de 6 encuestadoras fueron analizadas. Aquí pueden ver las encuestas en un gráfico.




Que tanto acertaron las distintas encuestadoras?



La siguiente tabla muestra el número de veces que las encuestas dieron a Henrique Capriles-Radonski (cuando se le suma la intención de voto por Leopoldo López) a 5 o menos puntos de diferencia del resultado real, entre 5 y 15 puntos de diferencia y a más de 15 puntos de diferencia. Igual para Pablo Pérez (la segunda de las tablas). Como se puede observar sólo un número reducido de encuestas (6 para HCR y 5 para PP) logró estar a 5 o menos puntos de diferencia.



Fueron los errores iguales para ambos candidatos?

Una pregunta importante después de ver que que tanto se equivocaron las encuestas es saber si estos errores fueron iguales para ambos candidatos. Esto lo digo porque en un contexto de dos candidatos hay tres tipos de formas de cometer error:
a) Errores similares para ambos candidatos. Es decir que si una encuesta, comparada con el porcentaje de votos reales, dio 5 puntos más a un candidato, le dio 5 puntos menos al otro.
b) Errores inversos para los candidatos. Es decir, mientras más se equivocaba en un candidato menos se equivocaba con el otro. 
c) Error constante para uno y variable para otro candidato. Es decir, con un candidato acertó el resultado mientras que con el otro no.


Para ver estos comportamientos realicé un análisis en dos etapas. Primero comparé que tanto se equivocaron el conjunto de las encuestas para cada candidato y segundo evalué el comportamiento de las encuestas por casa encuestadora para ver si existen patrones diferentes para cada una.


Comparando la diferencia de votos estimados y reales


La primera etapa consistió en ver que tan lejos estuvieron las encuestas de la realidad electoral comparando la diferencia entre el porcentaje de votos obtenido por Henrique Capriles Radonski (60.39%) y los números de cada una de las encuestas. Lo mismo para el candidato de UNT (y cia.) Pablo Pérez quien obtuvo 30.69%. Estas medidas obtenidas van de 0 a 44 puntos, esto significa que mientras algunas encuestas básicamente acertaron los resultados otras se pelaron por bastante. Debido a que las encuestas analizadas se hicieron antes de la alianza entre Leopoldo López y Capriles Radonski analicé también la diferencia entre el porcentaje de votos de Capriles y la suma de los porcentajes de intención de voto de Capriles y López. La siguiente tabla muestra algunas medidas estadísticas de estas tres variables.


Como se puede observar el error promedio de Intención de voto vs. Porcentaje de votos fue de 13.75 puntos para Pablo Pérez, de casi 28 puntos para Capriles Radonski, pero de 17 puntos para Capriles Radonski cuando se le suma la intención de voto de Leopoldo López. 

Esta figura muestra un poco mejor estas relaciones. Cada punto en el grafico es la comparación del error de una encuesta con respecto a Capriles vs el error con respecto a Pablo Pérez.

En un mundo ideal la tendencia del error seria una línea inclinada que indique que la encuesta se equivocó igual para ambos candidatos. Otras opciones serían una línea recta que indicaría que las encuestas variaron en el error de un candidato mientras que no variaron para el otro. Una tercera alternativa sería una relación inversas, a mayor error de un candidato menor del otro (esta es un poco más difícil que ocurra pero puede suceder en caso por ejemplo de que lo que este cambiando sean los indecisos).

Como se puede ver en la gráfica la relación del conjunto de las encuestas es bastante buena a medida que aumenta el error para un candidato aumenta para el otro. Sin embargo hay dos encuestas que rompen un poco con este patrón de “igualdad de errores”. Estas dos son los dos puntos negros (que indican encuestas de datanalisis) cerca del 20. Como da a entender la grafica estas dos encuestas tuvieron un mayor error para Pablo Pérez que para Henrique Capriles.

Es importante destacar que cuando se evalúa la diferencia entre la alianza Capriles-Leopoldo y Pablo Pérez los resultados son similares.                                        


Todas las encuestadoras se equivocaron igual?

La segunda parte del análisis consistió en revisar los errores por casa encuestadora. En la siguiente figura podemos ver parte de este análisis.  En este gráfico hay dos datos resaltantes. El primer hecho resaltante es que hay una encuestadora (Datanalisis) que tiene un patrón de errores completamente distinto al resto. Este patrón consiste en que a mayor el error hacia Capriles Radonski y menor el error hacia Pablo Pérez, y viceversa. El segundo dato relevante es que hay dos encuestadoras (IVAD y Keller) cuyos errores son bastante elevados tanto para Capriles como para Pablo Perez.

Esto ultimo queda resaltado cuando se realiza un analisis estadístico del error. Los resultados de este modelo lineal dicen lo siguiente:
1)      No existe relación entre el error hacia Pablo Pérez y hacia Henrique Capriles.
2)      Las encuestadoras IVAD y Keller dan mayor error a Capriles Radonski que el resto de las encuestadoras (19 y 16 puntos respectivamente).
3)      Cuando se considera solo la intención de voto para Henrique Capriles las encuestadoras tuvieron un error promedio de 17 puntos, sin embargo al considerar la alianza Capriles-Leopoldo el erro promedio bajó a 0.

A quien desee ver los resultados específicos del modelo aquí le dejo la tabla del análisis. Si quieren más detalle me pueden mandar un mensaje.

* Significa que estadísticamente significativo de 0.