En ocasión
anterior me referí a un análisis preliminar que estudiaba la existencia de sesgo en las encuestas
electorales venezolanas (ver aquí). En base a una evaluación de elecciones anteriores, que
incluía el referéndum revocatorio, las presidenciales del 2006, el referéndum
del 2007 y las legislativas del 2010, argumenté que las encuestas donde existía
menos sesgo eran aquellas que publicaban información relevante sobre la
metodología utilizada (número de entrevistados, intervalos de confianza, método
de contacto, etc.), sin embargo, también advertí sobre la existencia de un sesgo
sistemático relacionado a las diferentes casas encuestadoras. Es decir, insinué
sobre la existencia de unas encuestadoras cuyos productos presentaban altos
índices de error con respecto a los resultados electorales.
Debido al
número relativamente bajo de encuestas analizadas, 35 en esa oportunidad, me limité a llamar la atención de la existencia de esta
situación anómala en las encuestadoras venezolanas. En esta oportunidad he
logrado aumentar el número de encuestas analizadas a 53 lo cual me permite llegar
a conclusiones más sólidas –estadísticamente hablando-. Utilizaré este espacio
entonces para presentar los hallazgos de este análisis cuya intención es ayudar
en la evaluación más certera de las diferentes encuestas publicadas en nuestros
procesos electorales. Antes de presentar el análisis quisiera recalcar la
problemática existente que es la razón por la cual este estudio es necesario.
El
principio fundamental del método estadístico se basa en la hipótesis de que es
posible hacer una predicción sobre una situación particular usando como origen
una muestra aleatoria de la población a evaluar. Por ejemplo, si hay 100
pelotas en una bolsa y queremos saber el color de las pelotas podríamos hacer
un pronóstico después de sacar 1, 2, 3 o 10 pelotas. En base al número de
pelotas que saquemos y a la cantidad de diferentes colores podríamos generalizar
sobre el total de 100 pelotas. En principio si se repite este experimento los
resultados deberían ser relativamente similares.
Este mismo
principio de generalizar el color de las pelotas en base a una muestra es el
que está detrás de una encuesta. En una esta se selecciona aleatoriamente un
subgrupo de la población y se hace una predicción en base a lo que la muestra
indica. Si 60 personas de 100 indican que votarán por el candidato A entonces
se podría concluir que el 60% de la población votaría por A, con cierto grado
de error. Igual que en el caso de las pelotas, si varias encuestadoras realizan
este ejercicio los resultados deberían ser similares estadísticamente. Sin
embargo, ese no es el caso en Venezuela. Al observar una muestra de las
encuestas que se han hecho públicas en los últimos meses sobre las elecciones
presidenciales del 2012 podemos observar diferencias muy grandes entre diversas
casas consultoras. Estas diferencias pueden llegar a ser de casi 30 puntos
porcentuales –muy lejos de cualquier margen de error-.En base a esta situación
cabe preguntarse: ¿qué genera esta diferencia?
Cuando
existen diferencias entre diversas encuestas las principales causas suelen ser
diferencias en las fechas de campo, el número de participantes, la metodología
de selección de participantes (aleatoria, por cuotas, etc.), la forma de
contactar a los participantes (teléfono, personal, etc.). Una vez se descartan
estos factores podemos inferir que las diferencias radican en las casas
encuestadoras. Particularmente en la
forma en que estas obtienen sus datos o los analizan. En general esto no
representa un problema si es un incidente aislado, sin embargo, cuando el error
esta presente en todas las encuestas de una misma encuestadora entonces podemos
hablar dela presencia de un sesgo sistemático.
Ante esta problemática considero oportuno la creación de un barómetro para
medir encuestas y calificar encuestadoras en base a “zonas de confiabilidad”.
Particularmente útil en este objetivo es el Encuestómetro de la fundación Liderazgo y Visión de Venezuela. Esta
es una herramienta que nos permite
evaluar la calidad de las diferentes encuestas que se hacen públicas. El Encuestómetro utiliza diez variables como requisito para
determinar si una encuesta es confiable.
1. Población definida
2. Método de recolección de datos
3. Método de muestreo
4. Ente que paga por la encuesta
5. Datos de la muestra (Número de entrevistados, Nivel de Confianza, Error)
6. Ubicación Geográfica
7. Cuestionario
8. Porcentaje de Rechazo
9. Fechas de campo
10. Trayectoria de la Firma
Basado en un modelo estadístico en el que se incluyen la mayoría de estas diez variables es posible obtener las desviaciones sistemáticas de cada casa encuestadora. Con este propósito se evaluó un total de 51 encuestas, determinando si cumplían o no cada uno de los requisitos y se estimó que tan grande fue la diferencia entre la encuesta y el resultado electoral, sin importar a que tendencia beneficiaba esta brecha. Es importante destacar que este análisis es únicamente de sesgo y no de la tendencia de ese sesgo.
Tabla 1
La Tabla 1
muestra el promedio del error de las encuestas de cara a cuatro procesos
electorales (el referéndum revocatorio, las presidenciales de 2006, el
referéndum del 2007 y las elecciones de la Asamblea Nacional del 2010) así como
sus valores mínimos y máximos para cada proceso electoral. Como se puede ver
las encuestas previas al RR2004 son las que tuvieron -en promedio- un error más
grande, seguidas por las encuestas previas al Referéndum del 2007. Sin embargo,
a pesar de que los errores promedio están en el rango de los 5 puntos
porcentuales, hay encuestas con errores de hasta casi 15 puntos.
Al realizar el análisis estadístico los resultados muestran varias conclusiones
interesantes.
- En promedio, las
encuestas que no publican ningún tipo de información tienen una diferencia de
casi 20 puntos porcentuales entre la predicción y el resultado de la elección.
- De los diez
indicadores 3 son particularmente útiles en ayudarnos a determinar la
confiabilidad de una encuesta, estos son:
- que se reporten datos de la
encuesta como el número de encuestados (indicador 5)
- que se reporten las técnicas
de muestreo (indicador 3)
- que se reporten las fechas de campo (indicador 9).
- Los otros 7 indicadores parecen no tener influencia en la desviación. Esto no es indicativo de que no son importantes, pues por el contrario puede deberse a que son indicadores altamente reportados y con poca o ninguna variación (indicadores 2 y 4), son aquellos que nadie reporta (indicador 8), o son difíciles de evaluar (indicador 10).
- Finalmente, se
muestra la presencia de desviaciones sistemáticas presentes en las encuestas de
diferentes encuestadoras. Por ejemplo, las casas encuestadoras poco conocidas
tienen un promedio de error de 20% entre la predicción y el resultado de la elección.
Este último resultado
corrobora los hallazgos del análisis reportado en oportunidad anterior. En base
a estos resultados de desviaciones sistemáticas propongo la utilización de un
índice de confiabilidad. Este índice permite clasificar a las encuestadoras en
base a tres zonas de riesgo:
- Zona 1: Aquellas
encuestadoras cuyo sesgo sistemático no pasa de los cinco (5) puntos porcentuales;
- Zona 2: Aquellas encuestadoras cuyo sesgo se encuentra
entre los cinco (5) y diez (10) puntos porcentuales;
- Zona 3: Aquellas
encuestadoras cuyo sesgo es mayor a los diez (10) puntos porcentuales.
La figura 1 muestra la estimación de sesgo
para cada casa encuestadora y la zona de confiabilidad en donde se ubican. Podemos ver, por ejemplo, que las
encuestadoras Hinterlaces, Keller y Varianzas son las tres menos sesgadas.
Mientras que GISXXI y otras encuestadoras menores (como por ejemplo Consultores 30.11) son las encuestadoras que
cuentan con un mayor sesgo sistemático.
Figura 1
En conclusión, a pesar de que las encuestas deben capturar las
tendencias en momentos específicos de la realidad política se da el caso que
varias casas encuestadoras muestran estimaciones muy diferentes realizadas en
el mismo periodo de tiempo. Aunque esta situación no debería ser
estadísticamente posible, la realidad es distinta y a medida que nos adentramos
en procesos electorales la necesidad de parecer ganador fomenta el uso y abuso
de estas encuestas contribuyendo al clima de polarización e inestabilidad.
Personalmente considero que esto va en detrimento de una competencia electoral
sana en donde la confianza en la transparencia del proceso electoral es
necesaria. Cuando existen encuestas muy disimiles siempre habrá quien argumente
que hubo fraude luego de la elección sin importar los pasos que se lleven
adelante para garantizar el resultado electoral. Este análisis muestra que es
posible estimar que tan confiables pueden ser las diferentes encuestas en base
a diferentes indicadores utilizando procesos electorales pasados como
referencia.
Basados
en este análisis podemos revisar las predicciones de estas encuestadoras de cara a la elección presidencial 2012. La
figura 2 muestra el promedio de la intención de voto reportado tanto para
Chávez como para Capriles-Radonski (es importante mencionar que la mayoría de
las encuestas usadas aquí son previas a las primarias y por lo tanto en base a
un candidato opositor genérico). Como se puede observar las encuestadoras de la
zona 1 dan un escenario promedio de 55-45, las encuestas de la zona 2 dan un
escenario más cerrado de 51-49 y finalmente las encuestas de la zona 3 dan un
escenario de 70-30. A partir de mañana mostraré las tendencias por zona con unos números interesantes.
Saque
usted sus conclusiones!
Figura 2