YV Polis: Como saber si una encuesta es confiable?

En ocasión anterior me referí a un análisis preliminar que estudiaba la existencia de sesgo en las encuestas electorales venezolanas (ver aquí). En base a una evaluación de elecciones anteriores, que incluía el referéndum revocatorio, las presidenciales del 2006, el referéndum del 2007 y las legislativas del 2010, argumenté que las encuestas donde existía menos sesgo eran aquellas que publicaban información relevante sobre la metodología utilizada (número de entrevistados, intervalos de confianza, método de contacto, etc.), sin embargo, también advertí sobre la existencia de un sesgo sistemático relacionado a las diferentes casas encuestadoras. Es decir, insinué sobre la existencia de unas encuestadoras cuyos productos presentaban altos índices de error con respecto a los resultados electorales.

Debido al número relativamente bajo de encuestas analizadas, 35 en esa oportunidad, me limité a llamar la atención de la existencia de esta situación anómala en las encuestadoras venezolanas. En esta oportunidad he logrado aumentar el número de encuestas analizadas a 53 lo cual me permite llegar a conclusiones más sólidas –estadísticamente hablando-. Utilizaré este espacio entonces para presentar los hallazgos de este análisis cuya intención es ayudar en la evaluación más certera de las diferentes encuestas publicadas en nuestros procesos electorales. Antes de presentar el análisis quisiera recalcar la problemática existente que es la razón por la cual este estudio es necesario.

El principio fundamental del método estadístico se basa en la hipótesis de que es posible hacer una predicción sobre una situación particular usando como origen una muestra aleatoria de la población a evaluar. Por ejemplo, si hay 100 pelotas en una bolsa y queremos saber el color de las pelotas podríamos hacer un pronóstico después de sacar 1, 2, 3 o 10 pelotas. En base al número de pelotas que saquemos y a la cantidad de diferentes colores podríamos generalizar sobre el total de 100 pelotas. En principio si se repite este experimento los resultados deberían ser relativamente similares.

Este mismo principio de generalizar el color de las pelotas en base a una muestra es el que está detrás de una encuesta. En una esta se selecciona aleatoriamente un subgrupo de la población y se hace una predicción en base a lo que la muestra indica. Si 60 personas de 100 indican que votarán por el candidato A entonces se podría concluir que el 60% de la población votaría por A, con cierto grado de error. Igual que en el caso de las pelotas, si varias encuestadoras realizan este ejercicio los resultados deberían ser similares estadísticamente. Sin embargo, ese no es el caso en Venezuela. Al observar una muestra de las encuestas que se han hecho públicas en los últimos meses sobre las elecciones presidenciales del 2012 podemos observar diferencias muy grandes entre diversas casas consultoras. Estas diferencias pueden llegar a ser de casi 30 puntos porcentuales –muy lejos de cualquier margen de error-.En base a esta situación cabe preguntarse: ¿qué genera esta diferencia?

Cuando existen diferencias entre diversas encuestas las principales causas suelen ser diferencias en las fechas de campo, el número de participantes, la metodología de selección de participantes (aleatoria, por cuotas, etc.), la forma de contactar a los participantes (teléfono, personal, etc.). Una vez se descartan estos factores podemos inferir que las diferencias radican en las casas encuestadoras. Particularmente en la forma en que estas obtienen sus datos o los analizan. En general esto no representa un problema si es un incidente aislado, sin embargo, cuando el error esta presente en todas las encuestas de una misma encuestadora entonces podemos hablar dela presencia de un sesgo sistemático.

Ante esta problemática considero oportuno la creación de un barómetro para medir encuestas y calificar encuestadoras en base a “zonas de confiabilidad”. Particularmente útil en este objetivo es el Encuestómetro de la fundación Liderazgo y Visión de Venezuela. Esta es una herramienta que nos permite evaluar la calidad de las diferentes encuestas que se hacen públicas. El Encuestómetro utiliza diez variables como requisito para determinar si una encuesta es confiable.

1. Población definida

2. Método de recolección de datos

3. Método de muestreo

4. Ente que paga por la encuesta

5. Datos de la muestra (Número de entrevistados, Nivel de Confianza, Error)

6. Ubicación Geográfica

7. Cuestionario

8. Porcentaje de Rechazo

9. Fechas de campo

10. Trayectoria de la Firma

Basado en un modelo estadístico en el que se incluyen la mayoría de estas diez variables es posible obtener las desviaciones sistemáticas de cada casa encuestadora. Con este propósito se evaluó un total de 51 encuestas, determinando si cumplían o no cada uno de los requisitos y se estimó que tan grande fue la diferencia entre la encuesta y el resultado electoral, sin importar a que tendencia beneficiaba esta brecha. Es importante destacar que este análisis es únicamente de sesgo y no de la tendencia de ese sesgo.

Tabla 1

La Tabla 1 muestra el promedio del error de las encuestas de cara a cuatro procesos electorales (el referéndum revocatorio, las presidenciales de 2006, el referéndum del 2007 y las elecciones de la Asamblea Nacional del 2010) así como sus valores mínimos y máximos para cada proceso electoral. Como se puede ver las encuestas previas al RR2004 son las que tuvieron -en promedio- un error más grande, seguidas por las encuestas previas al Referéndum del 2007. Sin embargo, a pesar de que los errores promedio están en el rango de los 5 puntos porcentuales, hay encuestas con errores de hasta casi 15 puntos.

Al realizar el análisis estadístico los resultados muestran varias conclusiones interesantes.

En promedio, las encuestas que no publican ningún tipo de información tienen una diferencia de casi 20 puntos porcentuales entre la predicción y el resultado de la elección.
De los diez indicadores 3 son particularmente útiles en ayudarnos a determinar la confiabilidad de una encuesta, estos son:

que se reporten datos de la encuesta como el número de encuestados (indicador 5)

que se reporten las técnicas de muestreo (indicador 3)

que se reporten las fechas de campo (indicador 9).

Los otros 7 indicadores parecen no tener influencia en la desviación. Esto no es indicativo de que no son importantes, pues por el contrario puede deberse a que son indicadores altamente reportados y con poca o ninguna variación (indicadores 2 y 4), son aquellos que nadie reporta (indicador 8), o son difíciles de evaluar (indicador 10).

Finalmente, se muestra la presencia de desviaciones sistemáticas presentes en las encuestas de diferentes encuestadoras. Por ejemplo, las casas encuestadoras poco conocidas tienen un promedio de error de 20% entre la predicción y el resultado de la elección.

Este último resultado corrobora los hallazgos del análisis reportado en oportunidad anterior. En base a estos resultados de desviaciones sistemáticas propongo la utilización de un índice de confiabilidad. Este índice permite clasificar a las encuestadoras en base a tres zonas de riesgo:

Zona 1: Aquellas encuestadoras cuyo sesgo sistemático no pasa de los cinco (5) puntos porcentuales;
Zona 2: Aquellas encuestadoras cuyo sesgo se encuentra entre los cinco (5) y diez (10) puntos porcentuales;
Zona 3: Aquellas encuestadoras cuyo sesgo es mayor a los diez (10) puntos porcentuales.

La figura 1 muestra la estimación de sesgo para cada casa encuestadora y la zona de confiabilidad en donde se ubican. Podemos ver, por ejemplo, que las encuestadoras Hinterlaces, Keller y Varianzas son las tres menos sesgadas. Mientras que GISXXI y otras encuestadoras menores (como por ejemplo Consultores 30.11) son las encuestadoras que cuentan con un mayor sesgo sistemático.

Figura 1

En conclusión, a pesar de que las encuestas deben capturar las tendencias en momentos específicos de la realidad política se da el caso que varias casas encuestadoras muestran estimaciones muy diferentes realizadas en el mismo periodo de tiempo. Aunque esta situación no debería ser estadísticamente posible, la realidad es distinta y a medida que nos adentramos en procesos electorales la necesidad de parecer ganador fomenta el uso y abuso de estas encuestas contribuyendo al clima de polarización e inestabilidad. Personalmente considero que esto va en detrimento de una competencia electoral sana en donde la confianza en la transparencia del proceso electoral es necesaria. Cuando existen encuestas muy disimiles siempre habrá quien argumente que hubo fraude luego de la elección sin importar los pasos que se lleven adelante para garantizar el resultado electoral. Este análisis muestra que es posible estimar que tan confiables pueden ser las diferentes encuestas en base a diferentes indicadores utilizando procesos electorales pasados como referencia.

Basados en este análisis podemos revisar las predicciones de estas encuestadoras de cara a la elección presidencial 2012. La figura 2 muestra el promedio de la intención de voto reportado tanto para Chávez como para Capriles-Radonski (es importante mencionar que la mayoría de las encuestas usadas aquí son previas a las primarias y por lo tanto en base a un candidato opositor genérico). Como se puede observar las encuestadoras de la zona 1 dan un escenario promedio de 55-45, las encuestas de la zona 2 dan un escenario más cerrado de 51-49 y finalmente las encuestas de la zona 3 dan un escenario de 70-30. A partir de mañana mostraré las tendencias por zona con unos números interesantes.

Saque usted sus conclusiones!

Figura 2

YV Polis

21 mayo 2012

Como saber si una encuesta es confiable? – Parte 2

No hay comentarios.:

Publicar un comentario