31 mayo 2012

Combinando las Encuestas - Entrega 5


Ya termina el último mes de la pre-campaña hacia las elecciones presidenciales -dado que en Junio se inscriben las candidaturas y sabremos oficialmente que caras veremos en el tarjetón en Octubre-. Aprovecho entonces para hacer una vez más mi análisis de la evolución de los sondeos de opinión publica de cara a estas presidenciales. Para este momento ya cuento con 62 encuestas de más de 10 encuestadoras que dan números sumamente disímiles cosa que hace este ejercicio aún más interesante.

Voy a resumir mis hallazgos para aquellos que quieren que vaya al grano:
-          Actualmente la tendencia de las encuestas indica que el Presidente Chávez tiene cerca del 54% de intención de voto, mientras que el candidato de la oposición Henrique Capriles Radonski tiene cerca de 46%.
-          Sin embargo, el error de 5% hace que esta diferencia NO sea diferente de cero. Es decir hay un EMPATE TECNICO.
-          De las más de diez (10) encuestadoras solo tres (3) están haciendo estimaciones apegadas a la  realidad. El resto tienen o sesgos oficialistas o sesgos opositores.
Figura 1


Como se puede observar en la figura anterior (figura 1) el promedio de las encuestas (obtenido igual que en la entrega número 4) ha tenido cierta variación desde principios de 2011. Sin embargo, a pesar de que existen periodos en los que uno de los dos polos políticos se encuentra por encima en las preferencias del electorado los periodos en los que estas diferencias son “estadísticamente significativas” (es decir hay espacios blancos!) son pocos. La mayor parte de los 17 meses transcurridos hasta ahora se encuentra en gris lo que significa que por más que una fuerza esté por encima existe un empate técnico.  Ese es el punto en el que nos encontramos actualmente a días de comenzar oficialmente la carrera por Miraflores.
Figura 2


Cuando evaluamos que tan cerca o lejos están las diferentes casas encuestadoras de este  valor promediado obtenemos los resultados de la figura 2. Estos resultados indican la existencia de sesgo pro-oficialista de cinco puntos en el caso de la encuestadora IVAD, de diez puntos en el caso de ICS y Consultores 30.11 y de 15 puntos en el caso de GISXXI. Observamos también la existencia de sesgo pro-opositor de 5 puntos en el caso de Consultores 21 y la encuestadora Keller y de 10 puntos de otras encuestadoras de reciente data (como Predicmatica). Finalmente solo tres encuestadoras reflejan números similares a los del análisis estadístico estas son: Datanalisis, Hinterlaces y Varianzas.
Veremos como sigue esta evolucion dentro de un par de meses, mientras tanto cada vez que veas una encuesta duda!

21 mayo 2012

Como saber si una encuesta es confiable? – Parte 2


En ocasión anterior me referí a un análisis preliminar que estudiaba  la existencia de sesgo en las encuestas electorales venezolanas (ver aquí). En base a una evaluación de elecciones anteriores, que incluía el referéndum revocatorio, las presidenciales del 2006, el referéndum del 2007 y las legislativas del 2010, argumenté que las encuestas donde existía menos sesgo eran aquellas que publicaban información relevante sobre la metodología utilizada (número de entrevistados, intervalos de confianza, método de contacto, etc.), sin embargo, también advertí sobre la existencia de un sesgo sistemático relacionado a las diferentes casas encuestadoras. Es decir, insinué sobre la existencia de unas encuestadoras cuyos productos presentaban altos índices de error con respecto a los resultados electorales.

Debido al número relativamente bajo de encuestas analizadas, 35 en esa oportunidad, me limité  a llamar la atención de la existencia de esta situación anómala en las encuestadoras venezolanas. En esta oportunidad he logrado aumentar el número de encuestas analizadas a 53 lo cual me permite llegar a conclusiones más sólidas –estadísticamente hablando-. Utilizaré este espacio entonces para presentar los hallazgos de este análisis cuya intención es ayudar en la evaluación más certera de las diferentes encuestas publicadas en nuestros procesos electorales. Antes de presentar el análisis quisiera recalcar la problemática existente que es la razón por la cual este estudio es necesario.

El principio fundamental del método estadístico se basa en la hipótesis de que es posible hacer una predicción sobre una situación particular usando como origen una muestra aleatoria de la población a evaluar. Por ejemplo, si hay 100 pelotas en una bolsa y queremos saber el color de las pelotas podríamos hacer un pronóstico después de sacar 1, 2, 3 o 10 pelotas. En base al número de pelotas que saquemos y a la cantidad de diferentes colores podríamos generalizar sobre el total de 100 pelotas. En principio si se repite este experimento los resultados deberían ser relativamente similares.

Este mismo principio de generalizar el color de las pelotas en base a una muestra es el que está detrás de una encuesta. En una esta se selecciona aleatoriamente un subgrupo de la población y se hace una predicción en base a lo que la muestra indica. Si 60 personas de 100 indican que votarán por el candidato A entonces se podría concluir que el 60% de la población votaría por A, con cierto grado de error. Igual que en el caso de las pelotas, si varias encuestadoras realizan este ejercicio los resultados deberían ser similares estadísticamente. Sin embargo, ese no es el caso en Venezuela. Al observar una muestra de las encuestas que se han hecho públicas en los últimos meses sobre las elecciones presidenciales del 2012 podemos observar diferencias muy grandes entre diversas casas consultoras. Estas diferencias pueden llegar a ser de casi 30 puntos porcentuales –muy lejos de cualquier margen de error-.En base a esta situación cabe preguntarse: ¿qué genera esta diferencia?

Cuando existen diferencias entre diversas encuestas las principales causas suelen ser diferencias en las fechas de campo, el número de participantes, la metodología de selección de participantes (aleatoria, por cuotas, etc.), la forma de contactar a los participantes (teléfono, personal, etc.). Una vez se descartan estos factores podemos inferir que las diferencias radican en las casas encuestadoras. Particularmente en  la forma en que estas obtienen sus datos o los analizan. En general esto no representa un problema si es un incidente aislado, sin embargo, cuando el error esta presente en todas las encuestas de una misma encuestadora entonces podemos hablar dela presencia de un sesgo sistemático.

Ante esta problemática considero oportuno la creación de un barómetro para medir encuestas y calificar encuestadoras en base a “zonas de confiabilidad”. Particularmente útil en este objetivo es el Encuestómetro de la fundación Liderazgo y Visión de Venezuela. Esta es una herramienta  que nos permite evaluar la calidad de las diferentes encuestas que se hacen públicas.  El Encuestómetro  utiliza diez variables como requisito para determinar si una encuesta es confiable.



1.       Población definida
2.       Método de recolección de datos
3.       Método de muestreo
4.       Ente que paga por la encuesta
5.       Datos de la muestra (Número de entrevistados, Nivel de Confianza, Error)
6.       Ubicación Geográfica
7.       Cuestionario
8.       Porcentaje de Rechazo
9.       Fechas de campo
10.   Trayectoria de la Firma


Basado en un modelo estadístico en el que se incluyen la mayoría de estas diez variables es posible obtener las desviaciones sistemáticas de cada casa encuestadora.  Con este propósito se evaluó un total de 51 encuestas, determinando si cumplían o no cada uno de los requisitos y se estimó que tan grande fue la diferencia entre la encuesta y el resultado electoral, sin importar a que tendencia beneficiaba esta brecha. Es importante destacar que este análisis es únicamente de sesgo y no de la tendencia de ese sesgo.

Tabla 1





La Tabla 1 muestra el promedio del error de las encuestas de cara a cuatro procesos electorales (el referéndum revocatorio, las presidenciales de 2006, el referéndum del 2007 y las elecciones de la Asamblea Nacional del 2010) así como sus valores mínimos y máximos para cada proceso electoral. Como se puede ver las encuestas previas al RR2004 son las que tuvieron -en promedio- un error más grande, seguidas por las encuestas previas al Referéndum del 2007. Sin embargo, a pesar de que los errores promedio están en el rango de los 5 puntos porcentuales, hay encuestas con errores de hasta casi 15 puntos.
Al realizar el análisis estadístico los resultados muestran varias conclusiones interesantes.

  • En promedio, las encuestas que no publican ningún tipo de información tienen una diferencia de casi 20 puntos porcentuales entre la predicción y el resultado de la elección.
  • De los diez indicadores 3 son particularmente útiles en ayudarnos a determinar la confiabilidad de una encuesta, estos son:   
  1. que se reporten datos de la encuesta como el número de encuestados (indicador 5)
  2. que se reporten las técnicas de muestreo (indicador 3)
  3. que se reporten las fechas de campo (indicador 9).  
  • Los otros 7 indicadores parecen no tener influencia en la desviación. Esto no es indicativo de que no son importantes, pues por el contrario puede deberse a que son indicadores altamente reportados y con poca o ninguna variación (indicadores 2 y 4), son aquellos que nadie reporta (indicador 8), o son difíciles de evaluar (indicador 10).
  • Finalmente, se muestra la presencia de desviaciones sistemáticas presentes en las encuestas de diferentes encuestadoras. Por ejemplo, las casas encuestadoras poco conocidas tienen un promedio de error de 20% entre la predicción y el resultado de la elección.


Este último resultado corrobora los hallazgos del análisis reportado en oportunidad anterior. En base a estos resultados de desviaciones sistemáticas propongo la utilización de un índice de confiabilidad. Este índice permite clasificar a las encuestadoras en base a tres zonas de riesgo:
  •                 Zona 1: Aquellas encuestadoras cuyo sesgo sistemático no pasa de los  cinco (5) puntos porcentuales;
  •             Zona 2:  Aquellas encuestadoras cuyo sesgo se encuentra entre los cinco (5) y diez (10) puntos porcentuales;
  •         Zona 3: Aquellas encuestadoras cuyo sesgo es mayor a los diez (10) puntos porcentuales.


La figura 1 muestra la estimación de sesgo para cada casa encuestadora y la zona de confiabilidad en donde  se ubican. Podemos ver, por ejemplo, que las encuestadoras Hinterlaces, Keller y Varianzas son las tres menos sesgadas. Mientras que GISXXI y otras encuestadoras menores (como por ejemplo  Consultores 30.11) son las encuestadoras que cuentan con un mayor sesgo sistemático.



Figura 1


En conclusión, a pesar de que las encuestas deben capturar las tendencias en momentos específicos de la realidad política se da el caso que varias casas encuestadoras muestran estimaciones muy diferentes realizadas en el mismo periodo de tiempo. Aunque esta situación no debería ser estadísticamente posible, la realidad es distinta y a medida que nos adentramos en procesos electorales la necesidad de parecer ganador fomenta el uso y abuso de estas encuestas contribuyendo al clima de polarización e inestabilidad. Personalmente considero que esto va en detrimento de una competencia electoral sana en donde la confianza en la transparencia del proceso electoral es necesaria. Cuando existen encuestas muy disimiles siempre habrá quien argumente que hubo fraude luego de la elección sin importar los pasos que se lleven adelante para garantizar el resultado electoral. Este análisis muestra que es posible estimar que tan confiables pueden ser las diferentes encuestas en base a diferentes indicadores utilizando procesos electorales pasados como referencia.


Basados en este análisis podemos revisar las predicciones de estas encuestadoras  de cara a la elección presidencial  2012.  La figura 2 muestra el promedio de la intención de voto reportado tanto para Chávez como para Capriles-Radonski (es importante mencionar que la mayoría de las encuestas usadas aquí son previas a las primarias y por lo tanto en base a un candidato opositor genérico). Como se puede observar las encuestadoras de la zona 1 dan un escenario promedio de 55-45, las encuestas de la zona 2 dan un escenario más cerrado de 51-49 y finalmente las encuestas de la zona 3 dan un escenario de 70-30.  A partir de mañana mostraré las tendencias por zona con unos números interesantes.

Saque usted sus conclusiones!

Figura 2





11 mayo 2012

Los jefes de campaña

Mucho se habla de lo que dicen los candidatos presidenciales y de que tanto se mantienen dentro del "guión" de la campaña. Esto tiene su lógica en que el que se está presentando a la elección es el mismo. Sin embargo, no es el único actor importante de una campaña electoral. El segundo en importancia, a mi parecer, es el jefe de campaña. Este está encargado de dirigir y coordinar la campaña electoral y todos sus aspectos relacionados (financiamiento, mensaje, estrategia, organización, etc). Por lo tanto decidí ver qué dicen los jefes de las dos campañas en twitter. Para esta campaña presidencial el jefe del comando de campaña oficialista es Jorge Rodríguez (@jorgerpsuv), y el jefe del comando de campaña de opositor es Armando Briquet (@Armando_Briquet).




Que tanto hablan?


Lo primero que es importante determinar es que tanto hablan en twitter y cuando han hablado. Si sumamos todos los tweets de cada uno y nos fijamos cuando empezaron podemos observar como Jorge Rodríguez ha escrito casi el doble de tweets que Armando Briquet. Esto a pesar de que Briquet comenzó a escribir 6 meses antes que Rodríguez.





@Armando_Briquet
@jorgerpsuv
Número de tweets
6,849
12,097
Primer tweet
10jul2009
29jan2010
Ultimo tweet
23apr2012
30mar2012




Al hacer seguimiento en el tiempo podemos observar como la mayoría de los tweets de Jorge Rodríguez fueron escritos durante 2010, mientras que Briquet ha estado más activo este 2012. Sin embargo, pareciera ser el caso que Rodríguez está comenzando a retomar su presencia en twitter a raíz de su nombramiento como Jefe de Campaña de Chávez.











































Que dicen?

Después de ver que tanto hablan (o tuitean)  lo interesante es saber que escriben y que tan apegados están al mensaje de la campaña que están dirigiendo.

- Armando Briquet (@Armando_Briquet):

El hecho de que la mayoría de sus tweets hayan sido escritos en 2012, después de que su rol ha sido definido, ayuda a la coherencia que se ve entre el contenido de lo que escribe y el mensaje de la campaña. Frases como "Hay un Camino", "Para todos por igual", "Comando Tricolor" y palabras claramente identificables con la campaña de Henrique Capriles como progreso forman parte predominante de sus tweets.


- Jorge Rodriguez (@jorgerpsuv):


Al contrario de Briquet, Jorge Rodríguez no ha tenido tanta presencia en twitter durante el 2012. La mayoría de sus tweets por el contrario son del año 2010. Este hecho ayuda a que muchas de sus palabras más frecuentes no estén dentro del léxico de la campaña a la reelección de Hugo Chávez. Sin embargo, al revisar las palabras usadas solo en el 2012 tampoco hay mucha similaridad con el lenguaje de la campaña estando únicamente "Chávez", "venceremos" y "carabobo" presentes en las diez palabras más comunes en este año. Así pues daría la impresión que o el jefe de campaña no está comunicando el mensaje ó el mensaje no está definido y por lo tanto no hay nada claro que comunicar.




El próximo mes volveré a revisar esto a ver si cambia el panorama... aquí les dejo las diez palabras más frecuentes de ambas cuentas de twitter.






@Armando_Briquet
@jorgerpsuv
1
@hcapriles
venceremos
2
#hayuncamino
#venezuela
3
tricolor
cuenta
4
progreso
#caracas
5
todos
mañana
6
comando
@ciudadccs
7
venezuela
saludos
8
camino
pueblo
9
miranda
alcaldia
10
pais
chavez