Así funciona la predicción de Catalunya paso a paso

Lee sobre la metodología utilizada en el promedio de encuestas de TheElectoralReport.

Arranca la campaña para las elecciones autonómicas del próximo 14 de febrero en Catalunya y con ello lanzamos un modelo de predicción electoral.

Si bien modelos similares a este he ido utilizando en publicaciones previas (véase aquí o aquí), nunca antes en España se había publicado una predicción electoral de esta naturaleza, actualizada diariamente cuyos datos se pueden descargar en este repositorio.

La predicción se realiza con un modelo probabilístico basado en encuestas, cuyo objetivo es ofrecer una herramienta más de análisis de la carrera electoral y consiste fundamentalmente en 4 pasos:

Paso 1: Recogida, análisis y promedio de encuestas

 

La mayoría de las encuestas se recogen en esta página y se recopilan en el agregador de encuestas de TheElectoralReport. A priori, no hay ninguna razón por la cual una encuesta no debe participar en nuestro promedio de encuestas, aunque hay algunas consideraciones que hay que hacer.

  • Las encuestas partidistas no se tienen en consideración si hay suficientes encuestas que no han sido financiada por partidos políticos.
  • Se excluyen las proyecciones. Se basan en encuestas publicadas y no tienen metodologías transparentes.
  • Si una encuesta considera diferentes escenarios se utiliza la versión principal.
  • Las encuestas que presenten signos de manipulación o malas prácticas son baneadas.

Una vez recopiladas las encuestas, el modelo los ajusta por el House Effect, el sesgo que muestran a favor o en contra de partidos concretos. Es decir, se corrigen desviaciones sistemáticas en favor o detrimento de un partido por parte de una encuestadora. Puedes revisar cuales son las mejores encuestadoras basándonos en un análisis empírico, aquí:

[¿Quién realiza las mejores encuestas?]

Una vez que las encuestas estén ajustadas, se promedia en base a los siguientes criterios:

  • La calidad de la encuestadora: Las encuestadoras mejor valoradas obtienen un peso mayor en el promedio.
  • Tamaño de muestra: Cuanto mayor es la muestra más influye en el promedio, pero no es una ponderación lineal, ya que no está demostrado que las encuestas con muestras muy grandes sean mejores que las encuestas con muestra de tamaño medio.
  • Días restantes hasta las elecciones: Las encuestas más recientes tienen más valor y lo van perdiendo a medida que se vayan quedando viejas según una ley exponencial decreciente.

También se tienen en cuenta otra serie de factores como la penalización a los trackings que se puede leer más en profundidad en la metodología detallada del promedio de encuestas:

[Cómo funciona el promedio de encuestas]

Paso 2: Extrapolar promedio de encuestas a provincias

 

En el caso de que dispusiéramos de suficientes encuestas provinciales, se calcularía el promedio de encuestas en cada provincia siguiendo los mismos criterios que hemos expuesto en el paso anterior. Como no suele ser lo habitual, excepto en las elecciones generales y en algunas comunidades autónomas concretas, se extrapola el voto total a cada una de las provincias.

Esto se realiza considerando las tres últimas elecciones más recientes en la región, de las cuales al menos una debe ser del mismo tipo.

En el caso de los nuevos partidos, se utilizan las matrices de transferencias de diferentes encuestas, ajustadas por la calidad demoscópica para determinar el peso de cada uno, para extrapolar el voto en cada provincia.

Paso 3: Combinar el promedio de encuestas con los demográficos

 

El promedio de encuestas es la mejor herramienta para analizar lo que están diciendo los sondeos en un determinado momento, pero no son una predicción en sí misma. Por ello, esta herramienta se combina con factores demográficos significativos que explican el voto a cada partido en cada territorio.

Dicho de otra manera, ¿Cómo afecta la densidad de población en el voto independentista? ¿Cómo votan los nacidos en otras comunidades autónomas que tienen derecho a voto en Catalunya? ¿Existen brechas de género o edad? ¿y de vivienda?

Las respuestas a estas preguntas, y muchas otras, complementan el promedio de encuestas ofreciendo una visión más amplia –y concreta—de cada uno de los territorios.

De todos modos, los sondeos adquieren más peso en esta combinación cuando más cerca esté la celebración de elecciones.

Paso 4: Agregar incertidumbre y simular las elecciones

 

Es uno de los pasos más importantes del modelo. Para simular las elecciones es necesario estimar la incertidumbre asociada a cada partido en cada provincia. Para ello utilizo una base de datos que configuran las encuestas en Catalunya desde 1980 hasta 2017.

Con esa base de datos, trato de predecir el error esperado de las encuestas en base al tamaño del partido, días restantes hasta las elecciones, el número de encuestas disponibles o la dispersión de los sondeos.

Una vez determinada la incertidumbre, se procede a la simulación. Consiste en repetir hasta en 10.000 ocasiones las elecciones, se realiza con una distribución normal multivariada y con una matriz de covarianzas escalada con la incertidumbre y acotada con los flujos de votos entre partidos.

Cada simulación ofrece un escenario diferente, que se repetirá más o menos en función de la distribución planteada anteriormente. Se calculan los escaños para cada uno de los escenarios mencionados y se extraen las probabilidades de que un suceso en concreto pueda ocurrir.

Resultados y probabilidades

 

Hay que tener varias consideraciones a la hora de interpretar los resultados del modelo y sus probabilidades.

  1. La estimación de voto y el promedio de encuestas no tienen por qué coincidir. En muchos casos no lo harán. ¿Por qué? Tal y como hemos comentado en el paso 3, la estimación se realiza combinando los sondeos y los demográficos.
  2. Los resultados del modelo son la mediana de la distribución. Esto ocurre tanto en votos como escaños. Puede ocurrir, en el caso de los escaños, que las medianas no sumen el total de los escaños que se reparten en Catalunya o en una provincia en concreto. Esto es normal. La mediana devuelve el número de escaños que ocupa la posición central en un conjunto de datos (nuestra distribución). Ese valor es un número entero—a diferencia de la media, que puede ser un valor decimal—por lo que en algunas ocasiones no coincidirán con los escaños totales.
  3. La mediana es importante, pero lo es más el intervalo. Al ser un modelo probabilístico la mediana adquiere su importancia, pero hay que considerar las horquillas para hacer una buena interpretación de los datos. Las horquillas muestran un intervalo de confianza del 90%, por tanto, en un 10% de las ocasiones el valor podría salirse del rango establecido.
  4. El modelo utiliza las probabilidades para decir cuál es el escenario central, pero sobre todo cuántas veces podría ocurrir ese escenario. Un ejemplo rápido. Imaginemos que el modelo anticipa que el Partido A será primero en votos (con un 55% de probabilidades), seguido del Partido B (con un 45%). Si bien el Partido A es el favorito, las opciones están muy igualadas y casi tienen las mismas opciones de ganar: aproximadamente las mismas opciones de lanzar una moneda y que te salga cara o cruz.

ETIQUETAS

Comparte este artículo

Share on facebook
Share on twitter
Share on whatsapp
Share on email
Share on linkedin
Share on telegram

Te podría interesar