viernes, 22 de septiembre de 2017

385: El número "mágico" de las encuestas

La cruda realidad
Siempre que se acercan procesos electorales y empiezan a publicarse todo tipo de encuestas con las predicciones de voto, surge en las tertulias de amigos la misma pregunta. Oye, ¿a ti te han preguntado alguna vez lo que vas a votar? Porque, lo normal, es que a ninguno del grupo le haya "tocado" la encuesta. Igual reflexión y conclusiones surgen cuando se trata de las audiencias televisivas: nadie conoce a nadie que tenga un medidor de audiencia instalado en su televisor, lo cual basta para inspirar bastante desconfianza en sus resultados.

Y ésto, ¿a qué se debe? ¿nos engañan como a chinos o hay un soporte matemático detrás que lo avale? Pues, para tranquilidad de todos, en este caso es lo segundo. Me anticipo a la conclusión: Cuando se trata de estimar, en un colectivo suficientemente grande (más de 100.000 individuos), la proporción de los mismos que siguen una cierta pauta (los que piensan votar a determinado partido político, los que están viendo un programa de televisión a cierta hora, los que prefieren una marca de champú específica, etc...) con un margen de error pequeño (normalmente el 5%) y un nivel de confianza alto (p.ej. del 95%), basta con una muestra aleatoria bastante pequeña. En concreto, 385 individuos. ¿Sorprendente? Veamos cómo se llega a este resultado.


Hemos hablado de dos conceptos: margen de error y nivel de confianza, que a veces se confunden. Vamos a utilizar un ejemplo para entenderlo bien. Supongamos que queremos estimar el número de españoles entre 25 y 65 años que fuman habitualmente. 

Un margen de error del 5% nos diría que, si como consecuencia de la encuesta el resultado que se obtiene es el 30% (supongamos que eso fueran 9 millones), significaría que la realidad estaría entre el 25% (7,5 millones) y 35% (10,5 millones).

Un nivel de confianza del 95% expresa la certeza de que realmente el dato que buscamos esté dentro del margen de error. En el ejemplo anterior, sería que, si repitiéramos muchas veces la encuesta a muestras aleatorias diferentes, en el 95% de los casos el % de fumadores estaría entre el 25% y el 35%. 

El que las muestras sean aleatorias es el verdadero quid de la cuestión, y lo que trae de cabeza a los encuestadores. (Por eso últimamente se cuestionan las encuestas que son 100% telefónicas a números fijos; quizá la población que sigue utilizando teléfonos fijos no es una muestra aleatoria del total de la población). 

Pero sigamos con las matemáticas. La fórmula (evito al lector el cómo se llega a ella, porque tampoco lo sé) que determina el tamaño de muestra (n) necesaria para garantizar un margen de error (e) y un nivel de confianza (directamente asociado a la desviación media que lo abarca, Z), con una probabilidad a favor (p) en una población finita (N) es:


Lo de la probabilidad a favor (p) despista bastante; sólo sirve cuando ya tenemos información previa sobre la p que va a resultar de la encuesta y nos sirve para acotar el tamaño de la muestra; normalmente se pone 0,5 y a correr.

Pero lo bonito de las matemáticas que hay detrás de esta fórmula es que, si suponemos una N suficientemente grande (como ya hemos dicho > 100.000) , la fórmula se simplifica muchísimo, y resulta:
Teniendo en cuenta que, para un nivel de confianza del 95% la desviación media, Z=1,96, podemos hacer el cálculo:  

n= (1,96*1,96*0,5*0,5) / (0,05*0,05) = 0,9604 / 0,0025 = 384,16 

O sea, que con una muestra aleatoria de 385 individuos, alcanzaríamos esta precisión.

Pero hay que entenderlo bien. En el caso electoral, esta muestra va unida a lo que sea la circunscripción electoral. En unas elecciones al Parlamento Europeo, donde la circunscripción electoral es única para toda España (sólo hay una lista por partido), bastaría encuestar a 385 personas en todo el territorio nacional para estimar la tendencia de voto. En el caso de unas elecciones generales, donde la circunscripción es provincial, habría que encuestar a 385 personas por provincia. En el caso de unas locales, ídem por Ayuntamiento (y sólo sería fiable para los grandes, los de más de 100.000 habitantes). 

Medidor de audiencia
Lo mismo pasa con los audímetros. En la actualidad, desde 2010, la empresa que tiene asignado este contrato en España es Kantar Media (www.kantarmedia.com/es) , sucesora de Ecotel y Sofres. Tiene instalados 4.625 audímetros en, nuevamente, hogares aleatorios pero representativos de los diferentes tipos de hogares que se dan en España. El que necesite más de 385 se debe, básicamente, a que hay muchos canales de cobertura autonómica cuyos datos necesitan ser discriminados. Creo que en España hay unos 18 millones de hogares censados, por lo que sólo le "toca" audímetro a 3 de cada  10.000. Normal que no conozcamos a nadie que lo tenga (además, hay un mito urbano, que no sé si es cierto, que, cuando te lo instalan, firmas un contrato de confidencialidad a cambio de una serie de ventajas, pero conociendo a este país...).

En resumen, si las muestras de las encuestas cumplen con las normas de la aleatoriedad, basta un número pequeño (385) para obtener resultados con un margen pequeño de error y un alto nivel de confianza. Así de curiosas son las matemáticas. 

12 comentarios:

  1. ¿Qué son las matemáticas?, dices mientras clavas
    en mi pupila tu pupila azul.
    ¿Qué son las matemáticas? ¿Y tú me lo preguntas?
    Matemáticas…. eres tú

    bueno, y también un curioso impenitente y todas esas cualidades que adornan tu existencia y tienes a bien compartir con nosotros.

    ResponderEliminar
  2. Si bien parece ser que estas medidas o predicciones son mas fiables para los opciones de carácter más mayoritario mientras arrojan errores de cierta magnitud en las opciones minoritarias.

    ResponderEliminar
  3. Con esa fórmula salen cosas raras en casos de baja/alta probabilidad (i.e, "p" muy distinto de 0,5). Por ejemplo, si se quiere estudiar la incidencia de la diabetes tipo 1 en España (unos 5 casos cada mil habitantes p = 0,005) con las mismas aproximaciones (N muy grande, Z = 1,96 y e = 0,05) sale que es suficiente una muestra de 8 encuestados. ¿Y si ninguno tiene diabetes tipo 1?

    ¿Porqué pasa esto? ¿Que no te acuerdas de donde salía la fórmula? (No esperaba yo eso de un brillante licenciado - doctor tal vez - en C. Exactas). Venga!, a desempolvar los apuntes de estadística!!

    ResponderEliminar
    Respuestas
    1. Hola Telmo, no sé si te has dado cuenta, pero para el problema que planteas llega con un encuestado.
      Fíjate que queremos un error del 5%. Si la proporción esperada ronda el 5 por mil, con un encuestado, con probabilidad muy superior al 95% va a ser negativo. En ese caso se tiene una estimación de 0%, y el verdadero valor está a distancia menor del 5% por lo que hemos cubierto el objetivo.
      Si quieres estimar una proporción del orden del 0'5%, deberías estimarlo con, pongamos, un error del 0'1%. En este caso, la fórmula de Ángel da:
      n= (1,96*1,96*0,5*0,5) / (0,001*0,999) = 0,9604 /0,000999 = 961,34
      Aparte lo anterior, la fórmula en cuestión se basa en una aproximación que funciona bien para probabilidades no muy extremas. Para las extremas hay que recurrir a otros procedimientos.

      Eliminar
    2. Me equivoqué con la fórmula. La correcta es:
      n= (1,96*1,96*0,5*0,5) / (0,001*0,001) =960.400.
      Pero el numerador puede mejorarse, reemplazando el p por un número mayor que el estimador a obtener: si sabemos que el verdadero valor ronda el 0'5%, con los tamaños tan altos que vamos a obtener, podemos pensar que la estimación será inferior al 0'8%. Así tendríamos
      n= (1,96*1,96*0,008*0,992) / (0,001*0,001) = 30.486,94
      (me tenía mosca, un tamaño muestral tan pequeño).

      Eliminar
  4. A Mark Twain se le atribuye esta frase: "hay tres clases de mentiras: las mentiras, las malditas mentiras y la estadística". No soy tan radical, aunque... sí un poco escéptica con las estadísticas de intención de voto y otras similares. De fórmulas no entiendo, pero es muy curioso que una muestra de 385 personas sea representativa de una gran población, mucho.

    ResponderEliminar
    Respuestas
    1. Había leído que la frase se le atribuía a Disraeli ... pero si fuera cierto, seguro que no la dijo en el Parlamento, porque todos los discursos están digitalizados y lo verifiqué: en los discursos de Disraeli, el término "statistics" sólo aparece en relación con las exportaciones.
      Elías

      Eliminar
  5. No deja de ser el viaje al mundo de la estadística intentando acotar la complejidad de un mundo �� aleatorio y caprichoso al corsé de la ciencia y más allá al de la estadística. Viva �� la ciencia aplicada y los que gastan su tiempo en intentar difidundirlo. Gracias �� Ángel �� por estimular cada semana a nuestra neurona y alejarnos por unos minutos del "procés"

    ResponderEliminar
  6. Eso si que es verdad. Entre Puigdemont, Trump y Kim Jong-Un, casi han conseguido eclipsar a la Igarteburu!! (Todos los días me siento a comer a las 14:30, cuando llega mi Arantxa de currar, y hasta las noticias de las 15:00 toca tragar a la Presley, Paquirrin, Jesulín, etc. Lo peor de lo peor era la Cayetana. A Dios gracias, no hay duquesa que cien años dure!!)

    ResponderEliminar
  7. Bravo!!! Una semana más Ángel
    Esta ves a la ves que nos has ilustrado una curiosidad, has hecho demostración de tus vastos conocimientos matemáticos
    Aunque pare ser honrado, me interesan bastante más las aventuras y desventuras de nuestro amigo el cerdo iberico, últimos posts, que lo de los programas de TV, solo veo deportes, y de los políticos ni te cuento
    Abrazos

    ResponderEliminar
  8. Amigo Telmo, me contaron que un Director de la Escuela de Ingenieros de Bilbao decía que los títulos de ingeniero debían "caducar" cada 10 años (ahora supongo que cada menos tiempo). Los de matemáticos aguantan un poco más (ahí tenemos a Pitágoras manteniendo el tipo), pero no mi memoria.
    Me pasa Andrés A. este enlace a una noticia que dice que Kantar Media ha aumentado el nº de audímetros en Aragón, y al mismo tiempo muestra la distribución por CC.AA.
    http://www.infoperiodistas.info/noticia/22549/Kantar-Media-incrementa-su-panel-de-audiencia
    Interesante que la "moda" de audímetros por Comunidad sea 350, bastance cercana al nº "mágico" de 385. Andalucía y Cataluña tienen 530, supongo que porque hay más concurrencia de canales nacionales, autonómicos y locales.

    ResponderEliminar
  9. Pues si yo fuera consultor de una empresa de encuestas les aconsejaría no preocuparse de las matemáticas, ni de encuestar a nadie realmente. Lo importante es que el resultado tenga 1) visos de ser real (no hace falta que lo sea) 2) uno de los resultados mejor que la anterior encuesta para una de las opciones (a cuyos defensores obviamente iremos a venderla).
    Como ésta podrían fabricar docenas y vendérselas a todos los que las compran impulsivamente, que no son otros que los medios de comunicación (de algo han de hablar cuando no hay noticias y las encuestas dan para un par de días) y en menor medida los partidos políticos, que siempre dicen tener "encuestas propias que nos dan mejor resultado".
    Estas empresas tienen la clientela asegurada, como la lotería y con el mismo esfuerzo, porque lo innegable es que a alguien "le toca".
    No hace falta deciros que no creo en ninguna encuesta ¿verdad? Aunque siempre hay un amigo que me recuerda que cierto día cierta encuesta acertó con los resultados de una opción concreta (aunque se equivocara en todas las demás, eso no importa y es que somos así, nos hace una ilusión tremenda que "casi" nos toque la lotería por un dígito).

    ResponderEliminar