Curios: 385: El número "mágico" de las encuestas

viernes, 22 de septiembre de 2017

385: El número "mágico" de las encuestas

La cruda realidad

Siempre que se acercan procesos electorales y empiezan a publicarse todo tipo de encuestas con las predicciones de voto, surge en las tertulias de amigos la misma pregunta. Oye, ¿a ti te han preguntado alguna vez lo que vas a votar? Porque, lo normal, es que a ninguno del grupo le haya "tocado" la encuesta. Igual reflexión y conclusiones surgen cuando se trata de las audiencias televisivas: nadie conoce a nadie que tenga un medidor de audiencia instalado en su televisor, lo cual basta para inspirar bastante desconfianza en sus resultados.

Y ésto, ¿a qué se debe? ¿nos engañan como a chinos o hay un soporte matemático detrás que lo avale? Pues, para tranquilidad de todos, en este caso es lo segundo. Me anticipo a la conclusión: Cuando se trata de estimar, en un colectivo suficientemente grande (más de 100.000 individuos), la proporción de los mismos que siguen una cierta pauta (los que piensan votar a determinado partido político, los que están viendo un programa de televisión a cierta hora, los que prefieren una marca de champú específica, etc...) con un margen de error pequeño (normalmente el 5%) y un nivel de confianza alto (p.ej. del 95%), basta con una muestra aleatoria bastante pequeña. En concreto, 385 individuos. ¿Sorprendente? Veamos cómo se llega a este resultado.

Hemos hablado de dos conceptos: margen de error y nivel de confianza, que a veces se confunden. Vamos a utilizar un ejemplo para entenderlo bien. Supongamos que queremos estimar el número de españoles entre 25 y 65 años que fuman habitualmente.

Un margen de error del 5% nos diría que, si como consecuencia de la encuesta el resultado que se obtiene es el 30% (supongamos que eso fueran 9 millones), significaría que la realidad estaría entre el 25% (7,5 millones) y 35% (10,5 millones).

Un nivel de confianza del 95% expresa la certeza de que realmente el dato que buscamos esté dentro del margen de error. En el ejemplo anterior, sería que, si repitiéramos muchas veces la encuesta a muestras aleatorias diferentes, en el 95% de los casos el % de fumadores estaría entre el 25% y el 35%.

El que las muestras sean aleatorias es el verdadero quid de la cuestión, y lo que trae de cabeza a los encuestadores. (Por eso últimamente se cuestionan las encuestas que son 100% telefónicas a números fijos; quizá la población que sigue utilizando teléfonos fijos no es una muestra aleatoria del total de la población).

Pero sigamos con las matemáticas. La fórmula (evito al lector el cómo se llega a ella, porque tampoco lo sé) que determina el tamaño de muestra (n) necesaria para garantizar un margen de error (e) y un nivel de confianza (directamente asociado a la desviación media que lo abarca, Z), con una probabilidad a favor (p) en una población finita (N) es:

Lo de la probabilidad a favor (p) despista bastante; sólo sirve cuando ya tenemos información previa sobre la p que va a resultar de la encuesta y nos sirve para acotar el tamaño de la muestra; normalmente se pone 0,5 y a correr.

Pero lo bonito de las matemáticas que hay detrás de esta fórmula es que, si suponemos una N suficientemente grande (como ya hemos dicho > 100.000) , la fórmula se simplifica muchísimo, y resulta:

Teniendo en cuenta que, para un nivel de confianza del 95% la desviación media, Z=1,96, podemos hacer el cálculo:

n= (1,96*1,96*0,5*0,5) / (0,05*0,05) = 0,9604 / 0,0025 = 384,16

O sea, que con una muestra aleatoria de 385 individuos, alcanzaríamos esta precisión.

Pero hay que entenderlo bien. En el caso electoral, esta muestra va unida a lo que sea la circunscripción electoral. En unas elecciones al Parlamento Europeo, donde la circunscripción electoral es única para toda España (sólo hay una lista por partido), bastaría encuestar a 385 personas en todo el territorio nacional para estimar la tendencia de voto. En el caso de unas elecciones generales, donde la circunscripción es provincial, habría que encuestar a 385 personas por provincia. En el caso de unas locales, ídem por Ayuntamiento (y sólo sería fiable para los grandes, los de más de 100.000 habitantes).

Medidor de audiencia

Lo mismo pasa con los audímetros. En la actualidad, desde 2010, la empresa que tiene asignado este contrato en España es Kantar Media (www.kantarmedia.com/es) , sucesora de Ecotel y Sofres. Tiene instalados 4.625 audímetros en, nuevamente, hogares aleatorios pero representativos de los diferentes tipos de hogares que se dan en España. El que necesite más de 385 se debe, básicamente, a que hay muchos canales de cobertura autonómica cuyos datos necesitan ser discriminados. Creo que en España hay unos 18 millones de hogares censados, por lo que sólo le "toca" audímetro a 3 de cada 10.000. Normal que no conozcamos a nadie que lo tenga (además, hay un mito urbano, que no sé si es cierto, que, cuando te lo instalan, firmas un contrato de confidencialidad a cambio de una serie de ventajas, pero conociendo a este país...).

En resumen, si las muestras de las encuestas cumplen con las normas de la aleatoriedad, basta un número pequeño (385) para obtener resultados con un margen pequeño de error y un alto nivel de confianza. Así de curiosas son las matemáticas.

12 comentarios:

Pedro Roy22 de septiembre de 2017 a las 9:21
¿Qué son las matemáticas?, dices mientras clavas
en mi pupila tu pupila azul.
¿Qué son las matemáticas? ¿Y tú me lo preguntas?
Matemáticas…. eres tú

bueno, y también un curioso impenitente y todas esas cualidades que adornan tu existencia y tienes a bien compartir con nosotros.
ResponderEliminar
Respuestas
Sobre mi22 de septiembre de 2017 a las 11:27
Si bien parece ser que estas medidas o predicciones son mas fiables para los opciones de carácter más mayoritario mientras arrojan errores de cierta magnitud en las opciones minoritarias.
ResponderEliminar
Respuestas
Telmo22 de septiembre de 2017 a las 14:07
Con esa fórmula salen cosas raras en casos de baja/alta probabilidad (i.e, "p" muy distinto de 0,5). Por ejemplo, si se quiere estudiar la incidencia de la diabetes tipo 1 en España (unos 5 casos cada mil habitantes p = 0,005) con las mismas aproximaciones (N muy grande, Z = 1,96 y e = 0,05) sale que es suficiente una muestra de 8 encuestados. ¿Y si ninguno tiene diabetes tipo 1?

¿Porqué pasa esto? ¿Que no te acuerdas de donde salía la fórmula? (No esperaba yo eso de un brillante licenciado - doctor tal vez - en C. Exactas). Venga!, a desempolvar los apuntes de estadística!!
ResponderEliminar
Respuestas
Charo22 de septiembre de 2017 a las 20:22
A Mark Twain se le atribuye esta frase: "hay tres clases de mentiras: las mentiras, las malditas mentiras y la estadística". No soy tan radical, aunque... sí un poco escéptica con las estadísticas de intención de voto y otras similares. De fórmulas no entiendo, pero es muy curioso que una muestra de 385 personas sea representativa de una gran población, mucho.
ResponderEliminar
Respuestas
Jesus G.Gomez22 de septiembre de 2017 a las 21:38
No deja de ser el viaje al mundo de la estadística intentando acotar la complejidad de un mundo �� aleatorio y caprichoso al corsé de la ciencia y más allá al de la estadística. Viva �� la ciencia aplicada y los que gastan su tiempo en intentar difidundirlo. Gracias �� Ángel �� por estimular cada semana a nuestra neurona y alejarnos por unos minutos del "procés"
ResponderEliminar
Respuestas
Telmo23 de septiembre de 2017 a las 0:24
Eso si que es verdad. Entre Puigdemont, Trump y Kim Jong-Un, casi han conseguido eclipsar a la Igarteburu!! (Todos los días me siento a comer a las 14:30, cuando llega mi Arantxa de currar, y hasta las noticias de las 15:00 toca tragar a la Presley, Paquirrin, Jesulín, etc. Lo peor de lo peor era la Cayetana. A Dios gracias, no hay duquesa que cien años dure!!)
ResponderEliminar
Respuestas
Enrique23 de septiembre de 2017 a las 11:39
Bravo!!! Una semana más Ángel
Esta ves a la ves que nos has ilustrado una curiosidad, has hecho demostración de tus vastos conocimientos matemáticos
Aunque pare ser honrado, me interesan bastante más las aventuras y desventuras de nuestro amigo el cerdo iberico, últimos posts, que lo de los programas de TV, solo veo deportes, y de los políticos ni te cuento
Abrazos
ResponderEliminar
Respuestas
Angel Díaz-Miguel23 de septiembre de 2017 a las 19:58
Amigo Telmo, me contaron que un Director de la Escuela de Ingenieros de Bilbao decía que los títulos de ingeniero debían "caducar" cada 10 años (ahora supongo que cada menos tiempo). Los de matemáticos aguantan un poco más (ahí tenemos a Pitágoras manteniendo el tipo), pero no mi memoria.
Me pasa Andrés A. este enlace a una noticia que dice que Kantar Media ha aumentado el nº de audímetros en Aragón, y al mismo tiempo muestra la distribución por CC.AA.
http://www.infoperiodistas.info/noticia/22549/Kantar-Media-incrementa-su-panel-de-audiencia
Interesante que la "moda" de audímetros por Comunidad sea 350, bastance cercana al nº "mágico" de 385. Andalucía y Cataluña tienen 530, supongo que porque hay más concurrencia de canales nacionales, autonómicos y locales.
ResponderEliminar
Respuestas
Jordi Gibert30 de septiembre de 2017 a las 10:51
Pues si yo fuera consultor de una empresa de encuestas les aconsejaría no preocuparse de las matemáticas, ni de encuestar a nadie realmente. Lo importante es que el resultado tenga 1) visos de ser real (no hace falta que lo sea) 2) uno de los resultados mejor que la anterior encuesta para una de las opciones (a cuyos defensores obviamente iremos a venderla).
Como ésta podrían fabricar docenas y vendérselas a todos los que las compran impulsivamente, que no son otros que los medios de comunicación (de algo han de hablar cuando no hay noticias y las encuestas dan para un par de días) y en menor medida los partidos políticos, que siempre dicen tener "encuestas propias que nos dan mejor resultado".
Estas empresas tienen la clientela asegurada, como la lotería y con el mismo esfuerzo, porque lo innegable es que a alguien "le toca".
No hace falta deciros que no creo en ninguna encuesta ¿verdad? Aunque siempre hay un amigo que me recuerda que cierto día cierta encuesta acertó con los resultados de una opción concreta (aunque se equivocara en todas las demás, eso no importa y es que somos así, nos hace una ilusión tremenda que "casi" nos toque la lotería por un dígito).
ResponderEliminar
Respuestas

Añadir comentario