"Les diría a los ciudadanos que desconfíen de una encuesta que no
presenta bases de datos, tasa de rechazo, tamaño de la muestra o el
margen de error".
María Marván, Consejera del IFE.
En esta campaña electoral* han abundado las encuestas como nunca antes
y la mayoría de ellas apunta al inexorable triunfo a Enrique Peña Nieto
(EPN). Estaremos de acuerdo en que por lo general otorgamos a priori a
las encuestas un gran ascendiente por ser un instrumento con bases
científicas, y por lo tanto resulta difícil no creerles. Para quien no
es simpatizante de EPN es aún más difícil mantener el aplomo viendo los
números que éstas consistentemente han reportado. Para quienes lo
apoyan, éstas son la antesala del esperado clímax.
Consideremos
un caso paradigmático, de entre las encuestas que, según se colige de
las palabras de María Marván, no habría que desconfiar: el de las
encuestas de GEA-ISA-Milenio. Este triunvirato ha publicado hasta la
fecha 95 encuestas, a razón de una diaria. Ahora bien, para levantar una
encuesta válida es preciso tomar una muestra
al azar del
padrón electoral y entrevistar a los seleccionados por esta muestra.
Esto quiere decir que en la selección de las personas a entrevistar
puede figurar una persona de la Sierra de los Cucapah, dos de Creel, uno
de Zacapu, uno en Río Frío, uno en Cozumel, tres de Guadalajara,
etcétera. La teoría nos dice que si la muestra es aleatoria y de tamaño
suficiente, ésta será un buen representante del universo de electores.
Sin embargo, al intentar entrevistar a los seleccionados es probable que
algunas de estas personas sean en ese momento inalcanzables (por
situaciones adversas a los encuestadores, por ejemplo, por la lluvia o
por perros callejeros), no estén en su domicilio o no quieran contestar.
Es imposible
a priori saberlo. Entonces, puede ser que de 1500
personas seleccionadas originalmente del padrón electoral, quizá
contestaron 1355, o 1147.
Es pertinente insistir en el hecho de que Milenio-GEA-ISA publica una encuesta
diaria. Es decir, que estas casas encuestadoras tienen que seleccionar diariamente del padrón electoral,
al azar, una cierta cantidad de personas diferentes y realizar el mismo procedimiento. Pero como se supone que son personas
diferentes, en localidades
sin correlación
con las del día anterior, etcétera, la respuesta varía. Es decir, que
un día habrán obtenido 1152, el otro 1311, 1098, 1021, etcétera. Es
fácil estar de acuerdo en que es imposible que el número de
entrevistados no varíe de un día a otro, pero para quien argumente que
el muestreo se puede detener exactamente en 1200 personas, por ejemplo,
tómese en cuenta que existen para una encuesta de este tamaño entre 50 y
100 entrevistadores en distintos lugares, completamente ignorantes de
los resultados de sus compañeros y, por lo tanto, entrevistarán al
máximo posible de seleccionados que tengan asignados, pues de eso
dependerá probablemente la cuantía de su paga. (Es preciso mencionar
aquí, de paso, que las encuestas deben ser realizadas en domicilios para
ser consideradas válidas por el IFE. No pueden ser telefónicas ni
realizarse con personas entrevistadas en la vía pública).
La numeralia
Ahora echemos un vistazo a la
Encuesta de las Encuestas
y observemos lo que reporta GEA-ISA-Milenio. Lo primero que salta a la
vista, es, desde luego, los resultado mismos de sus encuestas diarias,
pues son las que consistentemente reportan la preferencia más alta a
favor de EPN (la última otorga una ventaja de 18.1% a EPN sobre AMLO).
Sin embargo, existe algo más: su muestra es predominantemente de 1152
personas: de las 95 encuestas publicadas por GEA-ISA-Milenio hasta el 20
de junio, sólo 24 reportan un número diferente (los números varían
entre 1119 y 1152). (Dicho sea de paso, con ese
tamaño de muestra,
como se dice en el argot estadístico, el margen de error es de
alrededor del 2.9% --éste se obtiene simplemente al dividir uno por la
raíz cuadrada de 1152 y multiplicar el resultado por 100--). El asunto
de la persistencia de ese número se puede reformular plausiblemente en
términos de la distribución binomial de probabilidad: ¿Cuál es la
probabilidad de que en 95 tiros (el número de encuestas hecha por
Milenio-GEA-ISA) de un (hipotético) dado de 34 lados (1152 - 1119 + 1 =
34) se obtenga 71 veces el mismo número (1152)? He aquí la respuesta:
0.0000000000000000000000000000000000000000000000000000000000000000000000
00000000000085735.
(Son
84 ceros). Si nuestra estimación estuviera errada, podemos tomarnos la
libertad de corregirla a voluntad, haciendo la probabilidad 10, 100, un
millón, o, si queremos, cien mil millones de veces mayor. El resultado
sigue siendo tan pequeño que incluso los científicos atomísticos no se
sentirían a gusto manejando esta cantidad. Para nuestros fines, la
probabilidad es cero: tal conjunto de sucesos es imposible (por el contrario, la probabilidad total de que algo ocurra es 1).
Otras consideraciones
Por
otro lado, puesto que las dificultades técnicas son enormes, cada
encuesta es un trabajo de varios días de levantamiento en campo y quizá
de un par de días más de procesamiento de los datos. Pero
Milenio-GEA-ISA logra la proeza de realizar una diaria, lo que
implica una logística muy complicada pues es necesario tener
permanentemente desplegados varios equipos de encuestadores, es decir,
de algunos centenares de encuestadores coordinados desde bases
operativas repartidas por todo el país.
No menos importante
resulta el factor costo: Es sabido que los encuestadores cobran a sus
clientes alrededor de 250 pesos por cada cuestionario lleno y válido. Es
decir que, como mínimo, Milenio está pagando diariamente más de 250 mil
pesos a GEA-ISA por realizar su encuesta. Probablemente el dinero no
sea una objeción para Milenio, pero más no es necesariamente mejor, y si
la encuesta está bien hecha, las pequeñas variaciones obtenidas de un
día a otro son mucho menores que el margen de error. Esto, por supuesto,
lo sabe cualquier casa encuestadora, y lo deberían saber sus clientes.
Entonces ¿en qué beneficia a Milenio publicar una encuesta diaria en vez
de una semanal o quincenal? Y si las encuestas se hacen siguiendo una
metodología científica, cual debieran, siguiendo los lineamientos
marcados por el IFE, ¿cómo es que difieren tanto los datos entre una y
otra, si el error máximo debería andar alrededor del 3%? (En otras
palabras, los resultados de todas las encuestas hechas con criterios científicos se deberían distribuir en una banda de 3 o 4%). En palabras de María Marván: "¿Cómo
pueden encuestas que dicen ser nacionales traer 20 puntos de ventaja y
otra de cuatro? No es creíble. Eso quiere decir, necesariamente, que una
de las dos miente".
Por cierto, las encuestas de GEA-ISA
(sin Milenio), Mitofsky, El Sol de México-Parametría, Ipsos-Bimsa,
Parametría (sin El Sol de México), El Universal-Buendía y Laredo y SDP
Noticias-Covarrubias publican encuestas con muestras de 1000 personas.
Si bien los únicos que publican muestras diarias son GEA-ISA-Milenio, el
razonamiento anterior también es aplicable a estas casas. Sin embargo
existe una salvedad en aquel caso, y es que el número 1000 (casi tan
bueno como el 1152 de marras en términos estadísticos, pero, al fin y al
cabo, un número "cerrado") puede haber sido, no se especifica, el
número de personas seleccionadas aleatoriamente, y no el número de
personas entrevistadas. Sin embargo esto implica, en el mejor de los
casos, una pequeña trampa, puesto que no se conoce en realidad el tamaño de la población muestreada.
¿Qué
es lo que pasa entonces? Que las casas encuestadoras manipulan el
diseño de su muestra, rompiendo su aleatoriedad por razones de índole
práctica, económica, o con un fin aviesamente político. En el caso más
venial éstas practican lo que llaman "sustitución", que consiste en
cambiar a alguien seleccionado por alguien más accesible o a modo. La
lógica es más o menos la siguiente: "¿Qué caso tiene viajar 6 horas en
automóvil y luego dos horas a lomo de mula para entrevistar a Juan en su
domicilio del otro lado de la sierra, si puedo entrevistar a Pedro que
es mi empleado y está aquí, o, si acaso, salir a la banqueta y
preguntarle al primero que pase?" O de plano, realizar un muestreo estratificado:
irse a una colonia o a una ciudad favorable a tal o cual candidato,
enfatizar los muestreos en determinada clase social, o en cierto
intervalo de edades, etcétera. Entonces, aunque en realidad las casas
encuestadoras realicen las encuestas que dicen que hicieron (descartando
-quizá ingenuamente- la posibilidad de que simplemente se hayan
inventado los números) el efecto neto es el de cargar los dados. En
términos estadísticos una encuesta así, por supuesto, no sirve, pues no es un buen representante de la opinión del total de los votantes.
Los
mismos consejeros del IFE han advertido sobre la recurrente falta de
cumplimento de las normas por parte de los encuestadores, entre ellas,
el de entregar a este organismo la información técnica de cada encuesta.
Y como generalmente no está claro quién paga esas encuestas,
recurriremos, para terminar, al latinajo: cui bono?
Bien dicen los que saben que hay mentiritas, mentirotas, y estadísticas.
El autor agradece los comentarios de los doctores Pilar Alonso, Jorge López, Macario Hernández y Luis B. Morales.
*Este artículo aparecío originalmente en Colloqui.org en junio de 2012, pero se había quedado en el tintero aquí.