Tal y como dije anoche a los seguidores por whatsapp del análisis demoscópico que he venido haciendo de los candidatos a la primera fase de primarias del Partido Popular, les debo una explicación de alcance metodológico y estadístico. Lo prometido es deuda, máxime cuando ha existido un error sistemático que ha sesgado la validez de los resultados obtenidos hasta ayer tarde y que quiero subsanar con esta nota. La estadística ha recuperado su razón, que siempre es más válida que la mera razón política.
Raras veces la física, las matemáticas, e incluso la estadística se equivocan. Por ejemplo, alguien puede decir que la física de Newton estaba equivocada porque hoy día los físicos admiten la existencia, probada, de la física cuántica. Pues no. Los instrumentos de observación y la lógica de que parten una y otra, hacen que parezcan distintas. Pero no lo eran tanto. Ambas aspiraban a interpretar una misma realidad aunque con medios y enfoques distintos. Nadie nos asegura que, dentro de 10 años, otra física supere o explique lo real de forma distinta.
Antes, nos equivocamos los humanos. Y yendo al grano, durante todas nuestras previsiones demoscópicas sobre los candidatos a primarias del PP, hemos cometido un error en el que el léxico ha sido fundamental para errar.
Antes de solicitar a Googles Trends la distribución temporal de las visitas de cada uno de los candidatos, probamos aquellas entradas (variaciones léxicas) de cada candidato, que maximizaba el nº de resultados. De esta manera probamos con Dolores de Cospedal, Cospedal, José Manuel Margallo, Margallo a secas, Pablo Casado, Casado a secas, y Soraya Sáenz de Santamaría, Soraya Sáenz, Sáenz de Santamaría. Pero, se nos quedó fuera de las predicciones consultar Soraya, a secas, siendo este último vocablo el que registró mayor nº de entradas y que trastocó nuestras predicciones.
Los resultados cambian radicalmente y como muestran los gráficos anteriores, sí que los resultados de las entradas con los léxicos finales utilizados, parecen reproducir bastante fielmente lo que fueron los resultados reales.
De esta manera, se ve como las visitas del último día predecían ya un empate técnico entre los dos candidatos que pasaron a la fase de compromisarios, predicciones que en la última hora muy próxima al cierre de votaciones se parecen a los resultados que conocimos en la noche de ayer.
Destaca también, que el despegue demoscópico de los candidatos, se produce en los días anteriores a las votaciones y de manera especial en el último día y horas.
Pido, pues, disculpas a los lectores por el error producido, ajeno por supuesto a nuestra voluntad y que sólo desde el interés por esclarecer la verdad, me ha llevado a revisar todo el proceso metodológico que hemos seguido.
Gracias por vuestro interés y vuestra paciencia.
________________________________________
ADDENDA:
Es bien conocido que la política y la estadística se llevan bastante mal. La política suele llevarse mal con casi todo. Nuestra principal duda se planteaba de lo acertado, o no, de usar un sistema de conteo estadístico del nº de visitas a páginas de internet mediante un identificador léxico, como predictor estadístico, aplicable a investigaciones demoscópicas.
Se nos suscitaba una duda básica: que una mera palabra, o un conjunto de palabras, un léxico, a través de un interés prolongado en el tiempo sea representativo de un contenido demoscópico estadísticamente válido. Por otra parte, tampoco se da la ortodoxia de muestra-universo poblacionales, al uso en toda investigación basada en encuestas. En este caso que nos ocupa, el universo infinitamente más reducido que conforman los militantes de un partido político, son un segmento de un universo poblacional mucho mayor que son todos los internautas. Atribuir representatividad a las opiniones de un gran nº de internautas respecto de un nº de militantes de ese partido puede ser arriesgado. Pero, también es arriesgado que 1000 encuestas telefónicas (que es lo que suelen hacer las empresas demoscópicas) representen las opiniones de los potenciales votantes, respecto de un abanico de cuestiones.
Deberemos seguir probando la metodología en sucesivas consultas, así como en otras aplicaciones no demoscópicas. Ajustando lo que sea y aprendiendo siempre.
Raras veces la física, las matemáticas, e incluso la estadística se equivocan. Por ejemplo, alguien puede decir que la física de Newton estaba equivocada porque hoy día los físicos admiten la existencia, probada, de la física cuántica. Pues no. Los instrumentos de observación y la lógica de que parten una y otra, hacen que parezcan distintas. Pero no lo eran tanto. Ambas aspiraban a interpretar una misma realidad aunque con medios y enfoques distintos. Nadie nos asegura que, dentro de 10 años, otra física supere o explique lo real de forma distinta.
Antes, nos equivocamos los humanos. Y yendo al grano, durante todas nuestras previsiones demoscópicas sobre los candidatos a primarias del PP, hemos cometido un error en el que el léxico ha sido fundamental para errar.
Antes de solicitar a Googles Trends la distribución temporal de las visitas de cada uno de los candidatos, probamos aquellas entradas (variaciones léxicas) de cada candidato, que maximizaba el nº de resultados. De esta manera probamos con Dolores de Cospedal, Cospedal, José Manuel Margallo, Margallo a secas, Pablo Casado, Casado a secas, y Soraya Sáenz de Santamaría, Soraya Sáenz, Sáenz de Santamaría. Pero, se nos quedó fuera de las predicciones consultar Soraya, a secas, siendo este último vocablo el que registró mayor nº de entradas y que trastocó nuestras predicciones.
Los resultados cambian radicalmente y como muestran los gráficos anteriores, sí que los resultados de las entradas con los léxicos finales utilizados, parecen reproducir bastante fielmente lo que fueron los resultados reales.
De esta manera, se ve como las visitas del último día predecían ya un empate técnico entre los dos candidatos que pasaron a la fase de compromisarios, predicciones que en la última hora muy próxima al cierre de votaciones se parecen a los resultados que conocimos en la noche de ayer.
Destaca también, que el despegue demoscópico de los candidatos, se produce en los días anteriores a las votaciones y de manera especial en el último día y horas.
Pido, pues, disculpas a los lectores por el error producido, ajeno por supuesto a nuestra voluntad y que sólo desde el interés por esclarecer la verdad, me ha llevado a revisar todo el proceso metodológico que hemos seguido.
Gracias por vuestro interés y vuestra paciencia.
________________________________________
ADDENDA:
Es bien conocido que la política y la estadística se llevan bastante mal. La política suele llevarse mal con casi todo. Nuestra principal duda se planteaba de lo acertado, o no, de usar un sistema de conteo estadístico del nº de visitas a páginas de internet mediante un identificador léxico, como predictor estadístico, aplicable a investigaciones demoscópicas.
Se nos suscitaba una duda básica: que una mera palabra, o un conjunto de palabras, un léxico, a través de un interés prolongado en el tiempo sea representativo de un contenido demoscópico estadísticamente válido. Por otra parte, tampoco se da la ortodoxia de muestra-universo poblacionales, al uso en toda investigación basada en encuestas. En este caso que nos ocupa, el universo infinitamente más reducido que conforman los militantes de un partido político, son un segmento de un universo poblacional mucho mayor que son todos los internautas. Atribuir representatividad a las opiniones de un gran nº de internautas respecto de un nº de militantes de ese partido puede ser arriesgado. Pero, también es arriesgado que 1000 encuestas telefónicas (que es lo que suelen hacer las empresas demoscópicas) representen las opiniones de los potenciales votantes, respecto de un abanico de cuestiones.
Deberemos seguir probando la metodología en sucesivas consultas, así como en otras aplicaciones no demoscópicas. Ajustando lo que sea y aprendiendo siempre.
No hay comentarios:
Publicar un comentario