Víctor Manuel Jiménez-López, alumni de postgrado de Data, ha realizado como Trabajo Fin de Máster un dashboard interactivo para análisis del barómetro preelectoral. Es uno de los trabajos más destacados del curso, por lo que hemos hablado con él para entender en qué consiste su proyecto y cuáles son sus posibles aplicaciones.
¿Cómo surgió la idea de tu trabajo de investigación?
Eficiencia, eficacia, efectividad, productividad, son adjetivos que toda entidad pública o privada desearía tener en su compañía. En la búsqueda de estos adjetivos, gana importancia la ciencia de datos. La evolución de esta ciencia ha ganado enteros para la toma de decisiones, cambiar la metodología de trabajo y diseñar estrategias de negocio.
Además, en los últimos 10 años, se han conocido casos de partidos políticos (de aquí en adelante, partido) en Estados Unidos que han realizado inversión en análisis de datos para intentar conseguir mejores resultados en las urnas. En España estamos sufriendo un cambio político, con el que la diversificación de los partidos hace que los ingresos de estos se repartan y, como consecuencia, deberían de buscar vías para ser más eficientes.
Podría merecer la pena hacer una inversión en el análisis de datos para conseguir mejores resultados, ya que la cultura de los votantes ha cambiado y se ha vuelto “infiel”. Esto nos hace pensar que los votantes son más sensibles a los mensajes que transmite cada partido. El perfil del ciudadano es muy importante, de esta manera podríamos diseñar una estrategia para diferentes perfiles de votantes y tratar de direccionar el resultado de las elecciones. Por ello, el objetivo de mi trabajo de fin de máster es crear un dashboard interactivo con datos sobre intención de voto.
¿Cuál es la base de este proyecto?
Para realizar el proyecto la base fundamental son los datos. Los obtenemos de una fuente pública, el Censo de Investigaciones Sociológicas (CIS). Este instituto se encarga de realizar encuestas y normalizar las respuestas, por lo que podemos obtener una base de datos amplia para poder realizar el trabajo.
Una vez obtenemos los datos, debemos realizar tratamiento de datos. Es un trabajo de limpieza, muy minucioso, poco visible, y que lleva mucho tiempo pero, a la vez, es el más importante. El objetivo es identificar cuáles son los registros y variables que no vamos a poder usar, bien porque tienen datos erróneos, o bien porque tiene una cantidad de datos vacíos importante.
Las herramientas que usamos para realizar esta tarea son lenguajes SQL y R. Transformando los datos, nos queda un dataset limpio, y pasamos a la siguiente fase: realizar un análisis exploratorio.
¿Podrías explicarnos en qué consiste dicho análisis?
Con este análisis obtenemos una descripción de las variables cuantitativas y cualitativas. Vamos a ver tres ejemplos visuales de lo que hemos visto en este análisis.
Histograma de encuestas por provincia
Excepto Barcelona, Madrid, Ceuta y Melilla, el resto de provincias tiene una participación bastante parecida en el estudio. Se observan 4 bloques.
- Madrid, Barcelona.
- Valencia, Alicante, Sevilla, Málaga y Murcia.
- Ceuta, Melilla.
- Resto.
Distribución de intención de voto
- Dudoso: contiene los registros con resultado: voto blanco, voto nulo, abstención, indeciso, N.S., N.C., …
- Resto: partidos políticos con menos de 2% de valores.
- El 48% de los encuestados se van a abstener o no tienen claro a quién van a votar en las siguientes elecciones. Este grupo de ciudadanos puede ser una oportunidad para que los partidos políticos intenten conseguir su voto.
- Por otra parte, el PSOE es el partido mejor colocado en el periodo de las encuestas.
Densidad y medias de edad por intención de voto
Los votantes de Ciudadanos y Vox tienen una distribución de edad bastante parecida. El PP es el partido con mayor media de edad, y Podemos puede ser el partido con votantes más jóvenes, también observado en el gráfico anterior.
Ratificamos las impresiones anteriores con un gráfico y una misma escala para todos. Con diferencias, los votantes del PP son los mayores. Los votantes de Podemos son los más jóvenes, pero hay una diferencia muy pequeña respecto a Ciudadanos y Vox. Estos gráficos han sido creados con lenguaje R.
El dashboard interactivo
Está creado en la herramienta PowerBI. La razón más importante para escoger esta herramienta es que es muy fácil de usar para usuarios poco técnicos, y es posible hacer un potente análisis muy visual para diseñar estrategias. El dashboard tiene 6 páginas, todas ellas relacionadas entre sí.
En esta página comparativa tenemos:
- Un mapa de calor para identificar donde se encuentra la mayor masa de encuestas que filtremos en el dashboard.
- Un gráfico de dispersión y a la vez filtro para poder segmentar los datos.
- Un gráfico de distribución de género.
- Una caída para ver la situación laboral del segmento que queremos comparar.
- Y, por último, un gráfico comparativo de la densidad de edad del segmento que seleccionemos contra la densidad de edad de todas las encuestas del estudio.
En esta pestaña, una de las más atractivas, podemos ver el flujo de ciudadanos que cambia su intención de voto con respecto a lo que votaron en las últimas elecciones.
El análisis de datos conlleva muchísimo trabajo y es muy poco visual y muy difícil de promover si no creas algo fácil de usar y que sea muy visual y entendible.
En este aspecto, Roberto (mi tutor) propuso realizar un dashboard interactivo, algo que no habíamos explotado de manera muy práctica en el curso, pero que nos habían dado todas las bases para realizarlo. Creo que los dashboard sustituirán en poco tiempo a los gráficos planos y presentaciones en Power Point.
¿Por qué has decidido centrar este proyecto en el ámbito político?
La verdad que tenía dudas sobre tres temas: pandemia Covid-19, algo relacionado con mi profesión, finanzas o entidades financiaras. ¿Por qué política? En Estado Unidos se conocen casos de la influencia de BI en las elecciones, pero no es tan conocido en España y, en este sentido, esta temática nunca pasa de moda.
Seis años atrás no me interesaba mucho la política, ya que prácticamente era un bipartidismo, y te sentías de izquierdas o de derechas. Actualmente hay mucha más pluralidad debido a partidos que han entrado con fuerza, con aire freso y que, a mi entender, intentan dar una visión más juvenil o moderna que los partidos de toda la vida. Esto hizo cambiar mi actitud y mi visión poniendo más atención en este aspecto, e intentando entender por qué cada segmento o grupo vota a quien vota.
Si llegáramos a ser capaces de interpretar por qué cada grupo de personas vota a quien vota, podríamos “manipular” a una gran cantidad de masas (si es que no lo están haciendo ya). Por eso creo que, con un buen análisis y marketing en redes, un partido podría aumentar muchos votos, ya que la mayoría de las personas nos dejamos llevar por lo que leemos o nos cuentan en los medios.
¿Por qué dirías que la analítica de datos es un campo fundamental en estos momentos?
La analítica y modelización me parecen dos herramientas que toda entidad debería de tener y explotar para conseguir una mejor eficiencia en el negocio. Prácticamente cualquier área que se nos venga a la cabeza puede mejorar teniendo datos, realizando análisis, e implementado modelos de predicción para enfocarnos sobre las decisiones que se tiene que tomar. Entidades públicas pueden usarlo para mejorar cualquier servicio, basuras, limpieza, administraciones, hospitales, etc.
Para hacernos una idea, podríamos predecir en segundos si un enfermo debiera de ser ingresado o no sólo con los síntomas y con un análisis de su trayectoria médica. Imaginaos el ahorro de costes, tiempo y previsión de gastos, ocupación de camas de hospitales y ayudas a los sanitarios. Nos podría estar dando unos buenos modelos de predicción. Muchas veces, una buena máquina con los modelos y datos correctos predice mejor y más rápido que una persona (sin menos preciar a nadie ni a ninguna profesión).
¿Cuáles son las posibles aplicaciones de tu investigación?
Mi intención es hacer un dashboard que sea capaz de actualizarlo en menos de 15 minutos, los que tarde en descargar la información. De esta manera tendría información mensual. Por otra parte, me gustaría ser capaz de predecir el resultado de las elecciones.
Por el momento estoy intentando mejorar todas las decisiones y estrategias de la empresa implementado modelos de predicción para ayudar a cada área a ser más eficientes y contribuir a un mejor resultado.
¿Cómo valoras la formación que has recibido en U-tad?
Ha sido una experiencia muy enriquecedora. El profesorado tiene muy buenos expertos, cada uno en su ámbito. Además, el postgrado ha tenido una gran mezcla de teoría y práctica.
Ha aprendido una nueva visión sobre los datos, con una amplia perspectiva de lo importante que es la información en las próximas décadas. Aprendes a perfeccionar técnicas, a programar, aprendes estadística y, sobre todo, la experiencia y anécdotas del profesorado. Esta es uno de los aspectos más enriquecedores, porque un lenguaje de programación lo puedes aprender online en cualquier curso, pero la forma de enseñar que tienen los profesores con experiencias en empresas privadas no lo tienes en cualquier sitio. Tratan de darte siempre un enfoque profesional y buscar utilidad a las asignaturas que están aprendiendo.