Fuentes
Los datos de las distintas herramientas proceden de fuentes oficiales: portales de datos abiertos de las administraciones, registros públicos y publicaciones oficiales. Cuando los datos oficiales son insuficientes o no están en un formato que permita trabajar con ellos, se recurre a otras fuentes —organizaciones como el Defensor del Pueblo— que se documentan en cada herramienta.
Proceso
Los datos pasan por tres etapas: extracción, transformación y carga. La extracción obtiene los datos de las fuentes originales. La transformación los limpia, normaliza y estructura. La carga los hace disponibles para las herramientas de visualización, así como para descarga individual de cada usuario.
Todos los pasos están documentados y, en la medida de lo posible, automatizados para garantizar su mantenimiento. El código de cada proceso está disponible en el repositorio del proyecto.
Uso de inteligencia artificial
Parte del proceso de obtención y clasificación de datos se ha apoyado en herramientas de inteligencia artificial. Concretamente, para tareas de extracción automatizada en las que el volumen de datos o la dificultad de acceso a los mismos haría extremadamente complejo el trabajo manual: reconocimiento de entidades, clasificación de textos y detección de duplicados.
Todos los resultados generados automáticamente se han revisado manualmente, siendo los criterios de análisis propios. La IA se usa únicamente como herramienta de procesamiento, sin poder decisivo sobre aspectos metodológicos.
Limitaciones
La calidad de los datos depende de lo que publiquen las administraciones, habiendo una variedad de casuísticas. Existe información que no se publica usando formatos accesibles, campos vacíos o mal rellenados, identificadores inconsistentes entre organismos, o procesos que simplemente no se publican, aunque deberían.
La ausencia de datos forma parte del análisis y desde las herramientas se anima a los ciudadanos a requerir información a los organismos públicos en aquellos casos donde la opacidad es notable.
Metodología por herramienta
Cada herramienta tiene su propia página de metodología donde se detalla todo lo anterior aplicado a ese caso concreto: fuentes específicas, proceso, limitaciones conocidas y criterios de análisis propios.
Las transformaciones aplicadas —deduplicación, normalización de identificadores, agrupación— también se describen en estos apartados para que cualquiera pueda evaluarlas e incluso mejorarlas.