angle-left News DAF: L’infrastruttura su cui corrono i dati della PA

DAF: L’infrastruttura su cui corrono i dati della PA

Il Data & Analytics Framework ha l’obiettivo di sviluppare e semplificare l’interoperabilità dei dati pubblici tra PA e promuovere la diffusione degli Open Data.

Attualmente, per quanto riguarda lo scambio di dati tra le Pubbliche Amministrazioni, è ancora diffusa la pratica di stipule di convenzioni o di accordi diretti tra PA per regolare lo scambio di dati necessari per lo svolgimento di attività istituzionali. Tale pratica non risulta scalabile e pone numerosi limiti alla condivisione dell’informazione del settore pubblico.

Il DAF – Acronimo di Data & Analytics Framework approvato nell’ambito del Piano Triennale per l’Informatica nella PA 2017-2019 - ha l’obiettivo di sviluppare e semplificare l’interoperabilità dei dati pubblici tra PA, standardizzare e promuovere la diffusione degli open data, ottimizzare i processi di analisi dati e generazione di conoscenza, supportando iniziative di ricerca scientifica favorendo la collaborazione con Università ed enti di ricerca.

Il Big Data Team della PA, istituito all’interno del Team digitale, ha il compito di gestire attivamente la fase di sviluppo concettuale e implementativo dell’infrastruttura, insieme a tutte le fasi del ciclo di vita del dati, dall’ingestione all’analisi e sviluppo di applicazioni.

La scalabilità orizzontale delle tecnologie per la gestione e l’analisi dei big data permette di estrarre informazioni dall’incrocio di molteplici basi di dati e di processarli real-time, consentendo di avere più prospettive di analisi su un dato fenomeno, in maniera tempestiva, generando una sensibile valorizzazione del patrimonio informativo della PA.

Il DAF permette di favorire e ottimizzare lo scambio dei dati tra PA minimizzandone i costi e consentendo un accesso standardizzato ad un dato sempre aggiornato. Di conseguenza si renderà più efficace l’utilizzo degli open data, centralizzando e redistribuendo i dati pubblici attraverso API.

Nel concreto, il DAF è composto da una Piattaforma Big Data Team ed un Data Portal. A sua volta, la piattaforma è costituita da un data lake, un insieme di data engine e strumenti per la comunicazione dei dati.

Nel data lake vengono memorizzati dati di potenziale interesse quali basi di dati che le PA generano per svolgere il proprio mandato istituzionale; i dati generati dai sistemi informatici delle Pubbliche Amministrazioni come log e dati di utilizzo; i dati autorizzati provenienti dal web e dai social network di potenziale interesse della Pubblica Amministrazione.

I big data engine vengono utilizzati per armonizzare ed elaborare, sia in modalità batch che real-time, i dati grezzi memorizzati nel data lake ed implementare modelli di machine learning. Per fare ciò vengono utilizzati sia strumenti per l’interscambio dei dati (utili a favorire la fruizione dei dati elaborati da parte dei soggetti interessati) sia di analisi e visualizzazione dei dati offerti in modalità self-serviceagli utilizzatori del DAF.

Il Dataportal consente all’utente di popolare il proprio profilo con dati di interesse, estratti dal DAF. In particolare, il dataportal si compone di un catalogo dei dataset basato su CKAN (che gestisce i metadati relativi sia ai dati contenuti nel DAF che agli open data harvestati dai siti delle PA), di interfacce utente per accedere ai tool di analisi e data visualization, di un modulo riservato alle PA per gestire il processo di ingestion e gestione dei dati e metadati nel DAF ed un modulo per data stories, attraverso il quale gli utenti possono pubblicare le proprie analisi e collaborare con altri utenti.

Gioca un ruolo chiave il lavoro, fatto soprattutto da AgID, per adottare un formato comune, il cosiddetto DCAT, nel descrivere le caratteristiche generali di un data set e dei file che lo compongono. Per gli utenti più avanzati, dal Data Portal si può accedere ad applicazioni come Metabase, che consente di recuperare dati con un linguaggio simile ad SQL.

18/04/2019

daf open data big data