Dati 25012-25024 e DIS 5259-2
L’importanza dei dati
Il presupposto dell’AI è il dato, l’asset principale del sistema salute. “I dati sono importanti come l’acqua e rappresentano il futuro. Essi non sono una convenzione, ma raccontano la verità, forniscono informazioni legate alla conoscenza. I dati sono parte della vita e la loro qualità dipende da diverse caratteristiche: accuratezza, coerenza, completezza, credibilità, riservatezza, tracciabilità, disponibilità e altre ancora” ha affermato Domenico Natale, Membro della Commissione CEN-CENELEC JTC 21 IA.
Dal resoconto della giornata sull'Intelligenza artificiale ed Ecosistema umano:
https://www.innlifes.com/digital-health/intelligenza-artificiale-ecosistema-umano/
D. Natale, L'importanza della Data Quality (Convegno AiSDeT sull'Intelligenza artificiale ed Ecosistema umano, Palazzo Giustiniani, Roma, 16 maggio 2024)
D. Natale, La qualità dei dati e la ISO/IEC 25012 (Articolo Rivista UNI, 2009)
D. Natale, M.C. Paoletti, A. Simonetta, La qualità dei dati e l'informazione statistica (Articolo Rivista INAIL, 2012) (Assicurazioni e Statistica)
D. Natale, La qualità dei dati: concetti e misure (Articolo Rivista UNI, 2016)
I. Caballero, M. Piattini, Data Governance. From the Fundamentals to Real Cases, Springer, 2024.
Decalogo dati
L'ISO/IEC 25012, in Italia UNI CEI ISO/IEC 25012, definisce il modello di qualità dei dati, l'ISO/IEC 25024 definisce la misurazione della qualità dei dati, l'ISO/IEC DIS 5259-2, definisce le misure di qualità dei dataset per i sistemi di Machine learning nell'ambito dell'Intelligenza Artificiale.
Il modello di qualità originale del 2008 relativo a dati individuali strutturati è rappresentato di seguito che categorizza gli attributi di qualità in 15 caratteristiche: inerenti e dipendenti dal sistema.
Fonte: Rivista U&C UNI, Marzo 2009 D.N. "La qualità dei dati e la ISO/IEC 25012"
ISO/IEC 25012 “Data quality model”
La qualità dei dati non si raggiunge da soli, da singole imprese, ma dall'intero sistema. La qualità dei dati aiuta lo sviluppo del Paese e la Trasformazione digitale. La qualità dei dati è al servizio non solo del committente ma anche dell'utente finale.
La prima certificazione relativa all'ISO/IEC 25012 è stata rilasciata in Italia nel 2020 ad Infocamere, dall'Ente di certificazione AENOR, relativamente alla qualità dei dati del Registro delle Imprese.
Lo standard 25012 può essere utilizzato in un quadro integrato di qualità del software, processi e servizi volto a prevenire la qualità di un "Data Lake" caratterizzato dalla armonizzazione semantica di informazioni, prescelte nel contesto di utilizzo, per un efficiente interscambio di dati.
Lo standard è un riferimento per le parti interessate alla qualità dei dati, dallo sviluppo alla manutenzione, secondo le priorità dei responsabili del software, dati e servizi.
Il modello si propone di rispondere alle esigenze di qualità dei dati, anche in vista di integrazioni tra sistemi e di una effettiva "Data Governance". In Italia tale tematica di integrazione è già affiorata dagli albori dell'informatica, fin dal 1962, come documentato da cenni storici.
Questo standard internazionale è divenuto nel 2014 norma nazionale con la sigla UNI CEI ISO/IEC 25012 "Modello di qualità dei dati". Esso è stato sviluppato in ambito ISO con il contributo della Commissione Ingegneria del Software dell’UNINFO. Definisce un modello generale di qualità applicabile ad ogni dominio applicativo e utilizzabile da vari utenti.
Lo standard descrive un modello di qualità dei dati strutturati che categorizza gli attributi di qualità.
Il modello di qualità dei dati è stato definito per i dati strutturati di un sistema informatico. Tiene in conto tutti i tipi di dati (es. stringhe di caratteri, testi, numeri, immagini, suoni, ecc.), valori assegnati e relazioni tra dati (nello stesso sistema o tra sistemi diversi). Include i metadati (dati che descrivono altri dati). A seconda del processo o dell'uso che se ne fa, assumono diverso significato.
Nell'archivistica (documentale) si prevedono "metadati minimi" che sembrano essere insieme di dati: codice, data, produttore. Anch'essi sono dati se presi singolarmente. La gestione dei dati e metadati cambia nell'Agile approach, come oggetti di particolari processi che favoriscono integrazioni e interoperabilità. Nell'aspetto elementare (atomico) dell'informazione comunque devono essere coerenti, aggiornati, credibili, comprensibili, ecc.
La qualità delle caratteristiche è influenzata dalla qualità dei requisiti e da una buona progettazione del modello dati. La valutazione derivante dall' analisi dei livelli di qualità raggiunti offre feedback per migliorare il processo e i requisiti.
L'ISO/IEC 25012 è anche alla base del nuovo standard in realizzazione ISO/IEC 5259-2 Data quality measure (in sviluppo) gestito dall'ISO/IEC JTC1 SC42. Introduce 9 caratteristiche di qualità e 24 nuove misure di qualità per dataset, ad esempio relative a Balance del campione, rappresentatività, ecc. Alcune informazioni nell'articolo sulla qualità di modelli per l'Intelligenza Artificiale
ISO/IEC 25024 "Measurement of data quality"
Il 25012 è alla base dell'ISO/IEC 25024 sulla misurazione della qualità dei dati, che fornisce 63 misure di qualità. Una delle prime misurazioni aziendali fu effettuata sperimentalmente nel 2009 con i seguenti risultati parziali.
Il numero delle 63 misure proposte (inerenti e dipendenti dal sistema) per le caratteristiche di qualità dei dati sono:
- accuratezza: 7 (sintattica, semantica, metadata…)
- completezza: 8 (record, file…)
- coerenza: 6 (integrità, formati…)
- credibilità: 4 (fonti, dizionari…)
- attualità: 3 (aggiornamenti, frequenza…)
- accessibilità: 3 (formati, device…)
- conformità: 2 (regolamenti…)
- riservatezza: 2 (crittografia…)
- efficienza: 7 (duplicazioni, spazio…)
- precisione: 2 (valori…)
- tracciabilità: 3 (accessi…)
- comprensibilità: 7 (simboli, rappresentazioni…)
- disponibilità: 3 (sistemi, orari…)
- portabilità: 3 (migrazione…)
- ricoverabilità: 3 (backup…)
Nel 2016 è divenuto anche norma nazionale UNI CEI ISO/IEC 25024. Nel 2018 l'UNI ha pubblicato la Linea guida per la sua applicazione UNI TS 11725.
Tornando alle caratteristiche di accessibilità e comprensibilità dei dati sono fortemente connesse con le proprietà di accessibilità e usabilità (o capacità di interazione).
Secondo l'ISO/IEC 25012 la caratteristica di accessibilità, è riferita ai dati e documenti, mentre secondo l'ISO/IEC 25010 viene riferita alla navigazione dei siti web e app.
Le caratteristiche di accuratezza e completezza, conformità, riservatezza, tracciabilità, disponibilità e ripristinabilità sono indirettamente connesse con le problematiche della sicurezza.
Il modello prende in considerazione i dati strutturati, utile in generale per tutti i tipi di dati (stringhe, testi, date, numeri, immagini, suoni, ecc.).
In generale lo standard propone il perseguimento della qualità dei dati strutturati e concorre al miglioramento dei sistemi informatici e delle organizzazioni. Contribuisce a individuare le azioni di bonifica necessarie fornendo orientamenti di miglioramento per eventuali aspetti procedurali dei dati non automatizzati.
La sua applicazione è propedeutica e complementare rispetto alle finalità dei Big data e del Cloud in una prospettiva di Data Lake.
Alcune caratteristiche del modello della qualità dei dati possono essere anche applicate ad oggetti, come per esempio la segnaletica.
E' cosa nota come nel campo della qualità dei dati ricadono numerosi fenomeni socio-economici attuali come anche agli ambiti della salute e dell'ambiente. Molte problematiche decisionali possono essere generate da dati la cui qualità non è conosciuta.
Si precisa infine che la serie ISO 8000 sull'Industrial Data dichiara nel paragrafo 4 dell'ISO 8000-1:2022 che l'ISO/IEC 25000 è considerato fuori campo della sua applicazione riguardando la qualità del prodotto, non essendoci quindi sovrapposizioni.
Dati ISO/IEC FDIS 5259-2 "Data quality measures"
L'ISO/IEC 25012 e l'ISO/IEC 25024 sui dati si stanno integrando con il nome 5259-2 "Data quality measures" in un unico standard dedicato all'Intelligenza artificiale, sotto la gestione dell'ISO/IEC JTC1 SC42 orientato all'IA. Lo standard 5259-2 ha definito anche 9 nuove caratteristiche di qualità con relative misure per i dataset:
- disponibilità (availability)
- identificabilità (identifiability)
- bilanciamento (balance)
- diversità (diversity)
- efficacia (effectiveness)
- rilevanza (relevance)
- rappresentatività (representativeness)
- similarità (similarity)
- tempestività (timeliness)
Il 5259-2 è parte della serie 5259, in fase di completamento e pubblicazione, relativa ai dati, composta anche di:
• 5259-1: Overview, terminologia, ad example
• 5259-3: Data quality management
• 5259-4: Data quality process framework
• 5259-5: Data quality governance
• 5259-6: Data quality visualization
in un quadro di tecnologie emergenti.
Un articolo del 2022 "Estensioni di modelli di qualità dell'ISO/IEC 25000 al contesto dell'Intelligenza Artificiale" descrive come introdurre, oltre a nuove sotto-caratteristiche di qualità del software o sistemi, nuove caratteristiche del modello ISO/IEC 25012, relativamente ai dataset.
Dati CEN/CENELEC JTC21
A livello Europeo sui dati, in ambito Intelligenza Artificiale, sono in realizzazione e adozione vari standard per l'IA compatibili con la legislazione Europea, tra cui l'ISO/IEC 5259-2 "Data quality measures" per le Machine learning.
Maggiori informazioni sono date nei corsi di formazione.
Per i termini di Privacy e Cookies si rinvia alla informativa generale di Shinystat