Processo di estrazione di conoscenza o KDD

In genere, quando si parla di analisi dei dati, che sia limitata a piccole banche dati o estesa ai grandi numeri dei big data, si parla di data mining, che però è solo una fase del processo di estrazione di conoscenza dai dati, in inglese Knowledge Discovery in Databases o KDD. Anche se il contributo dell’uomo per ora non è eliminabile, l’enorme proliferare di dati che sempre più caratterizza il nostro tempo ha creato l’esigenza di utilizzare tecniche e strumenti con la capacità di assistere in modo intelligente e automatico gli utenti decisionali nell’estrazione di elementi di conoscenza dai dati. Il KDD è un processo che unifica operazioni automatiche e scelte, decisioni e deduzioni umane, per estrarre conoscenza significativa e utilizzabile da masse informi di dati bruti ed eterogenei. I modelli vengono individuati in automatico, ma in particolare le fasi iniziali e finali del processo richiedono esperti del dominio applicativo, di analisi dati, di informatica.

Le fasi di un KDD sono:

  1. Selezione dei dati (data selection): definisce l’ambito di raccolta dei dati, gli scopi e gli obiettivi della ricerca, il tipo di conoscenza da acquisire in funzione della conoscenza già disponibile, i problemi da affrontare, il tipo di dati utili, le fonti di dati.
  2. Pre-processamento dei dati (data preprocessing): pulizia delle informazioni, eliminando il “rumore” o altri disturbi dei dati; organizzazione preparatoria dei dati da analizzare, analisi esplorative; messa a punto di strategie per gestire i dati mancanti e i dati che variano nel tempo.
  3. Trasformazione dei dati (data transformation): i dati sono selezionati, unificati e consolidati in formati adatti all’analisi da fare, riducendone la varietà e selezionando i dati di qualità superiore.
  4. Esplorazione (data mining): utilizzo di algoritmi per analizzare i dati e scoprire modelli interessanti, o per estrarre conoscenza interessante da questi dati; individuazione parametri, elaborazione, modellizzazione, valutazione modelli.
  5. Valutazione (evaluation): documentazione e interpretazione dei risultati raggiunti dalle fasi precedenti. Consolidamento della conoscenza estratta, documentazione e reporting alle parti interessate. Risoluzione di potenziali contraddizioni con le conoscenze precedenti.

Il processo è ricorsivo, perché da qualunque fase si può tornare alle fasi precedenti per raffinare la conoscenza acquisita, o trasformarla secondo le richieste dell’utilizzatore.