Insegnamenti

 

60/15 - DATA MINING

Anno Accademico ​2019/2020

Docente
BARBARA ​PES (Tit.)
Periodo
Secondo Semestre​
Modalità d'Erogazione
Convenzionale​
Lingua Insegnamento
ITALIANO​



Informazioni aggiuntive

CorsoPercorsoCFUDurata(h)
[60/65] ​ ​MATEMATICA [65/20 - Ord. 2012] ​ ​Applicativo648
[60/68] ​ ​FISICA [68/00 - Ord. 2014] ​ ​PERCORSO COMUNE648
[60/73] ​ ​INFORMATICA [73/00 - Ord. 2017] ​ ​PERCORSO COMUNE648
Obiettivi

Il corso si propone di fornire i fondamenti concettuali e metodologici delle più importanti tecniche di data mining impiegate nei processi di estrazione di conoscenza dai dati.

In particolare, lo studente dovrà conseguire i seguenti obiettivi:

CONOSCENZA E COMPRENSIONE:
Adeguata conoscenza delle principali fasi dei processi di KDD (Knowledge Discovery in Databases), dalla preparazione dei dati, all’estrazione di modelli (patterns) attraverso tecniche di data mining supervisionate (classificazione) e non supervisionate (clustering, regole di associazione), alla valutazione dei risultati.

CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE:
Capacità di analizzare uno specifico problema/caso di studio la cui soluzione richieda l’impiego delle tecniche di data mining illustrate, interpretando e argomentando opportunamente i risultati dell’analisi.

AUTONOMIA DI GIUDIZIO:
Capacità di valutare criticamente l’utilità e i potenziali vantaggi/svantaggi di determinati approcci di analisi in uno specifico contesto applicativo.

ABILITÀ COMUNICATIVE:
Capacità di presentare tematiche e problematiche inerenti al data mining con piena padronanza del linguaggio tecnico proprio della disciplina.

CAPACITÀ DI APPRENDIMENTO:
Acquisizione di un bagaglio concettuale e di una preparazione di base sufficiente per approfondire autonomamente gli argomenti trattati, approcciando anche tematiche di ricerca (attraverso lo studio di articoli scientifici), e per applicare le tecniche apprese in nuovi e più complessi progetti/contesti applicativi.

Prerequisiti

Lo studente deve avere familiarità con le nozioni di base di algoritmi e strutture dati.
Sono inoltre utili nozioni di base di probabilità e statistica e di basi di dati.

Contenuti

1) INTRODUZIONE
- Che cos’è il Data Mining
- Il ruolo del Data Mining nei processi di KDD (Knowledge Discovery in Databases).

2) I DATI
- Proprietà dei datasets
- Qualità dei dati
- Pre-processing
- Misure di similarità e dissimilarità.

3) CLASSIFICAZIONE
- Generalità sui problemi di classificazione
- Tecniche di classificazione: Alberi decisionali, Classificatori a regole, Nearest-Neighbor, Classificatori Bayesiani, Reti Neurali, Support Vector Machines
- Il problema dell’overfitting
- Valutazione dei modelli di classificazione: metodi e metriche per la valutazione, confronto fra modelli.

4) REGOLE DI ASSOCIAZIONE
- Formulazione del problema (modello market-basket)
- Supporto e confidenza delle regole
- Algoritmo Apriori: ricerca degli itemsets frequenti, generazione delle regole
- Valutazione delle regole.

5) CLUSTERING
- Tipi di clustering
- Algoritmo K-means (e varianti)
- Tecniche gerarchiche
- Valutazione dei clusters.

6) L’AMBIENTE WEKA
- Come applicare le tecniche studiate durante il corso
- Esercitazioni.

Metodi Didattici

L’attività didattica si articola in 48 ore di lezioni frontali, durante le quali vengono anche proposti esercizi sugli argomenti trattati. Agli studenti sono inoltre assegnate esercitazioni aggiuntive da svolgere a casa, singolarmente o in gruppo, che vengono poi corrette e discusse durante le ore di lezione, così da fornire agli studenti uno strumento per consolidare e auto-valutare le proprie conoscenze. Il docente si rende disponibile per fornire assistenza personalizzata e supporto durante l’orario di ricevimento e via mail.

Verifica dell'apprendimento

La valutazione dello studente prevede:
- una prova scritta (contenente quiz, domande a risposta aperta ed esercizi), volta a verificare il livello di comprensione e conoscenza dei contenuti teorici del corso nonché il grado di padronanza nell'applicazione di specifiche tecniche di analisi;
- un progetto finale che può avere carattere teorico (studio e discussione di un articolo scientifico) o applicativo (sperimentazione di alcune delle tecniche di data mining illustrate durante il corso e discussione dei risultati ottenuti), che mira a verificare la capacità dello studente di approcciare autonomamente e con spirito critico nuovi argomenti/casi di studio.

L’esito della valutazione è espresso mediante un voto in trentesimi, così determinato:
- alla prova scritta sono attributi fino ad un massimo di 28 punti;
- al progetto sono attribuiti fino ad un massimo di 4 punti;
- i punti conseguiti a seguito della prova scritta e del progetto vengono sommati: per superare l’esame è necessario ottenere, in totale, almeno 18 punti; chi consegue un punteggio complessivo superiore a 30 (ovvero 31 o 32) riceve la lode (30 e lode).

Per superare l’esame (voto finale non inferiore a 18/30), lo studente deve dimostrare almeno una conoscenza di base delle tecniche illustrate durante il corso (pre-processing, classificazione, clustering, analisi associativa). Per conseguire il massimo punteggio, ovvero 30 e lode, lo studente deve dimostrare un’eccellente conoscenza di tutti i contenuti del corso nonché la capacità di applicarli alla risoluzione di problemi. Anche la capacità espositiva e il grado di padronanza del lessico proprio della disciplina concorrono a determinare il voto finale.

Testi

Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, Vipin Kumar, Introduction to Data Mining, Pearson, 2018. (testo di riferimento)

Ian H. Witten, Eibe Frank, Mark A. Hall, Christopher J. Pal, DATA MINING: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, 2016. (testo di approfondimento)

Altre Informazioni

Strumenti a supporto della didattica: slides delle lezioni, esercitazioni, esempi di esercizi risolti, articoli scientifici per l’approfondimento di alcuni temi specifici.

Tutto il materiale di supporto è accessibile attraverso la piattaforma di e-learning di ateneo (https://elearning.unica.it/).

credits unica.it | accessibilità Università degli Studi di Cagliari
C.F.: 80019600925 - P.I.: 00443370929
note legali | privacy

Nascondi la toolbar