Insegnamenti

 

60/15 - DATA MINING

Anno Accademico ​2016/2017

Docente
BARBARA ​PES (Tit.)
Periodo
Secondo Semestre​
Modalità d'Erogazione
Convenzionale​
Lingua Insegnamento




Informazioni aggiuntive

CorsoPercorsoCFUDurata(h)
[60/65] ​ ​MATEMATICA [65/00 - Ord. 2012] ​ ​PERCORSO COMUNE648
[60/73] ​ ​INFORMATICA [73/00 - Ord. 2015] ​ ​PERCORSO COMUNE648
Obiettivi

Il corso si propone di fornire i fondamenti concettuali e metodologici delle più importanti tecniche di data mining impiegate nei processi di estrazione di conoscenza dai dati.

In particolare, lo studente dovrà conseguire i seguenti obiettivi:

CONOSCENZA E COMPRENSIONE:
Adeguata conoscenza delle principali fasi dei processi di KDD (Knowledge Discovery in Databases), dalla preparazione dei dati, all’estrazione di modelli (patterns) attraverso tecniche di data mining supervisionate (classificazione) e non supervisionate (clustering, regole di associazione), alla valutazione dei risultati.

CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE:
Capacità di analizzare uno specifico problema/caso di studio la cui soluzione richieda l’impiego delle tecniche di data mining illustrate, interpretando e argomentando opportunamente i risultati dell’analisi.

AUTONOMIA DI GIUDIZIO:
Capacità di valutare criticamente l’utilità e i potenziali vantaggi/svantaggi di determinati approcci di analisi in uno specifico contesto applicativo.

ABILITÀ COMUNICATIVE:
Capacità di presentare tematiche e problematiche inerenti al data mining con piena padronanza del linguaggio tecnico proprio della disciplina.

CAPACITÀ DI APPRENDIMENTO:
Acquisizione di un bagaglio concettuale e di una preparazione di base sufficiente per approfondire autonomamente gli argomenti trattati, approcciando anche tematiche di ricerca (che richiedono lo studio di articoli scientifici e materiale bibliografico in lingua inglese), e per applicare le tecniche apprese in nuovi e più complessi progetti/contesti applicativi.

Prerequisiti

Nozioni di base di algoritmi e strutture dati e di basi di dati.

Contenuti

1) INTRODUZIONE
- Che cos’è il Data Mining
- Il ruolo del Data Mining nei processi di KDD (Knowledge Discovery in Databases).

2) I DATI
- Proprietà dei datasets
- Qualità dei dati
- Pre-processing
- Misure di similarità e dissimilarità.

3) CLASSIFICAZIONE
- Generalità sui problemi di classificazione
- Tecniche di classificazione: Alberi decisionali, Classificatori a regole, Nearest-Neighbor, Classificatori Bayesiani, Reti Neurali, Support Vector Machines
- Il problema dell’overfitting
- Valutazione dei modelli di classificazione: metodi e metriche per la valutazione, confronto fra modelli.

4) REGOLE DI ASSOCIAZIONE
- Formulazione del problema (modello market-basket)
- Supporto e confidenza delle regole
- Algoritmo Apriori: ricerca degli itemsets frequenti, generazione delle regole
- Valutazione delle regole.

5) CLUSTERING
- Tipi di clustering
- Algoritmo K-means (e varianti)
- Tecniche gerarchiche
- Valutazione dei clusters.

6) L’AMBIENTE WEKA
- Come applicare le tecniche studiate durante il corso
- Esercitazioni.

Metodi Didattici

L’attività didattica si articola in 48 ore di lezioni frontali, durante le quali vengono anche proposti esercizi sugli argomenti trattati. Agli studenti sono inoltre assegnate esercitazioni aggiuntive da svolgere a casa, singolarmente o in gruppo, che vengono poi corrette e discusse durante le ore di lezione (e, se necessario, durante le ore di ricevimento messe a disposizione dal docente).

Verifica dell'apprendimento

La valutazione dello studente prevede:
- una prova scritta (contenente quiz, domande a risposta aperta ed esercizi), volta a verificare il livello di comprensione e conoscenza dei contenuti teorici del corso nonché il grado di padronanza nell’applicazione di specifiche tecniche di analisi;
- un progetto finale che può avere carattere teorico (studio e discussione di un articolo scientifico) o applicativo (realizzazione e presentazione di un’applicazione di data mining in cui vengono sfruttate alcune delle tecniche illustrate durante il corso).

L’esito della valutazione è espresso mediante un voto in trentesimi (fino ad un max di 6/30 attribuiti tramite il progetto).

Per superare l’esame (voto non inferiore a 18/30), lo studente deve dimostrare almeno una conoscenza di base delle tecniche illustrate durante il corso (pre-processing, classificazione, clustering, analisi associativa). Per conseguire il massimo punteggio, ovvero 30/30 (e lode), lo studente deve dimostrare un’eccellente conoscenza di tutti i contenuti del corso nonché la capacità di applicarli alla risoluzione di problemi. Anche la capacità espositiva e il grado di padronanza del lessico proprio della disciplina concorrono a determinare il voto finale.

Testi

Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, Pearson.

Ian H. Witten, Eibe Frank, Mark A. Hall, Christopher J. Pal, DATA MINING: Practical Machine Learning Tools and Techniques, Morgan Kaufmann.

Altre Informazioni

Strumenti a supporto della didattica:
slides delle lezioni, esercizi, articoli scientifici per l’approfondimento di alcuni temi specifici.

credits unica.it | accessibilità Università degli Studi di Cagliari
C.F.: 80019600925 - P.I.: 00443370929
note legali | privacy

Nascondi la toolbar