Università degli studi dell'Insubria

DATA MINING: PROBLEMI, STRUMENTI ED APPLICAZIONI

A.A. di erogazione 2017/2018

Laurea Magistrale in INFORMATICA
 (A.A. 2016/2017)

Docenti

GENTILE CLAUDIO
Anno di corso: 
2
Tipologia di insegnamento: 
Caratterizzante
Settore disciplinare: 
INFORMATICA (INF/01)
Crediti: 
6
Ciclo: 
Primo Semestre
Ore di attivita' frontale: 
56
Dettaglio ore: 
Lezione (40 ore), Laboratorio (16 ore)

Il corso mira a far acquisire familiarità con problemi, metodi e strumenti di Data Mining di attuale interesse applicativo/industriale su dati di grandi dimensioni. Per l'uso di tali dati e delle piattaforme hardware/software relative, verranno sottoposte richieste di grant AWS (Amazon Web Services) for education.
I contenuti didattici includono: mining di regole di associazione e pattern sequenziali, alberi di decisione, classificazione lineare e lineare generalizzata (funzioni kernel, Support Vector Machine, ecc); metodi di aggregazione; problemi e metodi di apprendimento ad informazioni parziali; classificazione gerarchica; ranking; collaborative filtering; data mining su reti.

In sintesi, gli obiettivi dell'insegnamento ed i risultati attesi di apprendimento sono i seguenti:
- Acquisire conoscenze di base dei metodi di Data Mining su dati di grandi dimensioni e delle problematiche relative.
- Acquisire capacità nell'applicare tali conoscenze a problemi reali, declinando con giudizio critico i metodi in relazione ai problemi da risolvere.
- Capacità di apprendimento di nuove metodologie e di svolgere analisi comparative con quanto è già noto allo studente.

Prerequisiti: 

Contenuti di base del corso di Sistemi Intelligenti erogato al primo anno del corso di laurea magistrale.

- Mining di regole di associazione e pattern sequenziali, alberi di decisione, classificazione lineare e lineare generalizzata (funzioni kernel, Support Vector Machine, ecc). Metodi di aggregazione (bagging e boosting). (16 ore).
- Problemi e metodi di apprendimento ad informazioni parziali (tradeoff esplorazione-sfruttamento, "bandit problems", crowdsourcing); e strutturata (classificazione gerarchica; ranking; collaborative filtering). (10 ore).
- Data mining su reti (co-training, transfer learning, active learning e semi-supervised learning su reti di task, pagerank per la classificazione di strutture testuali linkate, community discovery, ecc.). (14 ore)
- Attività di laboratorio: L'enfasi sarà su problemi reali inerenti reti sociali online e su problemi di Web recommendation/Web advertising. E' previsto l'uso di software standard quali Matlab (o sue versioni freeware), e/o di MapReduce/Hadoop. (16 ore).

40 ore di lezione frontale vengono svolte in aula, le 16 ore di laboratorio vengono invece svolte presso un attrezzato laboratorio informatico. Nel laboratorio viene fornita assistenza continua da parte del docente.

Modalita' di verifica dell'apprendimento: 

L'esame consta di un progetto e di un colloquio orale. Il progetto viene proposto dallo studente
in base ai suoi precipui interessi. In assenza di specifiche proposte, il progetto è proposto dal
docente. Nel progetto gli studenti sono tipicamente chiamati ad implementare semplici metodi di
indagine sperimentale su dati messi loro a disposizione (o scaricati) da reti sociali online e/o
da siti di web advertisement e/o da dati di banchmarking di altra natura disponibili su repository
online. Tali indagini sono volte ad accertare la capacità degli studenti di adattare i metodi
studiati ai casi reali, comprendendone eventualmente le specificità. Il progetto deve essere
accompagnato da una breve relazione che descriva i contenuti e le risultanze ottenute. L'esito
del progetto, in trentesimi, è positivo (e consente l'accesso al successivo esame orale) se
riporta una votazione almeno pari a 18/30. La prova orale consta di un colloquio la cui prima
domanda è sempre la discussione dei risultati del progetto. Durante l'esame orale lo studente
deve mostrare comprensione dei metodi trattati a lezione, dei loro vantaggi e dei loro svantaggi.
La prova complessiva è superata con una votazione finale di almeno 18/30. Il voto del progetto
concorre in modo significativo alla determinazione del voto finale.

- B. Liu, "Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data", Springer, 2011 (capp. 1, 2, 3, 6, 7, 12)
- A. Rajaraman, J. Leskovec, J. D. Ullman, "Mining of Massive Datasets" (cap. 3)
- T.M Mitchell, "Machine Learning", McGraw-Hill (cap. 3)
- Slide fornite dal docente

Cerchi il programma? Potrebbe non essere ancora stato caricato o riferirsi ad insegnamenti che verranno erogati in futuro.
Seleziona l‘anno in cui ti sei immatricolato e troverai le informazioni relative all'insegnamento del tuo piano di studio.

A.A. 2017/2018

Anno di corso: 2
Curriculum: GENERICO

A.A. 2015/2016

Anno di corso: 2
Curriculum: GENERICO

A.A. 2014/2015

Anno di corso: 2
Curriculum: GENERICO

A.A. 2013/2014

Anno di corso: 2
Curriculum: GENERICO