Programma
Calcolo su vasta scala e analisi di grafi di grandi dimensioni
Approccio tradizionale e paradigma MPC (Map Reduce - like). Soluzione di problemi elementari usando Apache Spark
Algoritmi MapReduce/Hadoop - like per il conteggio del numero di triangoli e il calcolo delle componenti connesse
Principali approcci al problema dell'individuazione di comunità in grafi di grandi dimensioni
Tecniche di Hashing e sampling per esplorazione del vicinato
Esplorazione del vicinato e il problema dell'elevata dimensionalità dei dati in spazi euclidei
Riduzione della dimensionalità in spazi euclidei e non mediante tecniche di hashing
Esplorazione efficiente mediante tecniche di hashing e bucketing
Riduzione dello spazio di ricerca mediante tecniche di sampling
Riduzione della dimensionalità
Approccio di base basato sulla decomposizione SVD
Tecniche di sparsificazione
Tecniche probabilistiche di proiezione in sottospazi a dimensionalità ridotta
Tecniche di Sketching e sampling per stream di dati
Stima dei momenti in finestre scorrevoli
Tecniche di Sketching per la stima e il tracciamento di elementi frequenti
Tecniche di Sketching per la stima della dimensione di join
Tecniche di Sketching per grafi di grandi dimensioni, con applicazione a esplorazione del vicinato e analisi della struttura a comunità
Versioni distribuite nel paradigma MapReduce
Algoritmi di semi-streaming per grafi di grandi dimensioni
Prerequisiti
- Nozioni di algebra lineare
- Conoscenze di Analisi Matematica e studio delle funzioni, conoscenze di base di calcolo delle probabilità e statistica
- Programmazione, algoritmi e strutture dati fondamentali
Testi di riferimento
- Capitoli scelti di "Foundations of Data Science", by Avrim Blum, John Hopcroft, and Ravindran Kannan, available at https://www.cs.cornell.edu/jeh/book.pdf
- Capitoli scelti di "Mining of massive datasets" (2nd edition). Cambridge University Press, 2014, by Jure Leskovec, Anand Rajaraman, and Jeffrey David Ullman.
- Articoli scientifici e risorse on-line su argomenti specifici
Frequenza
La frequenza alle lezioni teoriche e pratiche non è obbligatoria ma è fortemente consigliata
Modalità di esame
- Homework teorici e pratici assegnati sugli argomenti svolti durante il corso
- Prova scritta su tutti gli argomenti del corso
- Prova orale
Modalità di erogazione
La modalità di svolgimento è in presenza. Parte dell'attività consisterà in lezioni di tipo teorico accompagnate da altri di tipo pratico, nel corso delle quali gli studenti metteranno in pratica, insieme al docente, i concetti appresi