DATA MINING

Obiettivi formativi

L'obiettivo del corso è duplice. In primo luogo, esso presenterà la teoria principale dietro l'analisi dei dati. In secondo luogo, sarà hands-on e alla fine gli studenti potranno acquisire familiarità con varie state-of-the-art strumenti e tecniche per l'analisi dei dati. Useremo Python per scaricare i dati così come le ricche biblioteche machine-learning, l'ambiente R per l'elaborazione statistica, e il quadro MapReduce per l'estrazione di dati su larga scala.

Canale 1
ARISTIDIS ANAGNOSTOPOULOS Scheda docente
LUCA BECCHETTI Scheda docente

Programmi - Frequenza - Esami

Programma
Calcolo su vasta scala e analisi di grafi di grandi dimensioni Approccio tradizionale e paradigma MPC (Map Reduce - like). Soluzione di problemi elementari usando Apache Spark Algoritmi MapReduce/Hadoop - like per il conteggio del numero di triangoli e il calcolo delle componenti connesse Principali approcci al problema dell'individuazione di comunità in grafi di grandi dimensioni Tecniche di Hashing e sampling per esplorazione del vicinato Esplorazione del vicinato e il problema dell'elevata dimensionalità dei dati in spazi euclidei Riduzione della dimensionalità in spazi euclidei e non mediante tecniche di hashing Esplorazione efficiente mediante tecniche di hashing e bucketing Riduzione dello spazio di ricerca mediante tecniche di sampling Riduzione della dimensionalità Approccio di base basato sulla decomposizione SVD Tecniche di sparsificazione Tecniche probabilistiche di proiezione in sottospazi a dimensionalità ridotta Tecniche di Sketching e sampling per stream di dati Stima dei momenti in finestre scorrevoli Tecniche di Sketching per la stima e il tracciamento di elementi frequenti Tecniche di Sketching per la stima della dimensione di join Tecniche di Sketching per grafi di grandi dimensioni, con applicazione a esplorazione del vicinato e analisi della struttura a comunità Versioni distribuite nel paradigma MapReduce Algoritmi di semi-streaming per grafi di grandi dimensioni
Prerequisiti
- Nozioni di algebra lineare - Conoscenze di Analisi Matematica e studio delle funzioni, conoscenze di base di calcolo delle probabilità e statistica - Programmazione, algoritmi e strutture dati fondamentali
Testi di riferimento
- Capitoli scelti di "Foundations of Data Science", by Avrim Blum, John Hopcroft, and Ravindran Kannan, available at https://www.cs.cornell.edu/jeh/book.pdf - Capitoli scelti di "Mining of massive datasets" (2nd edition). Cambridge University Press, 2014, by Jure Leskovec, Anand Rajaraman, and Jeffrey David Ullman. - Articoli scientifici e risorse on-line su argomenti specifici
Frequenza
La frequenza alle lezioni teoriche e pratiche non è obbligatoria ma è fortemente consigliata
Modalità di esame
- Homework teorici e pratici assegnati sugli argomenti svolti durante il corso - Prova scritta su tutti gli argomenti del corso - Prova orale
Modalità di erogazione
La modalità di svolgimento è in presenza. Parte dell'attività consisterà in lezioni di tipo teorico accompagnate da altri di tipo pratico, nel corso delle quali gli studenti metteranno in pratica, insieme al docente, i concetti appresi
  • Codice insegnamento1038138
  • Anno accademico2025/2026
  • CorsoEngineering in Computer Science and Artificial Intelligence - Ingegneria Informatica e Intelligenza Artificiale
  • CurriculumCurriculum unico
  • Anno2º anno
  • Semestre1º semestre
  • SSDING-INF/05
  • CFU6