LARGE-SCALE DATA MANAGEMENT

Obiettivi formativi

Obiettivi generali: L'obiettivo del corso è di comunicare agli studenti i concetti di base della gestione dei sistemi informativi a larga scala. Verranno esaminati in dettaglio due argomenti specifici, vale a dire i modelli informativi per la gestione dei Big Data e l'integrazione delle informazioni. Entrambi gli argomenti sono estremamente rilevanti nella società basata sui dati, in cui praticamente tutti i sistemi informativi di organizzazioni di dimensioni ragionevoli devono sia gestire grandi set di dati sia interagire con diverse fonti di dati. Obiettivi specifici: Studiare i modelli di dati utilizzati nella gestione di Big Data, in particolare i modelli di dati NoSQL, che includono i modelli di dati basati su colonne, su coppie chiave-valore e su documenti, e acquisire familiarità con le nozioni e le tecniche per l'integrazione delle informazioni. Conoscenza e comprensione: Dopo il corso lo studente avrà una buona conoscenza delle differenze e delle somiglianze tra il modello relazionale e le varie classi di modelli di dati NoSQL. Inoltre, gli studenti capiranno le questioni teoriche relative all'integrazione e allo scambio dei dati e avranno una buona conoscenza delle varie architetture dei sistemi di integrazione delle informazioni. Applicare conoscenza e comprensione: Gli studenti saranno in grado di progettare il proprio repository Big Data utilizzando uno dei modelli di dati adottati nella pratica, di scegliere un'architettura appropriata per l'integrazione delle informazioni e di costruire e mantenere un sistema di integrazione delle informazioni strutturato in base all'architettura scelta. Capacità critiche e di giudizio: Lo studente sarà in grado di valutare i requisiti per un sistema di gestione di Big Data e sarà in grado di scegliere il giusto modello di dati e l'infrastruttura adeguata. Analogamente, lo studente sarà in grado di comprendere i requisiti per uno specifico sistema di integrazione delle informazioni e scegliere gli approcci e le tecniche appropriate per la progettazione di una soluzione di alta qualità. Capacità comunicativa: Gli studenti acquisiranno una buona conoscenza su come illustrare i risultati di un processo di progettazione, sia nel contesto della gestione dei Big Data, sia nel contesto dei sistemi di integrazione delle informazioni. Capacità di apprendimento: Lo studente sarà in grado di comprendere qualsiasi nuova architettura e approccio alla gestione dei Big Data e all'integrazione delle informazioni che diventeranno popolari in futuro.

Canale 1
ANTONELLA POGGI Scheda docente

Programmi - Frequenza - Esami

Programma
Big Data Management: --------------------------- - Introduzione ai Big Data - Database Aggregati: Modelli di dati aggregati per NoSQL: Key-value, document, column-family; Modellazione dei dati; Modelli Distribuiti; - Consistenza: consistenza in lettura ed in aggiornamento; il CAP Theorem; il framework Map Reduce. - Document-based Data models: MongoDB - Hadoop and its Ecosystem; Hive; Data Lakes. - RDFS; SPARQL; Linked Open Data; Ontology-based Data Access Information Integration: ---------------------------- - Architetture per l'integrazione dell'informazione - Gestione distribuita dei dati - Data federation - Data exchange and data warehousing - ETL (Extraction, Transformation and Loading), pulizia e riconciliazione dei dati - Data integration - Ontology-based data integration
Prerequisiti
E' richiesta una buona conoscenza dei fondamenti delle strutture di programmazione, dei linguaggi di programmazione, delle basi di dati (SQL, modello relazionale, modello Entità-Relazione, progettazione concettuale e logica) e dei sistemi di basi di dati.
Testi di riferimento
Appunti e Lucidi preparati dai docenti
Frequenza
La frequenza non è obbligatoria ma fortemente consigliata.
Modalità di esame
L'esame prevede lo sviluppo di un piccolo progetto sia relativamente alla parte di Big Data, sia relativamente alla parte di Information Integration. Il progetto è incentrato sulla dimostrazione di un tool per la gestione di dati in ambito DataWarehousing, di modelli dati NoSQL e, per la parte di Information Integration, sulla dimostrazione di un tool per data integration o data federation. È anche accettabile lo sviluppo di una applicazione di esempio che faccia uso di questi tool. Il progetto viene presentato al docente con l'ausilio di slide. Oltre al progetto, lo studente sostiene una prova orale sugli argomenti del corso.
Bibliografia
NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence. Pramod J. Sadalage, Martin Fowler. Addison-Wesley. 2014.
Modalità di erogazione
Lezioni ed esercizi in aula ed assegnati da svolgere in autonomia.
MARCO CONSOLE Scheda docente
  • Codice insegnamento1044408
  • Anno accademico2025/2026
  • CorsoEngineering in Computer Science and Artificial Intelligence - Ingegneria Informatica e Intelligenza Artificiale
  • CurriculumCurriculum unico
  • Anno2º anno
  • Semestre1º semestre
  • SSDING-INF/05
  • CFU6