UDA: Analisi dati e processo di ETL

Destinatari :

Alunni classe quinta di informatica

Alunni classe quarta di Telecomunicazioni

Tempi:

15-20 ore

Discipline coinvolte:

Informatica, Sistemi

Prodotti:

Creazione di una base di dati normalizzata popolata con i dati filtrati da un file .csv o XML (es: dati MIUR)

Competenze

1) Modellare una realtà

Evidenza:

Capacità di analisi

Abilità:

Conoscenze:

2) Documentare

Evidenza:

Documentazione del processo e del codice: organizzazione del documento, linguaggio utilizzato

Abilità:

Documentare:

Conoscenze:

Strumenti di scrittura (Word, markdownPad)

3) Relazionare

Evidenza:

Linguaggio utilizzato, rispetto dei tempi di esposizione, modalità di presentazione

Abilità:

Presentare le attività ed il prodotto finito

Conoscenze:

Strumenti di presentazione (Power Point o simili)

Fasi di applicazione

Fase 1: Informazioni teoriche sul concetto di data base (attraverso dialogo guidato)

Fase 2: Analisi del tracciato record e individuazione delle entità (processo di normalizzazione)

Fase 3: La progettazione concettuale usando Data Modeler (esempi a complessità crescente per spiegare le fasi di progettazione e le relazioni fra entità)

Fase 4: La progettazione logica e fisica usando Data Modeler per (si introducono i concetti tabella, dominio, PK FK, DDL)

Fase 5: Creazione fisica del DB

Fase 6: Processo di ETL per l’inserimento dei dati nel data base

Fase 7: Documentare

Esperienze attivate ossia cosa fa l’allievo

Metodologia

I docenti

LA CONSEGNA AGLI STUDENTI

Titolo UdA

Analisi dati e processo di ETL scuole MIUR

Cosa si chiede di fare:

Viene fornito il file .csv che contiene i dati scaricati da http://dati.istruzione.it/opendata/opendata/catalogo

1) Analizzate il tracciato record ed individuate le entità coinvolte e giustificate le scelte

2) Modellizzare la soluzione del punto 1 con Data Modeler

3) Create in MySql le tabelle utilizzando il DDL prodotto dal punto 2

4) Scrivete il codice in linguaggio Java per l’inserimento dei dati nel DB realizzato nel punto 3 e scrivete nel file error.csv i record non processati. Ricordate di scrivere anche il file di log con data, numero di righe processate, inserite e non inserite.

5) Documentare con una relazione tutte le attività

Modalità di lavoro:

Si utilizza una modalità di lavoro mista, per alcune fasi (1 e 5) sono previsti lavori di gruppo per le altre lavoro autonomo.

Il prodotti:

Al termine del lavoro dovete presentare una base di dati normalizzata relativa alle scuole presenti sul territorio italiano e il relativo programma di ETL per popolarla. Dovete inoltre scrivere una relazione descrittiva dell’attività svolta e preparare una presentazione (non più di 7 slide) per una eventuale relazione ai docenti

Obiettivi di apprendimento:

L’obiettivo è quello di avere una visione completa dell’intero processo di ETL, capirne la funzione e le difficoltà relative

Tempi:

Circa due mesi

PIANO DI LAVORO UDA

Fasi Attività Metodologia Esiti Tempi Evidenze Strumenti per la valutazione
Fase 1 Acquisire il concetto da base di dati relazionale Dialogo guidato Conoscenze concetti base DB e DBMS 2 ore Partecipazione, il linguaggio Relazione di sintesi
Fase 2 Analisi del tracciato record Lavoro di gruppo con guida nell’analisi File normalizzati 2 ore Risultato dell’analisi Relazione di sintesi
Fase 3 Modello concettuale con Data Modeler Lezione frontale per i concetti base e videolezioni Documento modello concettuale 3 ore Diagramma Entità e relazioni Modello concettuale prodotto
Fase 4 Modello logico con Data Modeler e DDL Focus teorico sui i concetti di base coinvolti in questa fase Documento modello logico e file con istruzioni DDL 2 ore Le relazioni fra le entità, la scelta dei domini Modello prodotto e il file con le istruzioni DDL
Fase 5 Creazione fisica del DB In laboratorio creazione del DB Struttura fisica DB 1 ora La base di dati Operatività e stato dei lavori in laboratorio
Fase 6 Processo di ETL attività di laboratorio Data Base popolato con programma in Java 6 ore Codice Java, i file di log ed error Prodotto finito
Fase 7 Relazione finale Lavoro di gruppo Documento 2 ore Capacità di relazionare Documento finale