Gitbaritalian
developer
podcast
17

Big data - Programmazione e sviluppo su grandi moli di dati

Serie 1
Episodio 17
Durata 18 minuti

La parola bigdata è ormai una buzzword dei nostri tempi. In questo episodio del podcast ci spositiamo dal mondo della programmazione e dello sviluppo per andare ad esplorare con curiosità il mondo delle grandi moli di dati.

Parleremo di Data Lake, Data warehouse, data mart e del processo di estrazione, trasformazione e caricamento. Fasi ed elementi alla base di questo ecosistema.

Links

Corso di bigdata:

https://www.udemy.com/course/the-ultimate-hands-on-hadoop-tame-your-big-data/

Pennello grande: https://www.youtube.com/watch?v=M58X0xV-zK4

Il glossario di Databriks: https://databricks.com/glossary/data-lake

Contatti

@brainrepo su twitter o via mail a info@gitbar.it

Crediti

Le sigle sono state prodotte da MondoComputazionale Registrato negli studi di Radio Nuoro Centrale Le musiche da Blan Kytt - RSPN e Broke For Free - Something Elated

Trascrizione

Trascrizione automatica realizzata con servizi Amazon AWS Transcribe

benvenuti su bar di podcast dedicato al mondo dei full stack developer.
Mezzo artigiani mezzo artistiche ogni giorno infilavano le mani nel fango per creare nel modo più efficiente possibile quei prodotti digitali che quotidianamente usiamo.
Bene, benvenuti diciassettesima puntata di in una situazione di clausura forzata che si protrae nel tempo.
Ma questo non ci spaventa che ci facciamo la chiacchierata così come la facciamo una volta alla settimana, cose che ci interessano bene, detto questo e prima di partire mi mi tocca il mio compito quello di ricordarvi i contatti.
Per prescrivere potete appunto scrivermi ein tweet oppure a heat Brian Repo.
Naturalmente aspetto le vostre email o i vostri messaggi su Twitter, perché in realtà mi piace proprio condividere con voi gli argomenti che trattiamo, le posizioni o, perché no, ricevere da voi le correzioni che poi saranno evidenziate con dei follow-up nell'episodio successivo.
Detto questo, senza perderci troppo in chiacchiere, possiamo partire col nostro diciassettesimo episodio perché ma cosa fa con quell'arnese? Ostacola il traffico.
Devo dipingere una parete grande, ci vuole il pennello grande, non ci vuole un pennello grande, ma un grande pennello.
Cinghiale, cinghiale, la grande merda.
Credo non ci sia niente di più giusto di più coerente che utilizzare questa pubblicità degli anni ottanta per introdurre l'argomento dei big.
Ma in realtà cosa sono i big d'età e benedetta? Sono quei dati che non possono essere memorizzati o elaborati nelle attuali macchine nel main frame messo a disposizione.
Cosa vuol dire questo? Che in realtà non abbiamo pennelli abbastanza grandi per dipingere appunto questi muri? Detto questo, in realtà quando si parla di big z, solitamente ci si riferisce ad atti dell', ordine dei giga e i più dati che in realtà possono essere persistito negli attuali storie che abbiamo a disposizione, ma che si trasformano in un incubo quando devono essere elaborati dagli attuali processori, che di realtà non hanno una velocita' abbastanza alta da poter modificare ed elaborare questi dati nei tempi prestabiliti per rendere questo questo dato utilizzabile utile al suo scopo.
Detto questo è evidenziato l'importanza dei tempi.
È importante ricordare che il l'utilizzo dei dati risale alla notte dei tempi.
Fin dagli antichi erano archiviati e lo ed erano fatti in modi diversi, ma era comunque fatto.
Per esempio gli antichi dipingevano dei graffi all'interno delle caverne, poi ci si è voluti alla carta i dischi magnetici e dischi ottici e oggi, appunto, alle moderne è memoria e moderne memorie che ospitano una quantità di dati significante.
Vuoi perché se da una parte e la legge di Murphy si è fermata nel duemila cinque e quindi i processori e le capacità computazionali si sono in qualche modo fermato dall'altra parte, i costi e le dimensioni degli androidi dei sistemi di archiviazione sono cresciuti in modo spropositato, così come e' cresciuta in modo sostenuto la generazione dei dati.
Basta pensare che Facebook genera cento terrà al giorno Twitter quattrocento milioni di messaggi di tweet al giorno e YouTube.
Ci sono ventiquattro ore caricate al minuto, quindi parliamo di una quantita' veramente enorme, di dati dati che vengono archiviati e che in qualche modo rappresentano un valore economico per le società che li che li archiviano e che devono trasformare questi dati in valore.
Per farlo questi dati devono essere trasformati, elaborati.
Per elaborarli servono dei super calcolatore super calcolatori che ancora non esistono.
In questo momento si entra nel mondo dei Big Pete, si trova delle soluzioni per ovviare al limite, appunto fisico delle macchine.
In realtà, quando noi parliamo di Big D'età, parliamo di tre tipologie di dati tre tipi di dati differenti ci sono i dati strutturati, quelli che hanno uno schema valido.
Un esempio può essere un vu, un fagli ex SEL piuttosto che una tabella di un database.
Abbiamo dei dati semi strutturati che possono essere file di word o email e abbiamo dati non strutturati che possono essere audio o video.
Naturalmente la classificazione dei big data può essere fatta anche per volume, quindi per quantità.
Se parliamo del di dati dell' ordine di giga di teta, degli ex byte e per quanto riguarda la velocita', essendo un parametro di classificazione importante, perché oggi abbiamo alcune applicazioni che prevedono l'elaborazione di questi big detta di questi dati in stream, quindi in flusso continuo, ma ne parleremo dopo e scenderemo nel dettaglio.
Naturalmente oggi catturiamo, come vi dicevo, una quantità sostenuta di dati e lo facciamo prevalentemente in due modalità principale.
La prima è dovuta al chiuso action nei nostri sistemi, quindi le azioni che l'uomo fa un calcolo di un bottone la visita di una pagina l'acquisto di un prodotto ho la la visualizzazione di maggiori dettagli di un altro prodotto all'interno di un oppure dai sensori immaginiamo temperatura di umidità e tanti altri che vanno poi a produrre dei dati che vengono archiviati e dei quali noi vogliamo estrarre dei significati.
Per farlo bene è necessario andare a strutturare delle architetture che ci permettano di fruirne e di elaborarli.
E proprio qua che entriamo nel mondo dei big abbiamo detto che produciamo una quantità considerevole di dati, naturalmente non tutte le società che gestiscono i dati nel miglior modo e spesso si cade in una situazione chiamata appunto da baita su ampia, cioè dove andiamo ad archiviare dei dati deteriorati, oppure dei dati con poco valore, giusto perché prima o poi potranno esserci utili e spesso ci dimentichiamo, magari di' di tenere traccia di ciò che si si archivia e quindi occupiamo della memoria senza in realtà produrne una qualche utilita'.
Fatta questa premessa, è necessario provare a vedere dove questi dati debbano essere messi in realtà i luoghi possono essere due il primo è chiamato data lei che il secondo è chiamato data warehouse occhio, perché questi termini ritornano comunemente nella nostra vita quotidiana.
Ne sentiamo parlare spesso, visto che ormai largo degli dell'argomento Big Data ritorna comunemente nel nostro lavoro quotidiano e visto che il nostro ruolo da full stack developer si integra con i meccanismi dei big detta voi, io non voi.
Perché comunque siamo noi a produrre i dati, a creare i sistemi per produrre questo tipo di dati nella maggior parte dei casi.
Detto questo, cosa sono i data? Lei che bei data lei che sono dei preposito di dati possono essere solitamente o globo o fai la xml Gesù mail, pdf, audio, video e immagini, ma anche dei dati dei provenienti da database relazionali.
Questi data lei in qualche modo rompono il concetto dei silos e' un concetto che presupponeva che l'informazione aziendale stessa compartimenti stagni e quindi non si integrasse l'una con l'altra per generare valore.
Bene, rompono questo concetto, ma lo fanno in un modo molto confuso.
Infatti quando parliamo di data lei che possiamo pensare appunto a uno stagno, un lago dove si e' vero e' pieno di pesci e di pesci di tipi completamente diversi, ma che nuotano in modo confuso.
Questo perché in realtà il concetto di data lei presuppone che i dati vengano archiviati in modalità grezza.
La controparte del data lei è appunto del lago e il mercato del pesce.
Qua mi viene in mente una citazione di Polk Claudel era un poeta francese e che diceva l'ordine e il piacere della ragione, ma il disordine e' la delizia.
Quindi se il data lei che in qualche modo delizia la nostra immaginazione, perche' con tutti questi dati, noi possiamo in qualche modo immaginare a come estrarre valore bene la data warehouse eh? Strutturata per generarlo.
In realtà qua i dati hanno una struttura, quindi quando si parla di data warehouse, la struttura la si definisce prima e poi vengono archiviati dati.
Quando si parla di data Lake, la struttura viene in qualche modo definita dopo la fase di stoccaggio.
Detto questo, naturalmente la data warehouse la possiamo immaginare.
Come vi dicevo prima al mercato del pesce dentro questo mercato del pesce ci sono diverse bancarelle.
Queste bancarelle che vengono pesci differenti.
Per esempio una vende i crostacei, vende pesce economico, vengono chiamati data mart, che non sono altro che appunto dei piccoli chioschi che forniscono dei dati specificamente organizzati e trasformati per raggiungere un certo cliente un certo fine.
Immaginiamo, per esempio, di avere una grande organizzazione che si occupa di streaming.
Bene, se un reparto management, un rapporto appunto di gestione, deve decidere quale serie promuovere e quale no e per farlo ha bisogno di capire le visualizzazioni di quella serie piuttosto che di un'altra e i segmenti che fruiscono quella serie piuttosto che un'altra.
Beh, a quel punto attingerà a un data mart specifico.
Quindi ha una sezione di informazioni strutturate per in qualche modo fornire quelle informazioni necessarie per raggiungere lo scopo di business.
Sono insomma sono un po' dei chioschetti personalizzati per l'obiettivo che si deve raggiungere bene.
Così facendo abbiamo un po' capito dove vengono persistito questi dati.
In realtà solitamente il percorso e questo si parte da un data lei quindi da un lago dove ci sono i pesci si passa per un processo che viene chiamato itl.
È un processo che andremo a vedere tra qualche minuto.
Si trasformano questi data lei in data warehouse, che appunto al loro interno hanno diversi data mart che devono offrire il i dati strutturati per raggiungere degli obiettivi.
Quindi, data lei, i dati non sono strutturati.
I dati vengono elaborati attraverso un processo di itl extract trasforma l'odio che andremo a vedere tra poco vengono stoccati in un data warehouse dove in realtà la struttura dei dati e ben definita ed e' divisa in qualche modo in dei piccoli data Mart, che servono appunto a fornire l'informazione puntuale per un certo obiettivo.
Adesso però proviamo a entrare nel mondo delle elaborazioni di questi dati, cioè della trasformazione tra data Lei è data warehouse.
Bene, questa trasformazione didatti avviene attraverso tre fasi principali l'estrazione la trasformazione e il caricamento del dato trasformato e'.
Per questo che si chiama itl extract transform Lloyd la parte di estratti.
Semplicemente si tratta di una fase dove andiamo a catturare i dati dalle varie sorgenti.
Quindi andiamo a prendere i dati che possono essere degli XML dicesse cv SW o la formati differenti e ce ne andiamo a prendere in carico.
Bene, questa cattura può essere parziale o totale sia una cattura parziale quando in qualche modo il dato che andiamo a prendere è figlio, nasce grazie a una notifica.
Che ci dice questo dato è cambiato e ci serve il dato.
Oppure quando questa notifica ci dice Ehi, guarda che questo dato è cambiato.
Vattelo a prendere.
Allora noi andremo da estrarre quel dato specifico, appunto che è stato cambiato.
Oppure un'estrazione totale dalla sorgente.
E poi, una volta che abbiamo questi dati, possiamo avviare l'operazione di trasformazione.
Albert Einstein diceva che dal disordine, dalla confusione è necessario cercare di tirare fuori la semplicità.
Ed è proprio quello che fa la fase di transformation, che non fa altro che eseguire una serie di operazioni sui dati estratti per prepararli al salvataggio, appunto nelle proprie destinazioni.
Qua mi piace immaginare non l'immagine di Freddy Mercury che con un aspirapolvere canta ai wonton una fase di pulizia dei nostri dati.
Beh, in realta' in questa fase e e andremo a selezionare per esempio solo alcune colonne, a trasformare dei codici in dati sensa a derivare dei dati in calcoli, per esempio dal prezzo e dalla percentuale delle derivano.
E possiamo calcolare il prezzo elevato, eh? Metterlo appunto nei dati conseguenti, quindi che andremo poi ha salvato al salvare potremmo fare degli ordinamenti delle unioni tra più sorgenti diverse, eliminare i duplicati, applicare i filtri, convertire le righe e colonne in modo.
Per esempio ci sono tante sorgenti di dati che hanno i dati archiviati in colonne.
Noi dobbiamo avere dei dati separati in lega, oppure lo di ring con dati separati da virgola o la validazione alcuni dati per scartare dei dati che non sono utili al processo.
In realtà su queste sono solo alcune delle operazioni che il nostro Freddy Mercury dei big può fare con la sua aspirapolvere.
Questi dati conseguenti devono essere caricati appunto, alla fine è andate a salvare o sul semplice fai oppure su data warehouse più articolati.
Questa trasformazione però presuppone che ci siano delle infrastrutture tecnologiche capaci di poter eseguire questa fase.
È, come abbiamo detto, il problema di liquidità e che oggi non sono disponibili delle macchine talmente potenti da poter eseguire in autonomia questa fase.
Ecco perché si sono sviluppate una serie di strumenti che permettono la divisione di questi dati in piccoli frammenti e il calcolo parallelo, così da avere tanti piccoli Freddy Mercury che in macchine vanno a fare la pulizia e la sistemazione di quella porzione piccola specifica nei dati, distribuendo il dati all'interno di un cluster più ampio e permettendo l'elaborazione dei premi messi a disposizione per e anche per oggi è tutto.
Abbiamo introdotto quello che è il mondo dei biglietti.
Abbiamo cercato di farlo puntando su quelli che sono gli elementi secondo me principali, le cose più importanti da conoscere.
Detto questo, e prima di salutarvi e darvi appuntamento alla prossima settimana, giovedì prossimo, vi ricordo i contatti.
Potete scrivermi a Heat breve report su Twitter o hai un occhio Hoyt Se la puntata vi è piaciuta, iscrivetevi col vostro client di podcast in modo da ricevere ogni settimana gli aggiornamenti dei noi episodi.
E poi, se proprio proprio piaciuta davvero tanto bene.
A quel punto lasciate una recensione sulla storia.
Detto questo, vi do appuntamento alla prossima settimana, dove andremo a vedere in modo un po' più pratico quelli che sono gli strumenti del mondo dei Big Z, il circolo dei fusti da bere una volta a settimana ci troviamo davanti a due birre e comprerebbe.
Parliamo di linguaggi e tecniche di sviluppo web, di metodologie e degli strumenti immancabili nella cassetta degli attrezzi di Foster.
Ho bisogno di una mano. Aiutami a rendere più conosciuto il nostro podcast. Parlane con gli amici o con i colleghi e iscriviti usando Apple Podast o Google Podcast. Questa tua azione ci aiuterà a salire nella classifica dei podcast di tecnologia ed essere utili anche a qualcun’altro. Se non ti va, amici come prima😄