Hadoop kao arhiva
Posle niza tekstova koji su se više odnosili na alate koji se dodaju na Hadoop, rešio sam da se vratim na trenutak na jednu od najbitnijih Hadoop komponenti – HDFS. U celoj Hadoop “priči” potrebno je podjednako znati i Hadoop osnovne alate i alate iz ekosistema, ali razlog zbog koga se u ovom tekstu fokusiram na HDFS jeste nova verzija Hadoop-a (2.6.0). Iako svaka verzija donosi brojna unapređenja, ova mi je posebno zapala za oko. Pokušaću da objasnim i zašto.
Šta je to što je doneo Hadoop 2.6.0?
Cilj ovog teksta nije da nabrojim sve nove dodatke i poboljšanja Hadoop-a, već želim da se fokusiram na jedan – HDFS Archival Storage. Napomenuo bih na samom početku da je sada moguće koristiti radnu memoriju i iskoristiti pun potencijal SSD diskova. Dakle, sada je moguće praviti kombinacije u klasteru i igrati se sa performansama. Da se vratim na skladište kao arhivu. Ovo je posebno interesantno u pogledu cene čuvanja informacija, a takođe pruža šansu Hadoop-u tamo gde još nema Big Data podataka, ali postoji potencijal.
Kako iskoristiti Archival Storage?
Cena skladištenja podataka pada svakog dana, tako da sa novom polisom skladištenja Hadoop postaje jedan od najjeftinijih načina da se čuvaju podaci (Cloud je najjeftiniji). Zamislite da kupite računare koji imaju slabe procesore, malo radne memorije, ali dosta prostora na hard disku. Na sve to instalirate samo Hadoop, bez alata iz ekosistema, i podesite HDFS kao Archive. To znači da će Hadoop da koristi nodove velike gustine, odnosno skladištiće više podataka nego inače u jedninici memorije. Na ovaj način se gubi na performansama u smislu obrade podataka, ali ako nam je potrebna jeftina arhiva, onda to i ne predstavlja problem. Ali šta ako treba da se brzo izvuku neki podaci iz arhive? Postoji rešenje i za to, a ono je kombinacija izbora načina skladištenja.
Warm, Cold i Hot.
Warm način skladištenja znači sledeće: ako imate tri DataNode-a, jedan će biti tradicionalno DISK skladište, koje je do sada bilo korišćeno u Hadoop-u, a druga dva Node-a će biti postavljena na ARCHIVE. Odnosno DISK: 1 ARCHIVE: n-1. Ovo može da bude jako interesantna arhitektura ako želite da imate skladište i da iz njega brzo izvučete neku informaciju. Ovo bi bila malo skuplja konfiguracija jer jedna mašina mora da bude opremljena sa boljim procesorom i dovoljnom količinom radne memorije i baš ona bi koristila DISK skladište. Prednost ovakve arhitekture je i to da je moguće neke podatke skladištiti samo na arhivu, a neke na disk. Još jedna prednost korišćenja ARCHIVE skladišta jeste da je manja verovatnoća da će ovakav DataNode da otkaže.
Cold način skladištenja znači da su svi DataNode-ovi podešeni na ARCHIVE. Ovo znači da su podaci manje dostupni, ali ako vam treba samo skladište onda je ovo odlično rešenje. U svakom slučaju, moguće je prebaciti podatke sa Cold skladišta na Warm ili Hot i obratno. Ovo rešenje mi je možda najinteresantnije za korišćenje u firmama u našoj zemlji koje nemaju Big Data podatke ili nisu shvatile da eksterni podaci mogu da imaju Business value za njih, ali o tome u drugom tekstu. U svakom slučaju, da imam firmu koja još nema Big Data, kupio bih par mašina sa dosta HDD prostora i skladištio sve podatke iz firme i one eksterne, sa društvenih mreža, web sajtova… Nakon par godina sam siguran da bi mogao da se uoči neki šablon i da se donesu zaključci koji bi pomogli daljem poslovanju firme.
Hot način skladištenja znači da su sva podešavanja DISK. Ovo je danas najkorišćeniji način skladištenja.
Još tri načina skladištenja koja nisu vezana za arhiviranje, ali smatram da je bitno pomenuti ih su:
All_SSD, sve replike su na SSD disku.
One_SSD, jedna replika je na SSD disku, ostale na disku.
Lazy_Persist, jedna replika je upisana u radnu memoriju, pa se zatim upisuje na disk.
Sa svakom novom verzijom Hadoop je sve napredniji i dobija na kompleksnosti. Kako raste Hadoop, tako rastu i alati iz njegovog ekosistema. U svetu sve više firmi koristi Hadoop i ako malo pogledate na Internetu, 2015. godina će biti jako uspešna za ovaj alat. Kao što sam rekao, i alati iz ekosistema napreduju. Možda je najinteresantnije unapređenje doneo Apache Hive, koji sad podržava ACID transakcije. Sve češće je Hadoop deo kombinacije IBM, Microsoft, HP rešenja i ovo su samo neki od velikih igrača koji sve više koriste Hadoop.
Nastavljamo da pišemo o Hadoop-u, Big Data, alatima iz ekosistema, o uticaju Big Data na organizaciju. Javite se ako imate pitanja ili želite da pomognete da širimo znanje o Hadoop-u. Kao što znate, ovaj blog je bogatiji za još jednog autora i svako ko želi može da se javi i da pomogne. hadoop-srbija je u prošloj godini imao oko 6000 pregleda iz Srbije, Hrvatske, Bosne… Kako je blog specijalizovan za usku oblast IT-a, smatram da je postignut uspeh u prošloj godini. Takođe, pre mesec dana sa kolegom Stepanićem sam pokrenu i blog na temu Internet of Things. Hvala vam što ste uz nas, potrudićemo se da ispunimo vaša očekivanja i u ovoj godini, pa da zajedno hadupujemo!