SAS Data Management Roadshow 2017 Beograd
SAS Data Management Roadshow 2017 u Beogradu održan je 15.marta, posle Ljubljane (8. marta), i nastavlja se u Zagrebu (16. marta). Rad beogradskog SAS-ovog Roadshow-a održan je u hotelu Hyatt Regency Belgrade, 9 – 13:30h; od članova Data Science Srbija ovaj put zadovoljstvo da prisustvuju su imali Darko Marjanović i Miloš Milovanović (ThingSolver), i Goran S. Milovanović (DataKolektiv). U Beogradu su o najrelevantnijim temama upravljanja podacima na kojima radi SAS govorili: Brad Hathaway, Regional Data Management Head, SAS, Zuzana Kohutova, Sr Associate Legal Counsel, SAS, Olivier Penel, Data Management Business Director, Bor Novak, Sr Presales Consultant, SAS Adriatic Region, Aleksander Pivk, Analytics and Information Management Leader, SAS Adriatic Region, Alessio Crastolla, Account Manager, SAS Italy, i Sundeep Tengur, Banking Solution Fraud & Financial Crimes Specialist, SAS UK.
Između ostalog, stručnjaci SAS-a su se ovaj put fokusirali i na predstavljanje rešenja u dve veoma aktualne oblasti, i to pitanju zaštite privatnih podataka i radu sa otvorenim podacima. Oba problema su ujedno visoko specifična pošto definicija otvorenih podataka uvodi određene kvalitativne uslove u igru koje ne zadovoljava nužno svako rešenje razvijeno za rad sa struktuiranim i kvantitativnim podacima, dok je u oblasti zaštite privatnih podataka EU odlučila da zaigra veoma ozbiljno razvojem svoje General Data Protection Regulation (GDPR) koja stupa na snagu 25. maja 2018 (ne zahtevajući nikakvu dopunsku ratifikaciju od strane vlada zemalja članica). GDPR će nametnuti potrebu za opsežnim prilagođavanjem u poslovanju svih onih koji rade sa podacima na osnovu kojih je moguće, makar i indirektno, prepoznati oznake identiteta vlasnika ličnih podataka. Posvetićemo se prvo problematici GDPR.
GDPR se odnosi i na strane kompanije koje rade sa podacima građana EU, i predviđa penale u visini do 4% ukupne zarade u slučaju nepoštovanja – prilično jasno motivišući da je se pridržavate ukoliko poslujete sa EU i radite sa ličnim podacima njenih građana. Evropska komisija, u kontekstu GDPR, definiše lične podatke kao:
“… any information relating to an individual, whether it relates to his or her private, professional or public life. It can be anything from a name, a photo, an email address, bank details, posts on social networking websites, medical information, or a computer’s IP address.”
a sama GDPR predviđa zaštitu prava na zaborav (toliko diskutovanog Right to be forgotten, u doduše nešto ograničenoj formi koja u GDPR uzima formulaciju tzv. Right to erasure), prava na prenos elektronskih podataka vlasnika sa jednog na drugi elektronski sistem obrade pri čemu kontrolor podataka sam mora da obezbedi strukturu koja to omogućava, dok građani sami stiču pravo da dovode u pitanje i osporavaju sve odluke koje bi mogle da ih se tiču a do kojih je došlo i na čisto algoritamskim osnovama. Bilo koji posrednik, bilo ko ko je u kontroli ličnih podataka, i posle davanja eksplicitnog pristanka na njihovu upotrebu od strane vlasnika podataka, ni u jednom trenutku sam ne postaje njihov vlasnik; takođe, propisuje se koliko dugo neko može da zadrži u procesiranju određene lične podatke građana EU.
Jasno je da – preko administrativnih promena koje će takođe biti nužne, poput uvođenja funkcije Službenika za zaštitu podataka i Službenika za žalbe, koje neki već kritikuju kao moguće preveliko administrativno opterećenje – GDPR zahteva i suštinske tehničke, procesne promene u poslovanju od strane svih koji eventualno nisu već razvijali svoje sisteme za analitiku i upravljanje podacima da zadovolje predviđene uslove zaštite ličnih podataka. Uzimajući u obzir to da je vreme za prilagođavanje odredbama GDPR veoma kratko, u SAS-u su ovaj put gledali dosta unapred i reagovali prilično brzo, prilagođavajući svoje sisteme tako da su već sada u mogućnosti da ponude SAS Solution for Personal Data Protection koje daje mogućnost takvog upravljanja podacima da su u nečijem informacionim sistemu zadovoljene sve odredbe predviđene GDPR-om. Rešenje odlikuje mogućnost brzog pronalaženja svih podataka na osnovu kojih bi moglo da dođe do prepoznavanja identiteta, čak i ako se ti podaci nalaze na “neočekivanim” mestima u strukturi (npr. u pogrešnim, neplaniranim kolonama, stringovima, ili su pogrešno označeni, ili ih je moguće identifikovati samo kontekstualno). Sa stanovišta struke, ovakav pristup zaslužuje kompliment; naime, sasvim je jasno da će za mnoge najveće tehničko prilagođavanje GDPR-u zapravo biti priprema za to da se u rapidnom roku (npr. u slučaju incidenta sa ličnim podacima, kompanija je dužna da nadležne izvesti o incidentu u roku od 72h) iz potencijalno veoma složenih struktura podataka “iskopaju” sve informacije koje su mogle biti od kritičnog značaja i koje bi nekome mogle da omoguće prepoznavanje identiteta korisnika.
U oblasti otvorenih podataka (Open Data), o kojoj će na stranicama Data Science Srbija sigurno biti više reči od kako smo pozvani da se priključimo radu Radne grupe za otvorene podatke naše zemlje, SAS je takođe predstavio end-to-end rešenje. Otvoreni podaci se često shvataju kao
“… podaci koje svi mogu slobodno da koriste i menjaju, za koje je uglavnom dovoljno samo da se navede izvor i da se kasnije dele pod istim uslovima.”
ali je proces otvaranja podataka vođen čitavim nizom odredbi o kvalitetu i integritetu ovakvih podataka, koji najčešće potiču od organa javne uprave i za koje se veruje da im pristup otvara mnoge razvojne perspektive, kako za građane uopšte, tako i za one u biznisu sa informacionim tehnologijama. Na osnovu otvorenih podataka su i našoj zemlji već predložena i razvijana određena IT rešenja. Radi se pokretu koji je globalnog karaktera i koji je danas veoma aktualan; na portalu otvorenih podataka SAD možete pristupiti skoro 200,000 skupova podataka, a portal za otvorene podatke naše zemlje se upravo razvija dodavanjem novih datasetova. Upravo smo mi u Data Science Srbija razvili prve use-cases otvorenih podataka sa portala Republike Srbije i predstavili deo našeg rada na Open Data Meetup u okviru BelgradeR grane naših redovnih meetup-ova. Rešenje za otvorene podatke koje predstavlja SAS je trenutno jedinstveno na tržištu po tome što obezbeđuje sve uslove kvaliteta i integriteta koji se zahtevaju u procesu otvaranja podataka, kao i ispunjenje svih regulatornih uslova od strane institucija u prostoru rada sa otvorenim podacima.
Pored doprinosa ovim i drugim aktualnim temama, imali smo prilike da vidimo i prezentaciju SAS Viya, kompletne integrativne analitičke platforme koja objedinjuje in-memory procesiranje velikih podataka sa pristupom najrazličitijim izvorima struktuiranih i nestruktuiranih podataka u jedinstven okvir, “gostujući” dosta toga što bi Data Scientist u svom poslu poželeo uz sebe iz open-source sveta (npr. na SAS Viya su native jezici Python, R, Lua, Java…). O SAS Viya ćemo imati prilike da slušamo detaljno na predstojećem Data Science Meetup u Beogradu, 29. marta, gde će nam ovaj sistem predstaviti gospodin Bor Novak, SAS Adriatic Region.