Mojih top 5 resursa za data science – Milica Petrović
Ja sam Milica Petrović, završila sam master studije iz statistike i od 2017. radim kao data sciencist. Kao i drugi u ovoj oblasti, i ja imam neke uže teme o kojima sam dosta istraživala, čitala i učila: automatizacija praćenja kvaliteta podataka, operacionalizacija modela, itd. Međutim, umesto da delim izvore iz tih konkretnih oblasti, mislim da je daleko korisnije za mnogo veći broj ljudi da podelim neke generalne izvore preko kojih se mogu naći korisne informacije na te i mnoge druge teme. Probala sam da izaberem neke sajtove za koje mi se čini da nisu baš poznati ili uobičajeni, ali su svejedno sjajni.
Nadam se da će vam koristiti!
5.Tutorijali
Dobrih tutorijala ima gomila, i najbolje je ako imate vremena za čitave kurseve na portalima kao što su Coursera ili Udacity. Ali kad vam treba brzi tutorijal na neku temu a nemate vremena za ceo kurs, dobri sajtovi su Analytics Vidhya (konkretno tutorijali i blogovi od Prateek Joshi-ja) i kanal Sentdex na youtube-u.
4.Podaci
Za data science su najvažniji podaci (ovo je 4. stavka na listi samo zato što je prvo mesto zauzeto jednim još zanimljivijim resursom vezanim za podatke). Neki generalni poznati resursi korisni za sve su UCI Machine Learning Repository, The World Bank Data i srpski zvanični Portal otvorenih podataka. Jedan manje poznat koji je meni bio vrlo koristan je Data World Na kraju par čisto zabavnih izvora: janeaustenr, paket koji sadrži cele romane Džejn Ostin i može se koristiti za analizu teksta, i Panic! at the dataset, set koji se sastoji od tekstova pesama benda Panic! at the disco obeleženih za sentiment analysis.
3.Edukativni blog
Kada pokušavam da naučim ili razumem nešto vezano za mašinsko učenje, kratka pretraga me često odvede na sajtove poput Medium-a (konkretno Towards Data Science), koji ponekad ima odlične tekstove korisne kao uvod u neku temu, ili Stack Overflow, ako imam neko konkretno pitanje (usput, SO takođe ima i svoj kul newsletter, The Overflow). Međutim, na oba ta sajta tekstove i objave piše gomila različitih ljudi. Ako treba izabrati jednog čoveka koji je sam napisao mnoštvo odličnih tekstova na razne tema iz te oblasti, to bi za mene bio Jason Brownlee sa svojim sajtom Machine Learning Mastery. Kod njega sam prvi put uspela da razumem kako funkcionišu u teoriji i praktično neuralne mreže sa više različitih ulaznih slojeva. Taj i drugi tekstovi na njegovom blogu služe kao odlični uvodi, objašnjenja i smernice. Ja gomilu njegovih tekstova imam u sačuvanim linkovima za kad mi opet zatrebaju.
2.Liste resursa
Ovo sada deluje kao inception ili listception, ali za mene je bilo fantastično otkriće. Github, osim za deljenje open-source koda, često služi i za pravljenje lista resursa na određenu temu. Za mene su od ogromne pomoći bile lista resursa posvećenih sažimanju teksta, lista naučnih članaka o sažimanju teksta, lista resursa o sentence & word embedding modelima, lista otvorenih setova tekstualnih podataka za NLP i lista resursa o intepretiranju i objašnjavanju modela, jer sam se tim konkretnim temama bavila. Ali ako guglate “github curated lists” ili liste na neku određenu temu koja vas zanima, naći ćete sjajne i vrlo opširne liste.
1.Newsletter
Internet je prepun raznih nedeljnih biltena, od kojih se skoro svi bave najnovijim otkrićima ili primenama veštačke inteligencije u raznim oblastima. Ali ja znam samo za jedan koji se bavi samim podacima: Data is plural. Nekome su neki podaci bili potrebni i/ili zanimljivi pa ih je sakupio, strukturirao i objavio da budu dostupni svima. O takvim malim i nepoznatim setovima nas izveštava ovaj newsletter koji sastavlja Jeremy Singer-Vine.
Bonus: Za one koje zanima igranje tekstom, konkretno imenima, ovo je super zabavan blog: Give your kids futuristic names with a neural network!