Wiadomości

stat

Ciekawe zawody: Data scientist - zaklinacz danych

Do pracy z danymi poza analitycznym myśleniem jest potrzebna również umiejętność poszukiwania rozwiązań poza standardowymi schematami.
Do pracy z danymi poza analitycznym myśleniem jest potrzebna również umiejętność poszukiwania rozwiązań poza standardowymi schematami. fot. Lucyna Pęsik/Trojmiasto.pl

Jego praca polega na odnajdywaniu w danych zależności, które dadzą konkretny zysk. O rosnącej popularności zawodu Data Scientist, czyli eksperta do analizy danych opowiedział nam Mateusz Kotarski. W poprzednim odcinku o zawodzie wirtualnej asystentki rozmawialiśmy z Karoliną Barc. Kolejny wywiad już za miesiąc.


Uważasz się za osobę bardziej analityczną czy kreatywną?

stanowczo myślenie analityczne to moja mocniejsza strona 39%
jestem lepszy(a) w kreatywnych rozwiązaniach niż w analitycznym myśleniu 11%
łączę obie kompetencje: kreatywność i analityczne myślenie 39%
niestety ani kreatywność, ani analityczne myślenie to nie są moje mocne strony 11%
zakończona Łącznie głosów: 219


Co byś robił, gdybyś nie pracował w IT?

Mateusz Kotarski: Byłbym żeglarzem. Mając 19 lat myślałem, że będę żeglował zarobkowo. Żeglowałem z guru żeglarstwa i gór Krzysztofem Paulem, który był dla mnie mentorem. Jednak po dwóch latach zrozumiałem, że żeglarstwo nie da mi chleba, mogę je traktować jedynie jako hobby. Oczywiście znam osoby, które się z tego utrzymują, ale były dużo lepsze niż ja. Kiedy to zrozumiałem, byłem na drugim roku na ETI na Politechnice Gdańskiej. Musiałem zmienić priorytety. Zacząć się więcej uczyć, a mniej żeglować.

To, czego uczyłeś się na studiach nie pasjonowało cię?

- Początkowo nie. Fizyka i matematyka to nie było to, co chciałem robić. Dopiero kiedy wybrałem specjalizację komputerowe systemy elektroniczne zaczęły się fajne rzeczy, np. przetwarzanie sygnałów, programowanie niskopoziomowe np. mikrokontrolerów lub procesorów sygnałowych, przetwarzających dźwięki czy obrazy. Przykładem zastosowania mikrokontrolerów może być pralka, a procesory sygnałowe powszechnie stosowane są w smartfonach np. w celu tłumienia echa z otoczenia. Wtedy poznałem mojego podwójnego promotora - prof. Janusza Smulko. Tak jak Krzysztof Paul był moim mentorem w żeglarstwie, tak prof. Janusz Smulko był dla mnie takim mentorem w świecie IT. Poza pracą magisterską i doktorską przygotowaliśmy razem kilka publikacji.

Na czym skupiały się twoje badania?

- Wszystko zaczęło się od pracy magisterskiej. Podjąłem temat woltomierza fazoczułego zaimplementowanego w procesorze sygnałowym, a dokładniej wydobywaniem składowych synchronicznych z zaszumionego sygnału. Sygnały losowe okazały się być bardzo wdzięcznym tematem do badań.

Czym są sygnały losowe?

- Sygnały losowe obrazują losowe zjawiska fizyczne, czyli takie, których nie można opisać zależnościami matematycznymi. Każdy taki sygnał jest poniekąd unikalny, np. nagranie szumu morza lub kolejne wartości rzutu kostką. W swoich badaniach mierzyłem pewne parametry statystyczne szumu, co pozwalało mi stwierdzić zjawiska, które zachodzą w otoczeniu, czyli konkretnie, wyznaczenie parametrów statystycznych badanych sygnałów losowych (szumu), miało istotny wpływ na parametry detekcji, np. pozwalało stwierdzić, jaki gaz jest w otoczeniu czujnika gazu.

Do czego można było wykorzystać takie badania?

- Rezystancyjne czujniki gazu działają tak, że do ich powierzchni przyklejają się cząsteczki gazu, przez co zabierają lub uwalniają elektron, w wyniku czego spada lub wzrasta rezystancja. Górnik ma taki detektor gazu z czujnikiem i jak schodzi pod ziemię, wie, że coś jest nie tak. Niestety te czujniki mają słabą selektywność - czujnik siarkowodoru może też zareagować pod wpływem amoniaku. Jedno jest bardziej szkodliwe, a drugie mniej - dlatego warto było sprawdzić, czy da się je odróżnić. Okazało się, że jest korelacja między gazem a parametrami statystycznymi sygnału losowego. Jednak najciekawsze z badań, które przeprowadziliśmy dotyczyły wstępnej detekcji raka płuc. W tym celu stworzyliśmy prototypowy czujnik do analizy wydychanego powietrza i detekcji np. formaldehydu, który może świadczyć o początkach choroby nowotworowej.

Udało się te badania spopularyzować?

- Niestety nie. Zazwyczaj nauka jest oderwana od przedsiębiorczości. Moje badania były za drogie do wdrożenia. Szczególnie w medycynie. Samo przejście przez badania kliniczne jest bardzo kosztowne i problematyczne. Zresztą to powszechny w Polsce problem. Naukowcy to inny wymiar myślenia, oni nie zawsze chcą zarabiać pieniądze. Na uczelni jest super praca. Ci sami ludzie w korporacjach mogliby zarabiać dużo więcej, ale na uczelni jest wolność, a w korporacji musi być efekt i coś, co robią musi się przełożyć na zysk. Jednak nie myśl, że taka praca badacza nie ma sensu. Często to jest wskazanie kierunku do dalszego rozwoju. Zdarza się też, że nauka wykorzysta coś za wiele lat. Taki Jan Czochralski wynalazł w 1915 technikę otrzymywania monokryształów, która swoje zastosowanie znalazła dopiero kilkadziesiąt lat później. Może tak będzie z wynikami moich badań.

Jednak ty nie zrobiłeś kariery na uczelni, tylko wybrałeś pracę w biznesie.

- Tak, na studiach pracowałem w telewizji jako inżynier emisji. Potem poszedłem do jednej z największych firm IT w Trójmieście. Zacząłem jako inżynier testowania oprogramowania. Dużo się nauczyłem, ale po trzech latach zaczęło mi się nudzić. Udało mi się zmienić projekt i pracowałem jako inżynier oprogramowania procesorów sygnałowych i przetwarzania dźwięków. Jednak kod niskiego poziomu to nie jest wielka frajda. Nie da się dotknąć tego, co wytwarzasz, jak np. przy pisaniu aplikacji. Potem zacząłem tworzyć program, który miał za zadanie wgrać do urządzenia główny program. Nie można było się pomylić, bo program był integralną częścią urządzenia. Ostatnie trzy lata to był najciekawszy projekt. Polegał na detekcji dźwięku, czyli mówiąc jaśniej - na odczytywaniu konkretnych dźwięków z otoczenia, dokładnie czterech z nich: płaczu dziecka, wybitej szyby, krzyków i syren alarmowych, czyli np. mój telefon mógł pokazać, że w domu, gdzie jest detektor, ktoś się włamał. To, co robiłem miało być bajerem do sprzętu. Jednak rozwiązania lądowały na półce. Z jednej strony miałem poczucie, że to, co robię jest niezwykle ciekawe, z drugiej, że nikomu niepotrzebne. Z uwagi na tajemnicę nawet nie mogłem powiedzieć, jak fajne rzeczy udało mi się stworzyć. Wtedy moje życie zawodowe przeszło największy zwrot akcji i zacząłem zajmować się danymi.

Długa była droga do analizy danych.

- To prawda, ale to, co robiłem do tej pory to był dobry grunt. Staram się być elastyczny, żeby łatwo móc zmieniać dziedziny, w których jest potrzebne tzw. inżynierskie myślenie. To pokazuje, że wiele osób sprawdzi się w pracy z danymi, nawet te, które wcześniej nie miały z nimi do czynienia. Sama politechnika daje umiejętność atakowania problemu z różnych stron. Wiesz, gdzie masz dojść i jesteś w stanie generować wiele dróg dojścia. Rozpocząłem współpracę z angielską firmą, której oddział w Polsce otworzył mój kolega ze studiów. Przekonało mnie to, że nie będę trybikiem w korporacyjnej machinie, że będę miał faktyczny wpływ na produkt, który będzie wykorzystywany, a nie odkładany na półkę, że moje rozwiązania będą przynosiły niewyobrażalne oszczędności dla firm. Zobacz - dane to potęga. Przykład pierwszy z brzegu. Cookies. Wchodzisz na stronę i nie dostajesz reklam wycieczki na Tajlandię dla singli tylko Chorwację dla rodzin z dziećmi. Z tego samego powodu zawsze wiem, kiedy moja żona kupuje buty albo jaki wybiera mi prezent na urodziny, jeśli korzystamy z domowego komputera. Dane o nas są ciągle zbierane i przetwarzane.

Jak nazywa się twoje stanowisko? Słyszałam różne określenia.

- Faktycznie funkcjonują różne nazwy. Z uwagi na charakter pracy anglojęzyczne, np.: senior data scientist czy solution architect. Jeśli szukamy polskich odpowiedników, może to być architekt rozwiązań opartych o analizę danych lub po prostu architekt rozwiązań, choć takich ofert pracy, tłumaczonych na polski, raczej nie znajdziesz. Kiedyś myśleliśmy w zespole, jaki byłby dobry polski odpowiednik i zatrzymaliśmy się na zaklinaczu danych. Brzmi zabawnie, ale naprawdę oddaje to, co robię.

Na czym dokładnie polega twoja praca z danymi?

- Znajduję w danych takie rzeczy, które pomogą zaoszczędzić pieniądze. Przekuwam je na rzeczywistą wartość, którą można zmonetyzować. Praca z danymi to przede wszystkim czyszczenie. Dane są brudne. Jakbyś chciała zobaczyć, ile dany pracownik w organizacji wydaje na wypożyczanie samochodów, to wcale nie jest takie proste. Ta sama osoba w różnych systemach jest zapisana na różne sposoby, a przy 500 tys. osób w organizacji nie jest to tak łatwo znaleźć. Dlatego pierwszym krokiem mojej pracy jest sprowadzenie danych do wspólnego mianownika. Takie ich wyczyszczenie, żebyśmy mogli na nich zacząć pracować i interpretować. Jeśli pytasz o aspekt techniczny, to data science to hybryda programisty i analityka danych/statystyka.

Gdzie są te niewyobrażalne oszczędności dla firm?

- Wyobraź sobie, że twoja firma ma podpisaną umowę z jedną z wypożyczalni samochodów na preferencyjne stawki. Mogę pokazać, ile pieniędzy traci na wynajmie aut przez pracowników, którzy nie korzystają z tej umowy, a wypożyczają auta z innych miejsc. Tak samo jest np. z hotelami. Chociaż firmy mają podpisane umowy, pracownicy podczas podróży służbowych rezerwują sobie miejsca w zupełnie innych hotelach, bo np. są tam smaczniejsze śniadania. To jest przykład, jak oszczędzić pieniądze, egzekwując obecne umowy. Korzystanie z danych może być też powodem do zawarcia takich umów. Wykazujemy firmie, ile np. wydała w zeszłym roku w sieci hoteli i sugerujemy, żeby podpisali umowę korporacyjną z tą siecią na lepszych warunkach, negocjując np. dodatkowo darmowy parking. Wtedy kwota, którą wydali na parking, w kolejnym roku się nie pojawi. Obecnie w firmie, w której pracuję, skupiamy się właśnie na podróżach służbowych. Tych danych mamy od firmy bardzo dużo. Czasem na ich podstawie możemy wykazać, że to, co pojawia się w rozliczeniu podróży służbowej, to nic innego, jak inaczej wpisane usługi night clubu.

Gdzie jeszcze poza oszczędnościami dla organizacji zastosowanie ma praca z danymi?

- Łatwiej odpowiedzieć, gdzie nie ma. Algorytm Facebooka jest w stanie dokładnie określić preferencje wyborcze. Naukowcy razem z biznesem stworzyli rozpoznawanie twarzy wykorzystywane w telefonach Apple. System firmy Google potrafi stwierdzić, czy na filmie umieszczonym na YouTube głównym bohaterem jest kot. Jakiś czas temu mogliśmy usłyszeć o sklepie, który analizował informację o zakupach klientów i na tej podstawie był w stanie wytypować, które z klientek są w ciąży. Sklep został nawet pozwany przez oburzonego ojca, którego 16-letnia córka została zasypana ofertami produktów dla ciężarnych. Problem w tym, że po kilku tygodniach okazało się, że jest w drugim miesiącu ciąży. Cały segment marketingu to świetna przestrzeń do wykorzystania danych. Zauważono, że w piątki wieczorem często łączone produkty to pieluchy i piwo kupowane przez młodych mężczyzn. Obserwacja pozwoliła na dopracowanie rozmieszczenia produktów i zbliżenie lokalizacji pieluszek i piwa, a także na ulepszenie polityki promocji - tak, aby w piątki wieczorem tylko jeden z produktów posiadał obniżoną cenę. Analizę danych można rozwijać w większości branż. Nawet w medycynie ma potężny obszar zastosowania. Niedługo osiągniemy lepszy poziom oceny chorób w radiologii przez komputer niż lekarza. Oczywiście ludzie nadal bardziej ufają lekarzowi niż maszynie, jednak taki system pozwoli chociaż na preselekcję.

Razem z dobrodziejstwem danych idzie też zagrożenie...

- Dokładnie. Warto założyć, że wszystkie dane, które wpisujemy do internetu mogą być wykorzystywane tak, jakbyśmy nie chcieli. Do tego oczywiście mogą zostać wykradzione. Pamiętajmy o tym za każdym razem, kiedy np. upubliczniamy wizerunek swoich dzieci.

Jak wyglądają zarobki w twojej branży?

- Są bardzo zróżnicowane i jak to ma miejsce w IT, przy doświadczonych osobach dość wysokie. Senior data science może zarobić kilkanaście tysięcy złotych bez problemu. Może też więcej. Wiele oczywiście zależy od firmy. Ja pracuję dla angielskiej firmy, więc zarabiam w funtach.

Jeśli jesteś ekspertem data science to ze znalezieniem pracy nie będzie problemu? Albo inaczej: jakie kompetencje trzeba mieć, żeby tego problemu nie było?

- Odpowiem trochę wymijająco. Na rynku na pewno jest duże zapotrzebowanie na ekspertów "data science". Jednak najcenniejszy i najtrudniejszy do znalezienia jest miks dobrego programisty z rozwiniętymi kompetencjami miękkimi. To, co wytwarzamy, a następnie sprzedajemy, to nie są wyniki analizy danych, a oprogramowanie, które analizuje dane i dostarcza wyniki w czytelnej formie oraz w skończonym czasie. Dobry kandydat to taki, który dodatkowo świetnie radzi sobie z matematyką i nie boi się "zaglądać tam, gdzie inni nie zaglądali". Jest to praca poniekąd naukowa, trzeba stawiać hipotezy, a następnie na podstawie algorytmów analizy danych je testować i weryfikować. Do tego należy lubić się ciągle uczyć. Rozwój narzędzi i algorytmów w tej dziedzinie jest niesamowicie szybki. Często ta praca odbywa się w zespołach a wyniki naszej pracy przedstawiane są analitykom biznesowym, działom sprzedaży itp., dlatego umiejętności komunikacyjne są tutaj kluczowe. Z mojego doświadczenie eksperci z dziedziny analizy danych i uczenia maszynowego są dosyć wybredni i lubią robić tzw. "sexy rzeczy", dlatego czasem jest im trudno znaleźć pracę marzeń. Reasumując, jeśli ktoś lubi dane, dobrze programuje, jest "spoko" i do tego nie ma problemu z tym, żeby czasem robić rzeczy oczywiste, jak normalizacja imion czy czyszczenie kodów pocztowych, to pracę na pewno znajdzie.

Trójmiejski rynek pracy to różnorodność i ciągłe, dynamiczne zmiany. Ciekawe, niszowe profesje i zawody, które w chwilę zdobywają popularność. Chcemy pokazać czytelnikom nie tylko warte poznania profesje, ale także niezwykłych ludzi, którzy z pasją opowiadają o swojej pracy. Temu ma służyć cykl wywiadów "Ciekawe zawody".