A munkám a szenvedélyem: Vásárhelyi Orsolya adattudós

2020. február 10.
Minden héten olyan szerencsés embereket mutatunk be, akik számára a munkájuk az életük egyik értelme, a szenvedélyük. Reméljük, példájuk másoknak is erőt ad az esetleges váltáshoz, vagy jelenlegi élethelyzetük értékeléséhez, átalakításához. Ismerkedjetek meg Vásárhelyi Orsolya adattudóssal, aki jelenleg a Közép-európai Egyetem doktorjelöltje.

Állítólag nem léteznek még meg azok a szakmák, amelyek a most iskolába járó gyerekek számára a legvonzóbbak lesznek felnőtt korukban. Amilyen gyorsan változik a világ, olyan gyorsan születnek új szakmák, és mennek ki a divatból régiek. Amikor Vásárhelyi Orsolya általános iskolába járt, Magyarországon még senki nem ismerte az adattudós kifejezést. Ma az egyik legkeresettebb és legjobban megbecsült szakma az övé, rengeteg külföldi és hazai lehetőség vár rá, amikor befejezi a doktori képzést. Orsi a nagy adatokból kiolvasott társadalmi összefüggéseket fordítja le hétköznapi nyelvre, és ezzel segít vállalatokat és nonprofit cégeket abban, hogy számokkal jobban alátámasztott döntéseket hozzanak.

Adattudós. Ez egy olyan foglalkozás, amiről csak az utóbbi időkben hallhattunk, és sokaknak még nem világos, mivel is foglalkozik egy adattudós.

Az angol nevét gyakrabban lehet olvasni az álláshirdetésekben: data scientist. A magyar fordítása szerintem szörnyen hangzik. Viccesen megfogalmazva, azt szokták mondani, hogy a data scientist az a statisztikus, aki egy Macbookkal ül egy kávézóban San Franciscóban, és onnan dolgozik. Én is voltam már adatelemző, statisztikus, big data specialista, adatbányász és data scientist is. Végzettségemet tekintve statisztikus vagyok. A viccet félretéve, az adattudós nagy mennyiségű adatot elemez matematikai módszerekkel, és ehhez, ha szükséges, programokat ír. Az adattudósok csinálják a tanuló algoritmusokat, mesterséges intelligenciával is foglalkoznak, de vannak, akik cégen belüli statisztikai kimutatásokat és felhasználói viselkedéseket elemző kutatásokat végeznek. Az adatelemzés régebben is létezett, csak kisebb adatokon, most annyi benne a plusz, hogy sokkal pontosabb és nagyobb adatmennyiség áll rendelkezésére a cégeknek, amiknek a feldolgozásához komplexebb módszerekre van szükség. Mindeközben a technológia is fejlődött, és az adattudományos vívmányok beépültek a hétköznapi termékekbe. Attól annyira keresett ez a szakma mostanában, hogy az adattudományos készségek felhasználása nagyon sokrétű lett.

Amikor iskolába jártál, már akkor érdekeltek a számok? Az adatok?

Eredetileg nem akartam matekkal foglalkozni. Érettségikor pszichológus szerettem volna lenni, mint oly sok 18 éves lány, de nem vettek fel pszichológia szakra. Ezért mentem társadalmi tanulmányokat tanulni, ahol hamar rájöttem arra, hogy igazából nem is érdekel a pszichológia. A társadalmi tanulmányok szakon viszont volt statisztikaórám is, és nagyon megtetszett, hogy a matematikai módszerekkel milyen jól le lehet írni a társadalmi folyamatokat. Amikor elkezdtünk elemzéseket végezni és programozgatni, akkor értettem meg, hogy a matematikát lehet izgalmas dolgokra is használni, nem csak öncélú algebrára meg függvényelemzésre.

Nagyon sok matek kell ehhez a pályához?

Attól függ, melyik részét csinálja az ember. Nem feltétlenül kell matekzseninek lenni, de statisztikai és programozási tudás mindenképpen kell. Nagyon sok data scientist attól jó a szakmájában, hogy arról a területről, amelyen dolgozik, mély tudással rendelkezik. Például jó közgazdász, marketinges, vagy a gyógyszeriparhoz ért. Sok területen jelen van ez a szakma.

Most már tanítják ezt az egyetemen. Hol van ilyen szak?

Nem tudom pontosan, hogy hol van konkrétan ilyen szak ma Magyarországon. Nálunk, itt a CEU-n a Hálózat- és Adattudományi Tanszéken van PhD képzés, az ELTE-n van adatanalitika mesterképzés, de azt hiszem, a Műszaki Egyetemen és a Corvinuson is van ilyesmi szakirány. Külföldön gyakorlatilag minden jobb egyetemen van már alapképzés hasonló területen. Van, ahol az informatikához tartozik, máshol a matematika szakhoz, de a társadalomtudományi karok is egyre több adatanalitikai képzést szerveznek. Nagy az igény az ipar részéről, szóval valószínűleg egyre több helyen lesz elérhető a data science képzés.

A véletlen hozta úgy, hogy ebbe az irányba tanulj tovább. Emlékszel arra az aha-élményre, amikor rájöttél arra, ez a te világod, és az egyetem után ezen a területen szeretnél majd dolgozni?

Egész gyerekkoromban nagyon szerettem írni, megfogalmazni dolgokat. Emlékszem, amikor az első elemzést kellett csinálnom az egyetemen, volt egy nagyon egyszerű probléma egy társadalmi kérdésről, amit számokkal kellett bizonyítani. Készítettem hozzá egy modellt, és nagyon megfogott, hogy adatokkal el tudok mesélni, alá tudok támasztani egy problémát. Egy másik fordulópont olyan harmadéves koromban lehetett, amikor Barabási Albert-László hálózatkutatás alapjaival foglalkozó könyvét (Behálózva) elolvastam, mondtam az egyik barátomnak, hogy én is ezzel akarok foglalkozni, mert ez elképesztően érdekes munka lehet. Aztán eljutott hozzám egy álláshirdetés: Barabási cége, a Maven7 gyakornokot keresett. Azonnal jelentkeztem rá, észre sem vettem, hogy már lejárt a jelentkezési határidő. Az állást végül megkaptam, és öt évig dolgoztam ennél a cégnél.

Ez volt az első munkahelyed?

Igen. Gyakornokként kezdtem, aztán voltam elemző, majd később kisebb csapatot vezettem.

Sok női munkatársad volt ezen a munkahelyen? Vagy ez inkább a férfiak pályája?

Az adatelemzők között több volt a nő, a programozók meg inkább férfiak voltak. Akkor még nem data scinetistnek hívtak minket, és viszonylag kettévált a programozói és az elemzői munka.

Mi a különbség az adatelemző és az adattudós között?

Nem lehet könnyen megfogalmazni, mert mindenki mást ért e két szakma alatt. Ha megnézzük az álláshirdetéseket, van, ahol date scientistnek írják le azt a munkát, amikor excel táblázatban kell kiszámolni valamit, máshol pedig a data scientistnek mesterséges intelligencia algoritmusokat kell fejlesztenie, vagy hatalmas adatbázisokat építenie. Szerintem az adattudós kicsit tudományosabban kell, hogy a megoldandó problémához álljon, nem feltétlenül állnak rendelkezésére kész megoldások egy-egy elemzési problémához, és ezeket sokszor neki kell lefejlesztenie. Ezért is van az, hogy sok helyen a data scientistektől programozási tudást is elvárnak, míg az adatelemzőtől nem feltétlenül. A nemi különbség ebben van, sokkal kevesebb nő tanul meg programozni, mint férfi. Ennél a cégnél az adatelemzők között sok szociológus nő volt, akiknek nem kellett programozni tudni, különböző szoftvereket használtak a munkájukhoz. Most már az ő elemzőik is programoznak, és köztük is sok a nő. Dolgoztam egy startup cégnél Barcelonában, ami a helyi Prezi volt, szuperszexi cég, ott a data science csapatban ketten voltunk lányok a tizenkettőből. Amikor eljöttem, a kolléganőm azt mondta, meg fogja vétózni, ha megint egy férfit vesznek fel a helyemre. Sem kulturálisan, sem a hatékonysága szempontjából nem jó, ha nagyon alul van egy-egy társadalmi csoport reprezentálva egy csapatban.

Hogy kerültél ehhez a céghez?

A PhD képzésem első évének végén kimentem Barcelonába szakmai gyakorlatra, hogy levezessem az első év fáradalmait. Akkor ismertem meg a barátomat, és mivel kint akartam maradni vele, csináltam még egy szakmai gyakorlatot. Akkoriban ez volt a legmenőbb cég Barcelonában, hozzájuk jelentkeztem. Olyan embert kerestek, aki terjedési modellekkel foglalkozik, előre tudja jelezni, hogyan fogják az emberek egymásnak ajánlani a szoftverüket. Ehhez egy hálózatkutató pont jól jött. Hat hónapig dolgoztam náluk.

Sokat tanultál itt?

Igen. Ekkora cégnél még nem dolgoztam, négyszázan voltunk, minden angolul ment, negyven országból érkeztek a munkavállalók. Sok szempontból ez egy tipikus startup cég volt, ahol nagyon gyorsan változtak a prioritások és az adatcsapatnak ebben kellet támogatást nyújtania. Nagyon sokat fejlődtem, és nem csak technikai téren. Sokat tanultam arról, hogy miképp kell vezetőknek adatokról prezentálni, jó kérdéseket feltenni és lefordítani az eredményeket úgy, hogy bárki megértse – ne félreértse –, és fel is tudja azt használni a mindennapi munkájában.

Nem gondoltál arra, hogy ott maradj?

Felajánlották a lehetőséget, hogy maradjak, de természetesen be akartam fejezni a PhD-met. Volt róla szó, hogy visszamegyek majd, de nagyon sok minden megváltozott a cégben. A startupoknál bevált gyakorlat, hogy a rendszer gyorsan változik, új befektetők jönnek, kockázati tőkét vonnak be, a befektetők minél hamarabb szeretnék viszontlátni a pénzüket. Maga Barcelona is a sok techcéget vonz, egyik cég a másiktól szipkázza el a munkaerőt. Ma már csak páran vannak a csapatban, akikkel akkor együtt dolgoztam, szóval nem valószínű, hogy visszamegyek.

Visszajöttél a CEU-ra, és azóta itt vagy?

Következő nyárra kaptam egy eléggé rangos ösztöndíjat Portugáliába, aminek a témája az volt, hogyan lehet az adattudományt társadalmi problémák megoldására felhasználni (Data Science for Social Good). Ezt az ösztöndíjat Barack Obama egykori chief data scientistje, Rayid Ghani hívta életre azzal a céllal, hogy data science-szel foglalkozó fiataloknak adjon lehetőséget arra, hogy társadalmilag hasznos problémákon dolgozzanak három hónapig. Ez egy edukációs ösztöndíj, ahol mindkét fél tanul. A nonprofit szféra képviselői fejlődnek abban, hogy megértsék, miképp lehet az új technológiákat társadalmi problémák megoldásában vagy átláthatóbbá tételében használni. A résztvevő diákok pedig arról tanulnak, hogy miképp kell nonprofit cégekkel dolgozni, akik általában egyáltalán nem értenek a technológiához. Nagy hangsúly van az az adatok és a módszerek etikus felhasználásán, illetve azon, hogy valóban hasznos végeredményt tudjunk létrehozni.

Te milyen projekten dolgoztál?

A fenntartható turizmus egyre több európai városnak okoz fejtörést. A mi projektünk a toszkán turisztikai központnak segített abban, hogy megértse a régióba látogató turisták mozgását, és alternatív útvonalakat ajánljon a jelenleg túl népszerűek helyett. Nagy probléma, hogy a turisták nagyrészt ugyanazokra a helyekre mennek, és jelenlétükkel teljesen átalakítják a városlakók életét. Sok európai városban (például Budapesten is) kiszorulnak a lakók a külső kerületekbe, mert a lakásállományt inkább airbnb-zésre használják a tulajdonosok, az árak pedig elszállnak. Nagyon egyszerűen fogalmazva: az volt a célunk, hogy ne mindenki (csak) a firenzei dómhoz meg a pisai ferde toronyhoz zarándokoljon el, hanem látogasson meg olyan régiókat Toszkánában, ahol egyébként a gazdaságnak is hasznos lenne a turizmus, és a turisták is jobban éreznék magukat, mert kevésbé zsúfolt. Ehhez a kutatáshoz mobiltelefonos mozgási adatokat használtunk.

Nektek van jogotok az emberek telefonhasználatából származó adatokat elemezni?

A telekommunikációs cégek tárolják ezeket az adatokat. Nekünk és senkinek sincsen teljes körű hozzáférése ezekhez az adatokhoz. Mi már csak anonim, megtisztított adatokat kaptunk, amelyekben az emberek nevét számok helyettesítik. Csak annyit tudtunk róluk, hogy a telefonjuk SIM-kártyája melyik országból származik, és tíz perc pontossággal merre jártak. Semmi mást. Elvileg beazonosíthatatlanok a személyek. Erre vannak bevett protokollok. Ezeket az adatokat használhattuk fel a kutatáshoz. Az ösztöndíjat kiíró egyesület négy-öt hónapig készítette elő a munkánkat, kitalálta, milyen adatokra van szükségünk, és az egyik nagy telekommunikációs vállalat biztosította ezeket az adatokat.

Miből írod a PhD dolgozatodat?

Azt próbálom nagy adatokkal megérteni, hogyan használják a nők és a férfiak a hálózataikat arra, hogy technológiai területen sikeresek legyenek. Melyek azok a nem tudatos viselkedésminták, amelyek ahhoz vezetnek, hogy a nők sikeresek legyenek a tudományban, vagy a technológiában, és ne hagyják el ezeket a területeket. Azt is vizsgáljuk, hogy a csapatok nemi sokszínűsége hogyan viszonyul a sikerükhöz. Mostanában nagyon népszerű elmélet, hogy minél több nőt vegyenek fel technológiai területekre a cégek, mert attól jobban teljesítenek majd, de arról kevesebbet beszélnek, hogy ez önmagában inkább káros, mintsem hasznos. Ha a nők (vagy egyéb alulreprezentált kisebbségi csoportok) nem érzik magukat befogadva, tehát a környezet nem inkluzív, el fognak menni. Mi ezt az ún. inklúziót is próbáljuk számszerűsíteni hálózatkutatási módszerekkel. A legutóbbi kutatásunkat videojáték-fejlesztők adatain végeztük, ahol más technológiai területekhez hasonlóan alacsony a nők aránya. Azt vizsgáltuk, mennyire játszik szerepet egy csapat kreativitásában az, hogy milyen a nemek aránya és az, hogy mennyire vannak a nők integrálva a csapattagok között. Azt találtuk, hogy a legkevésbé kreatív csapatokban a csoport fele ugyan nő, de ők nem voltak aktív részesei a közösségnek. Náluk még azok a csapatok is jobban teljesítettek, amelyekben csak férfiak voltak. Az legkreatívabb csoportok azok voltak, ahol a nők és a férfiak egyenlő arányban voltak, de a nőket integrálták a közösségbe. Ez azért is fontos, mert azokon a területeken ahol a nők alulreprezentáltak, a nemileg sokszínű csapatok sokszor rosszabbul teljesítenek. Ezt könnyű arra fogni, hogy az újonnan felvett nők hibája. Azonban, ha a csapatok az újonnan felvett nők beilleszkedésével valóban foglalkozunk, és a környezet olyan, hogy érdemben hozzá tudnak járulni a munkához, akkor a nemi sokszínűség alkotó értékké tud válni.

Ki fogja majd felhasználni mindazt, amit a PhD disszertációdban megírsz?

Szeretném azt hinni, hogy sokan felhasználják majd a kutatásom eredményeit, de ezt elég nehéz megmondani előre. Én naivan próbálok hinni abban, hogy a tudomány célja, hogy jobbá tegye a világot. Azt gondolom, hogy a hozzám hasonló területen dolgozó kutatók munkássága középtávon beépül a modern managementoktatásba, és így éri majd el a hatását. Az általunk kifejlesztett módszerek egyre több céget érdekelnek, sok cég alkalmaz data scientisteket arra, hogy jobban megértse miképp van jelen például a nem tudatos diszkrimináció a mindennapi működésükben. Én is végzek ilyen kutatásokat, és tervezek a jövőben még több ilyet. Emellett nonprofit szervezetekkel is dolgozom, akiknek kimondottan hasznos a lobbitevékenységükhöz jobban érteni, hogy mik a strukturális okai annak, hogy kevés nő dolgozik bizonyos területeken.

Mi az, amit a legjobban szeretsz a kutatói munkádban?

Azt, hogy azért fizetnek engem, hogy tanuljak, képezzem magam, folyamatosan fejlődjek. Szabadon kutathatok, azt, amit akarok. A kutatás teljes folyamatát átlátom, én gyűjtöm az adatokat, én csinálom meg rá a modellt, olvasok hozzá. Egy cégben ezek a folyamatok fel vannak darabolva. Szabad az időbeosztásom, nagyon sokféle emberrel találkozom, és utazni is sokat tudok ezzel a munkával. Tanítani is szeretek, a tanítás közben én is sokat fejlődöm, mert ahhoz, hogy valamit jól el tudjak magyarázni, nekem is a mélyére kell mennem. Hálózatkutatást és programozást is oktatok. Jó megtapasztalni, hogy néhány hét alatt mennyi mindent képesek megtanulni a hallgatók, milyen elképesztően kreatív projekteket tudnak létrehozni a félév végére. A nem tudományos munkában pedig azt szeretem a legjobban, hogy nagyon sokféle területen lehet az adatokat használni, és ezért nem válik unalmassá a szakmám. Alapvetően nagy izgalom övezi az adatos projekteket, szóval általában pozitív légkör vesz körül, és mindenkiből elő lehet kicsit csalni a „tudóst”, amikor együtt nézzük az eredményeket.

Őszintén, bárki meg tud tanulni programozni?

Persze. Szerintem mindent meg lehet tanulni, ha akarja az ember, és van célja vele. Csak van, akinek több ideig tart. Angolul nem árt hozzá tudni, mivel a programozástanulás 90%-a abból áll, hogy beírod a Google-ba angolul az aktuális hibaüzenetet, és a válasz alapján módosítod a kódot.

Szerinted is tényleg minden gyereknek meg kell tanulni programozni, mert ez a jövő?

Amikor én voltam óvodás, sokan azon voltak felháborodva, hogy miért kell már az óvodában angolul tanulni. Senkinek nem árt, ha minél korábban elsajátítja a logikus gondolkodást. Ha ezt megtanulja a programozás során, az élet más területén is alkalmazni tudja ezt a szemléletet. A technológia ismerete semmiképp nem árt.

Tíz év múlva hol szeretnéd látni magad? Vagy ez olyan messze van még?

Fogalmam sincs. Annyira gyorsan változik minden, főleg az én szakmámban. Most március végéig látok el ebben a pillanatban, akkor kell leadnom a PhD disszertációmat. Többféle forgatókönyv lehetséges azután, de jelenleg azt sem tudom, két hónap múlva melyik országban fogok lakni. Azt sem tudom, hogy a tudományos világban maradok-e, vagy az üzleti életben folytatom. Vannak saját cégterveim, ez benne van a tízéves tervben, de ennél konkrétabb ötletem most nincs. Valószínű adatokkal fogok foglalkozni, és olyan munkám lesz, ahol összekötőként működhetek az adatok, a technológia és a felhasználók között.

SZABADSÁG? MÁSKÉPP. 
Pillanatok alatt húzták ki alólunk a talajt. Eddigi életünktől teljesen elkülönítve találtuk magunkat. Ami addig természetesen volt szabad és egyértelmű, elérhetetlenné vált. De vajon szabad volt az életünk a világjárvány előtt? Másképp látjuk, másképp éljük, másképp mondjuk és másképp hisszük.  A TEDxLibertyBridgeWomen színpadán idén, november 14-én is olyan előadókat mutatunk be a közösségünknek, akik példaként járnak előttünk, közöttünk. Szabad embereket, nőket és férfiakat, akik másképp gondolkodnak, másképp cselekednek, és ezzel bennünket is változásra, tettekre inspirálnak. Hogyan élhetsz szabadon a saját életedben? Erre adnak válaszokat, mind-mind másképp. Helyszín: Katona József Színház TARTS VELÜNK NOVEMBER 14-ÉN SZEMÉLYESEN VAGY ONLINE, ÉS ALKOSSUK EGYÜTT A JÖVŐT! Jegyek ITT elérhetők!