PySpark a gyakorlatban

A Big Data kezdetén volt a HDFS és a mapreduce, ezek voltak a fő eszközök a nagy, elosztott, mindig elérhető adatok tárolására, illetve a rajtuk végzett elosztott számításokra. Ahogy teltek-múltak az évek és a memória ára csökkent, jött a Spark, hogy meggyorsítsa az adatfeldolgozást. Habár scala-ban írták, nagy erőfeszítéseket tettek hogy pythonból is elérhető legyen – ez lett a PySpark, amivel fejlesztők, elemzők, data scientistek sokkal szélesebb köre tudta igába hajtani a klaszterek számítási kapacitását. Az előadás során példákon keresztül megmutatom, hogy mire (és mire nem) használjuk a spark-ot az OTP berkein belül.

Tajti András
Data engineer, OTP Bank

András jelenleg az OTP big data csapatában data engineer, adatokat tisztít, pakol egyik rendszerből a másikba. Miután 2014-ben megszerezte a diplomát,  az Andego-nál épített és implementált adatalapú tanácsadáshoz rendszereket.