Matej Mihelčić: Dubinska analiza podataka uz zaštitu privatnosti
ponedjeljak, 12. travnja 2021.
S velikim povećanjem dostupnih izvora podataka te sve češćim računalnim i ekspertskim analizama tih podataka (uz javno objavljivanje rezultata), javio se problem narušavanja privatnosti osoba čiji su podaci prikupljeni i korišteni u navedenim studijama. Pokazuje se da jednostavna anonimizacija, kojom se osjetljivi podaci kao što su ime, prezime, osobni identifikatori zamjenjuju nekim slučajno generiranim identifikacijskim kodom, nije dovoljna za zaštitu privatnosti korisnika.
Uočeno je da se analizom atributa i pogotovo kombiniranjem podataka iz više izvora, takav tip zaštite može učinkovito zaobići. U seminaru ćemo se kratko osvrnuti na neke postojeće postupke privatizacije kojima je glavni cilj očuvanje privatnosti instanci te ćemo navesti neke njihove prednosti i mane. Detaljnije ćemo obraditi sustav diferencijalne privatnosti koji nudi dokazivu zaštitu privatnosti svake individualne instance u skupu podataka. Navedeni sustav je jako koristan jer nudi gradbene blokove za razvoj algoritama za dubinsku analizu podataka koji ne narušavaju privatnost individualne instance u skupu podataka. Na seminaru ćemo idejno opisati kako bi korištenjem navedenog sustava mogli konstruirati algoritam za traženje redeskripcija koji ima svojstvo
očuvanja diferencijalne privatnosti instanci u skupu podataka.