A Texasi Egyetem két kutatója, Arvind Narayanan (végzős diák) és prof. Vitaly Shmatikov olyan eljárást mutatott be, melynek segítségével "névtelenített" adatbázisokból lehet konkrét személyhez rendelt adatokat kinyerni. Elméletük bizonyításához két bárki számára hozzáférhető adatbázist használtak: az IMDb-t, és a Netflix-et.
Előbbit azt hiszem nem szükséges bemutatnom, utóbbit viszont annál inkább: a Netflix egy online videótéka, melynek felhasználói a kölcsönzés után értékelhetik is a megtekintett filmeket - mint az IMDb-n. A dolog érdekessége az, hogy a rendszer a leadott értékelések alapján újabb filmeket ajánl a mozizni vágyóknak. Ehhez természetesen egy speciális algoritmus szükséges, amely rendelkezésre is áll, de a Netflix egy verseny keretében keresi az algoritmus további fejlesztési lehetőségeit. Konkrétabban a cég egy halom pénzzel jutalmazza azt, aki a meglévő algoritmusnál 10%-kal jobbat talál ki, valamint minden évben 50.000$ üti a markát annak, aki az adott évben a legfigylemreméltóbb eredményt tudta elérni. Van magyar csapat is, a műegyetem MIT tanszékéről, akik jelenleg 5. helyen állnak a versenyben. Nem rossz mi?
Nade térjünk vissza a texasi adatbányászokhoz. Világos, hogy a Netflix a versenyéhez rendelkezésre kell hogy bocsásson egy jelentős méretű adatbázist, ami alapján a versenyzők tesztelhetik a munkájukat, illetve megítélhetik algoritmusuk hatékonyságát a Netflix szoftverével szemben. A Netflix persze vigyáz felhasználói magánszférájára, ezért az adatbázisban mindenkit valamilyen semleges azonosító reprezentál. Amit hőseink műveltek, az nem más, mint hogy fogták ezt az adathalmazt, összevetették néhány tucat IMDb-n regisztrált felhasználó adataival, és az eljárás végén sikerült néhány embert beazonosítaniuk! Persze mit érünk azzal, ha tudjuk, hogy valaki milyen filmeket szeret? Nos, a kutatóknak egy személyről pl. sikerült gyakorlatilag egyértelműen megállapítani a homoszexualitáshoz és a valláshoz való viszonyát...igen kellemetlen.
A Shmatikov felhívja a figyelmet, hogy ilyen jellegű adatok nyilvánosságra hozatalakor nem elég egyszerűen a személyes adatokat eltüntetni, hiszen az egyéb információk is könnyen azonosíthatóvá tehetik az adatbázisban tárolt személyeket.
Előbbit azt hiszem nem szükséges bemutatnom, utóbbit viszont annál inkább: a Netflix egy online videótéka, melynek felhasználói a kölcsönzés után értékelhetik is a megtekintett filmeket - mint az IMDb-n. A dolog érdekessége az, hogy a rendszer a leadott értékelések alapján újabb filmeket ajánl a mozizni vágyóknak. Ehhez természetesen egy speciális algoritmus szükséges, amely rendelkezésre is áll, de a Netflix egy verseny keretében keresi az algoritmus további fejlesztési lehetőségeit. Konkrétabban a cég egy halom pénzzel jutalmazza azt, aki a meglévő algoritmusnál 10%-kal jobbat talál ki, valamint minden évben 50.000$ üti a markát annak, aki az adott évben a legfigylemreméltóbb eredményt tudta elérni. Van magyar csapat is, a műegyetem MIT tanszékéről, akik jelenleg 5. helyen állnak a versenyben. Nem rossz mi?
Nade térjünk vissza a texasi adatbányászokhoz. Világos, hogy a Netflix a versenyéhez rendelkezésre kell hogy bocsásson egy jelentős méretű adatbázist, ami alapján a versenyzők tesztelhetik a munkájukat, illetve megítélhetik algoritmusuk hatékonyságát a Netflix szoftverével szemben. A Netflix persze vigyáz felhasználói magánszférájára, ezért az adatbázisban mindenkit valamilyen semleges azonosító reprezentál. Amit hőseink műveltek, az nem más, mint hogy fogták ezt az adathalmazt, összevetették néhány tucat IMDb-n regisztrált felhasználó adataival, és az eljárás végén sikerült néhány embert beazonosítaniuk! Persze mit érünk azzal, ha tudjuk, hogy valaki milyen filmeket szeret? Nos, a kutatóknak egy személyről pl. sikerült gyakorlatilag egyértelműen megállapítani a homoszexualitáshoz és a valláshoz való viszonyát...igen kellemetlen.
A Shmatikov felhívja a figyelmet, hogy ilyen jellegű adatok nyilvánosságra hozatalakor nem elég egyszerűen a személyes adatokat eltüntetni, hiszen az egyéb információk is könnyen azonosíthatóvá tehetik az adatbázisban tárolt személyeket.