Google опублікувала вихідні тексти бібліотеки Differential Privacy
Google опублікувала вихідні тексти бібліотеки Differential Privacy
Google опублікувала вихідні тексти бібліотеки "Differential Privacy" з реалізацією методів диференціальної приватності, що дозволяють з досить високою точністю виконувати статистичні операції над набором даних без можливості ідентифікації окремих записів у ньому. Код бібліотеки написаний мовою C++ і відкрито під ліцензією Apache 2.0.
Аналіз із використанням методів диференціальної приватності дає можливість організаціям проводити аналітичні вибірки зі статистичних БД, не дозволяючи розділити дані та виділити із загальної інформації параметри конкретних осіб. Наприклад, для виявлення відмінностей у догляді за хворими, дослідникам можна надати інформацію, що дозволяє порівняти середню кількість часу перебування пацієнтів у лікарнях, але зберігаючи при цьому конфіденційність пацієнтів та не допускає виділення відомостей про них.
Запропонована бібліотека включає реалізацію кількох алгоритмів для формування агрегованої статистики на основі наборів числових даних, що включають конфіденційні відомості. Для перевірки коректності роботи алгоритмів надається стохастичний пробник. Алгоритми дозволяють виконувати над даними операції підсумовування, підрахунку, обчислення середніх значень, середньоквадратичного відхилення, дисперсії та порядкової статистики, включаючи визначення мінімуму, максимуму та медіани. До складу також входить реалізація механізму Лапласа, який може використовуватися для обчислень, що не охоплюються визначеними алгоритмами.
Бібліотека використовує модульну архітектуру, яка дозволяє розширювати наявну функціональність та додавати додаткові механізми, агрегатні функції та засоби. управління рівнем конфіденційності. На базі бібліотеки для СУБД PostgreSQL 11 підготовлено розширення з набором анонімних агрегатних функцій, що використовують методи диференціальної приватності - ANON_COUNT, ANON_SUM, ANON_AVG, ANON_VAR, ANON_STDDEV та ANON_NTILE.