כיצד פרטיות דיפרנציאלית שומרת על נתונים שימושיים וסודיים

Cum diferența de confidențialitate păstrează datele atât utile, cât și confidențiale
⏱️ 1 min read

למרות שהיא משתמשת בדרך כלל באלגוריתמים מורכבים למדי, המטרה של פרטיות דיפרנציאלית היא פשוטה מאוד: לוודא שלאנשים שהנתונים שלהם נאספים יש פרטיות כמו שהם היו מקבלים אילו הנתונים מעולם לא היו מתועדים. לעולם לא תוכל לזהות מישהו רק על ידי התבוננות בקבוצה של מידע מאוחסן על אותו אדם.

יער אילנות (הארבורט...
יער אילנות (הארבורטום הלאומי)

איך עובדת פרטיות דיפרנציאלית

מכיוון שהנתונים עלינו נאספים בקצב חסר תקדים ואנשים מרגישים אי נוחות איתם, הרעיון שניתן להוכיח את הפרטיות שלך מתמטית מתחיל להיראות די טוב. חברות כמו מיקרוסופט, גוגל, אפל, פייסבוק ואובר יישמו את זה איכשהו או בוחנות את האפשרויות שלהן, אבל עוד לפני שהטכנולוגיה הגדולה התעניינה, הוא שימש לדברים כמו נתוני מחקר רגישים, רשומות רפואיות ואפילו חלקים העולם. מפקד האוכלוסין בארה”ב.

הוא עושה זאת על ידי הוספת רעש לנתונים המאוחסנים עצמם או לתוצאות המוחזרות כאשר מישהו שואל אותם – מבלבל פיסות נתונים בודדות אך שומר על הצורה הכללית. “רעש” הוא בעצם אי סדירות, או שונות בלתי מוסברת, בנתונים, והמטרה כאן היא להכניס רעש לנקודות נתונים בודדות תוך שמירה על מדדים כלליים כמו ממוצע, חציון, מצב וסטיית תקן קרוב למקום שבו היו קודם לכן.

פרטיות דיפרנציאלית פשוטה

בואו נדמיין שנבחרתם להשתתף במחקר חדשני במדעי החברה. אבל הנה הבעיה: חלק מהשאלות עשויות להיות מביכות, מפלילות או לא נוחות עבורך. בוא נגיד שאתה מעדיף שאף אחד לא יראה את שמך ליד סימן ביקורת בעמודה שכותרתה “ממש נהניתי מהעונה האחרונה של משחקי הכס”.

למרבה המזל, החוקרים הפכו את המחקר לאנונימי. במקום שמות, אתה מקבל מספר אקראי, אבל גם אז אנשים יכולים להשתמש בתשובות שלך ולצמצם אותו אליך.

זו בעיה שעולה הרבה בעולם האמיתי, אולי הכי מפורסם כאשר חוקרים הצליחו לא רק לזהות משתמשי נטפליקס אבל אפילו גלה כמה מההעדפות הפוליטיות שלך. אבל מה אם נוכל לתמרן את הנתונים האלה, כמו גם את המחקר שלנו, כך שאף אחד שקורא את התוצאות לא יוכל לדעת בוודאות מה כל אדם אמר?

הוספת רעש עם סיבובי מטבעות

הנה טכניקה שבה נוכל להשתמש כדי לשמור על הפרטיות שלך ולהשיג תוצאות שיחד יהיו כמו שכולם אומרים את האמת:

תרשים זרימה הפוך של מטבעות פרטיות דיפרנציאלית
כיצד פרטיות דיפרנציאלית שומרת על נתונים שימושיים וסודיים
  1. נשאל שאלה של כן/לא (אהבתם את העונה האחרונה של משחקי הכס?). אתה מטיל מטבע.
  2. אם המטבע מנחית ראשים, היפו את המטבע שוב. (זה לא משנה מה אתה מקבל בפעם השנייה.) ענה על השאלה בכנות. (“כן”)
  3. אם זנבות, היפו את המטבע שוב. אם זה יקר, אמור “כן”. אם זנבות, אמור “לא”.

לא נסתכל על המטבע, אז לא נדע אם הוא אמר לך לשקר או לא. כל מה שאנחנו יודעים זה שהיה לך סיכוי של 50% לומר את האמת ו-50% סיכוי להגיד “כן” או “לא”.

הפרש פרטיות של הטלת מטבעות

תשובתך נרשמת לאחר מכן לצד שמך או מספר תעודת הזהות שלך, אך כעת יש לך הכחשה סבירה. אם מישהו מאשים אותך בכך שאתה נהנה מהעונה האחרונה של משחקי הכס, יש לך הגנה שמגובה בחוקי ההסתברות: הטלת מטבעות גרמה לך להגיד את זה.

האלגוריתמים בפועל שרוב חברות הטכנולוגיה משתמשות בהן לפרטיות דיפרנציאלית הם הרבה יותר מורכבים מזה (שתי דוגמאות למטה), אבל העיקרון זהה. בכך שהם לא מבהירים אם כל תשובה באמת חוקית או אפילו משנים את התשובות באופן אקראי, האלגוריתמים האלה יכולים להבטיח שלא משנה כמה שאילתות מישהו שולח למסד הנתונים, הם לא יוכלו לזהות אף אחד באופן קונקרטי.

עם זאת, לא כל מסדי הנתונים מטפלים בזה באותו אופן. חלקם מיישמים את האלגוריתמים רק כאשר הנתונים נשאלים, מה שאומר שהנתונים עצמם עדיין מאוחסנים בצורתם המקורית איפשהו. זה כמובן לא תרחיש הפרטיות האידיאלי, אבל יישום פרטיות דיפרנציאלית בכל שלב הוא טוב יותר מאשר לשלוח נתונים גולמיים אל העולם.

איך משתמשים בו?

אַשׁפָּה

פרטיות דיפרנציאלית Apple Hademard Mean Count Sketch
אלגוריתם סקיצות הספירה הממוצעת בשימוש על ידי אפל לפרטיות דיפרנציאלית

אפל משתמשת בפרטיות דיפרנציאלית להסוות נתוני משתמש בודדים עוד לפני שהם נשלחים אליהם, תוך שימוש בהיגיון שאם יותר מדי אנשים ישלחו את הנתונים שלהם, לרעש לא תהיה השפעה משמעותית על הנתונים המצטברים. הם משתמשים בטכניקה שנקראת “סקיצה ממוצעת הספירה”, שמשמעותה בעצם שהמידע מקודד, חלקים אקראיים משתנים, ואז הגרסה ה”לא מדויקת” מפוענחת ונשלחת לאפל לניתוח. זה אומר לך דברים כמו הצעות ההקלדה שלך, טיפים לחיפוש ואפילו האימוג’ים שמופיעים כשאתה מקליד מילה.

גוגל

פרטיות דיפרנציאלית זרם נתונים של Rappor
זרם נתונים RAPPOR מ GitHub של הפרויקט

הגיחה הגדולה הראשונה של גוגל לפרטיות הדיפרנציאלית הייתה RAPPOR (Randomized Aggregatable Privacy-Preserving Response Ordinal Response), אשר מריץ את הנתונים דרך מסנן ומשנה באופן אקראי חלקים ממנו באמצעות גרסה של שיטת הטלת המטבע שתוארה לעיל. הם השתמשו בו בתחילה כדי לאסוף נתונים על בעיות אבטחה בדפדפן כרום, ומאז החלו פרטיות מובחנת במקומות אחרים, כגון גילוי עד כמה העסק עסוק בכל זמן נתון, מבלי לחשוף את הפעילות של משתמשים בודדים. הם יצרו פרויקט זה בקוד פתוח, כך שייתכן שיצאו עוד אפליקציות על סמך עבודתם.

מדוע לא כל הנתונים מטופלים בצורה כזו?

פרטיות דיפרנציאלית היא כרגע קצת מורכבת ליישום ומגיעה עם פשרה של דיוק שיכולה להשפיע לרעה על נתונים קריטיים בנסיבות מסוימות. אלגוריתם למידת מכונה המשתמש בנתונים מופרטים למחקר רפואי סודי יכול לעשות טעויות גדולות מספיק כדי להרוג אנשים, למשל. עם זאת, הוא כבר רואה שימוש אמיתי בעולם הטכנולוגיה, ובהתחשב במודעות הגוברת של הציבור לפרטיות נתונים, יש סיכוי טוב שנראה שפרטיות מוכחת מתמטית תוצג כנקודת מכירה בעתיד.

קרדיט תמונה: זרימת נתונים של RAPPOR, אלגוריתם בצד השרת לסקיצת הספירה הממוצעת של Hademard, חבילת איסוף נתונים של R-MASS, עץ הסיכויים – הטלת מטבע

קָשׁוּר:

Join our Newsletter and receive offers and updates! ✅

0 0 votes
Article Rating
Avatar of Routech

Routech

Routech is a website that provides technology news, reviews and tips. It covers a wide range of topics including smartphones, laptops, tablets, gaming, gadgets, software, internet and more. The website is updated daily with new articles and videos, and also has a forum where users can discuss technology-related topics.

You may also like...

Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x