Cum diferența de confidențialitate păstrează datele atât utile, cât și confidențiale

Como a privacidade diferencial mantém os dados úteis e confidenciais

⌛ Reading Time: 5 minutes

Embora geralmente use algoritmos bastante complexos, o objetivo da privacidade diferencial é muito simples: certifique-se de que as pessoas cujos dados são coletados tenham tanta privacidade quanto teriam se os dados nunca tivessem sido registrados. Você nunca deve ser capaz de identificar alguém apenas observando um conjunto de informações armazenadas sobre essa pessoa.

Como funciona a privacidade diferencial

Uma vez que os dados sobre nós estão sendo coletados em uma taxa sem precedentes e as pessoas estão ficando desconfortáveis ​​com isso, a ideia de que sua privacidade pode ser matematicamente comprovada está começando a parecer muito boa. Empresas como Microsoft, Google, Apple, Facebook e Uber o implementaram de alguma forma ou estão explorando suas opções, mas mesmo antes que as grandes tecnologias se interessassem, ele estava sendo usado para coisas como dados confidenciais de pesquisa, registros médicos e até peças do censo dos EUA.

Ele faz isso adicionando ruído aos próprios dados armazenados ou aos resultados que são retornados quando alguém os consulta – bagunçando pedaços individuais de dados, mas mantendo a forma geral. “Ruído” é essencialmente irregularidade, ou variabilidade inexplicada, nos dados, e o objetivo aqui é inserir ruído em pontos de dados individuais, mantendo medidas gerais como a média, mediana, modo e desvio padrão perto de onde estavam antes.

Privacidade Diferencial Simples

Vamos imaginar que você foi selecionado para participar de um estudo inovador de ciências sociais. Mas aqui está o problema: algumas das perguntas serão potencialmente embaraçosas, incriminatórias ou inconvenientes para você. Vamos apenas dizer que você prefere que ninguém veja seu nome ao lado de uma marca de seleção na coluna intitulada “Realmente gostou da última temporada de Game of Thrones”.

Felizmente, os pesquisadores tornaram o estudo anônimo. Em vez de nomes, você obtém um número aleatório, mas mesmo assim, as pessoas podem usar suas respostas e restringi-las a você.

Esse é um problema que surge bastante no mundo real, talvez o mais famoso quando pesquisadores foram capazes de não apenas identificar os usuários do Netflix mas até mesmo descubra algumas de suas preferências políticas. Mas e se pudéssemos manipular esses dados, assim como nossa pesquisa, de forma que ninguém lendo os resultados pudesse saber com certeza o que cada pessoa disse?

Adicionando ruído com lançamentos de moeda

Aqui está uma técnica que podemos usar para manter sua privacidade e obter resultados que, em conjunto, seriam como se todos dissessem a verdade:

Fluxograma inverso de moeda de privacidade diferencial
  1. Faremos uma pergunta sim / não (você gostou da última temporada de Game of Thrones?). Você joga uma moeda.
  2. Se a moeda der cara, jogue a moeda novamente. (Não importa o que você obtenha na segunda vez.) Responda à pergunta honestamente. (“Sim.”)
  3. Se der coroa, jogue a moeda novamente. Se for cara, diga “Sim”. Se for coroa, diga “Não”.

Não estaremos olhando para a moeda, então não saberemos se ela disse para você mentir ou não. Tudo o que sabemos é que você teve 50% de chance de dizer a verdade e 50% de chance de dizer “Sim” ou “Não”.

Diferencial de Privacidade Coin Toss

Sua resposta é então registrada ao lado de seu nome ou número de identificação, mas agora você tem uma negação plausível. Se alguém o acusa de estar gostando daquela última temporada de Game of Thrones, você tem uma defesa que é respaldada pelas leis da probabilidade: o cara ou coroa fez você dizer isso.

Os algoritmos reais que a maioria das empresas de tecnologia está usando para privacidade diferencial são muito mais complexos do que isso (dois exemplos abaixo), mas o princípio é o mesmo. Ao não deixar claro se cada resposta é realmente válida ou até mesmo alterar as respostas aleatoriamente, esses algoritmos podem garantir que, independentemente de quantas consultas alguém enviar ao banco de dados, eles não serão capazes de identificar ninguém concretamente.

No entanto, nem todos os bancos de dados tratam isso da mesma maneira. Alguns aplicam os algoritmos apenas quando os dados são consultados, o que significa que os próprios dados ainda estão sendo armazenados em sua forma original em algum lugar. Obviamente, esse não é o cenário de privacidade ideal, mas ter privacidade diferencial aplicada em qualquer ponto é melhor do que apenas enviar dados brutos para o mundo.

Como está sendo usado?

maçã

Privacidade diferencial Apple Hademard Mean Count Sketch
O algoritmo de esboço de contagem média usado pela Apple para privacidade diferencial

Apple usa privacidade diferencial para mascarar os dados individuais do usuário antes mesmo de serem enviados a eles, usando a lógica de que, se muitas pessoas enviarem seus dados, o ruído não terá um impacto significativo nos dados agregados. Eles usam uma técnica chamada “Count Mean Sketch”, que essencialmente significa que as informações são codificadas, partes aleatórias são alteradas e, em seguida, a versão “imprecisa” é decodificada e enviada à Apple para análise. Ele informa coisas como suas sugestões de digitação, dicas de pesquisa e até mesmo os emojis que aparecem quando você digita uma palavra.

Google

Fluxo de dados do Rappor de privacidade diferencial
Fluxo de dados RAPPOR de o GitHub do projeto

A primeira grande incursão do Google em privacidade diferencial foi RAPPOR (Randomized Aggregatable Privacy-Preserving Ordinal Response), que executa os dados por meio de um filtro e altera aleatoriamente partes deles usando uma versão do método de cara ou coroa descrito acima. Eles inicialmente o usaram para coletar dados sobre questões de segurança no navegador Chrome e, desde então, aplicaram privacidade diferenciada em outros lugares, como descobrir o quão ocupada uma empresa está em um determinado momento, sem revelar a atividade individual dos usuários. Eles abriram o código-fonte desse projeto, então pode haver mais aplicativos surgindo com base em seu trabalho.

Por que nem todos os dados estão sendo tratados dessa maneira?

A privacidade diferencial é atualmente um pouco complexa de implementar e vem com uma compensação de precisão que pode impactar negativamente os dados críticos em algumas circunstâncias. Um algoritmo de aprendizado de máquina usando dados privatizados para pesquisas médicas confidenciais pode cometer erros grandes o suficiente para matar pessoas, por exemplo. No entanto, ele já está vendo um uso real no mundo da tecnologia e, dada a crescente conscientização pública sobre a privacidade dos dados, há uma boa chance de vermos a privacidade matematicamente comprovada sendo apontada como um ponto de venda no futuro.

Créditos da imagem: Fluxo de dados RAPPOR, Algoritmo do lado do servidor para esboço de contagem média de Hademard, Pacote R-MASS de levantamento de dados, Árvore de probabilidades – jogando uma moeda

Relacionado:

How useful was this post?

Click on a star to rate it!

Average rating 0 / 5. Vote count: 0

No votes so far! Be the first to rate this post.

[pt_view id="5aa2753we7"]

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *