
Na semana passada, tive a honra de mediar um painel intenso no CPDP Latam por meio do qual debatemos um ponto crítico para o futuro da inovação no Brasil: a crescente tensão entre a proteção de dados (LGPD) e a necessidade de treinar modelos de Inteligência Artificial de forma eficaz e responsável.
A discussão contou com as valiosas contribuições de Ana Paula Bialer, Bernardo Fico, Davi Teofilo, Juliana da Cunha Mota, Juliano Maranhão, Stefani Juliana Vogel, Victor Prata, LLM, MSc e deixou claro que estamos diante de um complexo desafio regulatório, talvez sem precedentes no campo digital.
Minha provocação no debate, e que detalho aqui, parte de uma premissa preocupante: o Projeto de Lei 2.338/2023 e certas interpretações da LGPD parecem jogar contra o fomento da IA responsável no Brasil.
O Erro Central: Regular a IA como se Fosse um Banco de Dados
Em alguns campos de debate (felizmente não no CPDP), os modelos de linguagem (LLMs) são encarados como se fossem repositórios gigantes que “armazenam” dados. Isso é um equívoco. O treinamento de uma IA é um processo de abstração, não de memorização.
Pensemos assim: um humano não armazena uma foto de cada banana que já viu para saber o que é uma banana. A pessoa constrói um conceito abstrato de “banana”. A IA faz o mesmo com a linguagem: ela não guarda as frases que leu, mas aprende padrões estatísticos e relações semânticas para gerar novas sentenças.
Ignorar essa realidade técnica pode nos levar a criar regras impossíveis de cumprir, tanto na esfera de Direitos Autorais como no que se refere à Proteção de Dados.
Eventual aplicação rígida dos princípios de finalidade e necessidade, por exemplo, ignora que a qualidade e, crucialmente, a justiça de um modelo dependem de dados vastos e diversos.
Uma interpretação que proíbe o uso de legítimo interesse sempre que houver potencial de inferir um dado sensível cria um beco sem saída regulatório, tornando o treinamento em larga escala juridicamente inviável.
O entendimento de que toda atividade de anonimização carece de uma base legal para ser legítima cria um desestímulo àquilo que deveria ser o ideal perseguido pela legislação de proteção de dados.
O Paradoxo Cruel: Em Nome dos Direitos Individuais, Ameaçamos o Coletivo
E aqui está o ponto mais crítico da nossa discussão: na ânsia de proteger o indivíduo, podemos estar, sem querer, causando um dano coletivo imenso.
Modelos treinados com dados limitados ou não representativos perpetuam e amplificam os preconceitos da nossa sociedade, amplificando a indesejada discriminação algorítmica ilícita.
Nesse contexto, a solução para o racismo e o sexismo algorítmico, em regra, não é usar menos dados. É o contrário: precisamos de mais dados, mais diversos e mais representativos para ensinar os modelos a serem justos.
Isso nos coloca diante de uma ponderação de direitos fundamentais: o direito individual à proteção de dados versus o direito coletivo à não discriminação e ao acesso a sistemas mais úteis e eficazes. Uma regulação que impede o treinamento robusto está, na prática, escolhendo o lado de uma IA mais enviesada, injusta e arriscada à coletividade.
Um Caminho Inteligente para a Regulação
A discussão no CPDP Latam, ao menos para mim, deixou uma lição clara: regular a IA com inteligência é entender que regulação flexível não é sinônimo de regulação frouxa. É enxergar o treinamento de modelos como parte da solução, não do problema.
Isso nos força a encarar o elefante na sala. A escolha real não é entre “privacidade vs. inovação”, mas sim entre o apego a uma proteção de dados ilusória, que resulta inclusive em algoritmos discriminatórios, e a coragem de criar uma regulação inteligente, focada em seu impacto real: uma IA que sirva à sociedade de forma justa.
Ignorar esse elefante não o fará desaparecer. Pelo contrário, cada dia que perdemos construindo barreiras ao treinamento responsável é um dia a mais que condenamos nossos algoritmos a serem injustos.
Pelo terceiro ano consecutivo, o Prado Vidigal apoiou o CPDP Latam com o objetivo de levar insights que observamos em nossa prática cotidiana. O nível de amadurecimento dos debates e do evento como um todo é notável. Portanto, deixo aqui meu agradecimento e reconhecimento ao prof. Luca Belli e todo o time do Centro de Tecnologia e Sociedade (CTS-FGV).
