
O avanço da inteligência artificial, especialmente de ferramentas de IA generativa, que produzem conteúdo a partir de inputs dos usuários, traz novos desafios para o direito à proteção de dados. Um dos aspectos centrais dessa discussão é a base legal para o tratamento de dados pessoais no treinamento de modelos de IA.
No Brasil, a Lei Geral de Proteção de Dados — Lei Federal nº 13.709/2018 (LGPD) — estabelece que qualquer atividade de tratamento de dados pessoais deve estar fundamentada em uma das hipóteses legais previstas no artigo 7º [1]. Para avaliar corretamente o enquadramento do treinamento de modelos de IA, é essencial compreender como ocorre esse processo.
Um “modelo de IA” é, basicamente, um conjunto de algoritmos e parâmetros treinados para realizar tarefas específicas, como reconhecer padrões, fazer previsões ou, no caso da IA generativa, criar conteúdos (textos, imagens, músicas etc.). O primeiro passo no treinamento de qualquer modelo de IA é o acesso a dados, que podem ou não incluir dados pessoais. Esses dados podem ser provenientes de várias fontes, incluindo aquelas publicamente disponíveis.
Antes de utilizar os dados para treinamento, realiza-se o pré-processamento, que normalmente inclui a higienização dos dados, remoção de informações redundantes e, sempre que possível, a anonimização dos dados pessoais. Nessa fase, informações que possam identificar diretamente uma pessoa (como nome, endereço, número de telefone) em regra são removidas ou mascaradas.
Os dados são então divididos em conjuntos de treinamento, validação e teste. O conjunto de treinamento ensina o modelo; o conjunto de validação ajusta os hiperparâmetros do modelo (variáveis de configuração que determinam a estrutura e o funcionamento do modelo); e o conjunto de teste avalia o desempenho do modelo em dados não vistos, ou seja, dados ainda não conhecidos pelo modelo.
Após o pré-processamento e a divisão dos dados, ocorre o treinamento do modelo, geralmente com dados que perderam a capacidade de identificar uma pessoa. Por exemplo, um modelo precisa entender como atua um advogado especialista em direito e tecnologia, mas não precisa saber especificamente como atua o advogado Luis, de forma a evitar que os outputs sejam contaminados por características de um único indivíduo. Finalmente, o modelo é avaliado com base no conjunto de teste. Com os resultados, ajustes são feitos para melhorar a precisão e a eficácia do modelo antes da implementação. Durante esse processo, a partir do momento em que os dados perderam a capacidade de identificar uma pessoa, pode-se argumentar, inclusive, que a LGPD deixou de incidir no caso concreto.
Entretanto, nem sempre é possível anonimizar dados pessoais. Alguns modelos, em alguma(s) das etapas de desenvolvimento e/ou treinamento, dependem de dados pessoais para desempenhar funções críticas, como reduzir vieses discriminatórios. Por exemplo, um modelo que gera texto sobre eventos históricos precisa identificar e usar corretamente nomes próprios de pessoas, lugares e organizações envolvidas. Excluir ou mascarar dados pessoais pode, em alguns casos, prejudicar a qualidade do modelo[2]. Nesse ponto, há uma nítida tensão entre os princípios de minimização de dados e a necessidade de ampla diversidade de dados para evitar vieses, como aponta o Centre for Information Policy Leadership (CIPL) [3].
Dado esse cenário, eventual necessidade de dados pessoais nas várias etapas do treinamento de modelos de IA apresenta um desafio tanto para se definir até que ponto incide a LGPD, quanto para a compatibilização dos casos em que ela incide com a definição das hipóteses de tratamentos previstas na Lei. Para que a compatibilização seja viável, o legítimo interesse não deve ser visto como vilão, especialmente quando acompanhado das cautelas e salvaguardas adequadas. É essa a base legal que tem permitido aos desenvolvedores de IA um respaldo jurídico para o treinamento de seus modelos.
Momento crucial
Adotar o consentimento como base legal para o treinamento de IA, como alguns têm defendido, é impraticável, pois exigir autorização específica de cada titular de dados é inviável para modelos que dependem de diversas fontes de dados. Além disso, não há segurança jurídica sobre como seriam viabilizados os direitos associados à base legal do consentimento, como o direito à revogação. Nesse contexto, é de se questionar qual a consequência prática esperada diante de hipotético exercício do direito à revogação por um indivíduo. Deveria, nesse caso, acontecer a retirada de circulação de determinado modelo ou o retreinamento obrigatório por parte do desenvolvedor? Ou seria de se esperar que, dadas as limitações técnicas existentes, a revogação tivesse apenas efeitos dali em diante?
Essas são perguntas ainda sem respostas por parte daqueles que sustentam que o consentimento deveria ser a base legal aplicável ao treinamento de IA. Inclusive, justamente por causa da complexidade do uso do consentimento como base legal, no âmbito internacional, autoridades de proteção de dados reconhecem o legítimo interesse como base legal apropriada para o treinamento de modelos de IA, como é o caso das autoridades espanhola [4], francesa [5] e britânica [6].
No entanto, o uso do legítimo interesse exige cautelas, especialmente no sentido de se garantir que sua adoção não traz prejuízos aos direitos e liberdades fundamentais dos titulares de dados. Sobre esse ponto, importante ressaltar que, a priori, o treinamento de modelos de IA, por si só, não prejudica os titulares e, durante o processo, a anonimização é, muitas vezes, uma premissa da atividade. O que impossibilita a anonimização dos dados, em alguns casos, é, justamente, a essencialidade das informações para que tenhamos modelos éticos, corretos e adequados aos anseios da sociedade.
Portanto, parece claro que interpretações das normas de proteção de dados que excluam, de maneira genérica e abrangente, a aplicabilidade do legítimo interesse para treinamentos de IA são prejudiciais à sociedade. Nesse ponto, é fácil imaginar que, se tivéssemos adotado interpretações irrazoáveis assim no início dos anos 2000, ferramentas de busca na internet poderiam ter sido totalmente inviabilizadas.
Estamos em um momento crucial para a regulação da IA no Brasil, que acontece a cada dia por consequência de ação de reguladores. Nesse contexto, garantir um equilíbrio entre as normas de proteção de dados e o desenvolvimento ético e seguro da IA é fundamental. Quando as normas de proteção de dados não forem mais suficientes para abarcar o desenvolvimento tecnológico, será hora de atualizá-las, para que continuem tutelando os interesses dos indivíduos e, principalmente, da sociedade.
Notas:
[1] Art. 7º O tratamento de dados pessoais somente poderá ser realizado nas seguintes hipóteses:
I – mediante o fornecimento de consentimento pelo titular;
II – para o cumprimento de obrigação legal ou regulatória pelo controlador;
III – pela administração pública, para o tratamento e uso compartilhado de dados necessários à execução de políticas públicas previstas em leis e regulamentos ou respaldadas em contratos, convênios ou instrumentos congêneres, observadas as disposições do Capítulo IV desta Lei;
IV – para a realização de estudos por órgão de pesquisa, garantida, sempre que possível, a anonimização dos dados pessoais;
V – quando necessário para a execução de contrato ou de procedimentos preliminares relacionados a contrato do qual seja parte o titular, a pedido do titular dos dados;
VI – para o exercício regular de direitos em processo judicial, administrativo ou arbitral, esse último nos termos da Lei nº 9.307, de 23 de setembro de 1996 (Lei de Arbitragem) ;
VII – para a proteção da vida ou da incolumidade física do titular ou de terceiro;
VIII – para a tutela da saúde, exclusivamente, em procedimento realizado por profissionais de saúde, serviços de saúde ou autoridade sanitária; (Redação dada pela Lei nº 13.853, de 2019) Vigência
IX – quando necessário para atender aos interesses legítimos do controlador ou de terceiro, exceto no caso de prevalecerem direitos e liberdades fundamentais do titular que exijam a proteção dos dados pessoais; ou
X – para a proteção do crédito, inclusive quanto ao disposto na legislação pertinente.
2 CIPL. Response by the Centre for Information Policy Leadership to the Information Commissioner’s Office’s Second Consultation on Purpose Limitation in the Generative AI Lifecycle. Disponível aqui. Último acesso em: 10.07.2024.
3 CIPL. First Report: Artificial Intelligence and Data Protection in Tension. Disponível aqui. Último acesso em: 10.07.2024.
4 AEPD. Adecuación al RGPD de tratamientos que incorporan Inteligencia Artificial. Una introducción. Disponível aqui. Último acesso em: 28.04.2025.
5 CNIL. Ensuring the lawfulness of the data processing – Defining a legal basis. Disponível aqui. Último acesso em: 28.04.2025.
6 ICO. How do we ensure lawfulness in AI? Disponível aqui. Último acesso em: 28.04.2025.
Texto publicado originalmente no Consultor Jurídico (Conjur). Link para o conteúdo original disponível aqui.