Dados para treinamento de IA: risco ou solução?
Embora exija cautelas evidentes, o tratamento de dados para fins de treinamento de modelos de IA não implica, necessariamente, riscos de privacidade que devam ser encarados como proibitivos.

Por Luis Fernando Prado*
A expansão das tecnologias de Inteligência Artificial (IA), em especial dos modelos generativos (aqueles capazes de gerar conteúdo a partir de instruções fornecidas pelos usuários), vem gerando preocupações sobre o quanto as empresas da economia digital podem usar dados dos seus usuários para desenvolver e aprimorar esses sistemas.
Em alguns círculos jurídicos, prevalece uma visão mais restritiva, que enxerga esse uso de dados privados como desproporcional e contrário a princípios como o da necessidade, previsto na Lei Geral de Proteção de Dados (LGPD). O receio muitas vezes nasce da ideia de que “IA é perigosa por natureza”, talvez justificada pelos vários anos em que o tema foi introduzido ao grande público por meio de enredos de ficção científica. No entanto, atribuir à tecnologia a culpa pelos males e incertezas de nosso tempo é, na melhor das hipóteses, exagerado, e não deveria contaminar posicionamentos técnico-jurídicos, especialmente de juristas, reguladores e agentes públicos em geral.
Para ilustrar, o uso de dados pessoais é parte inalienável da economia digital: alimenta a personalização de anúncios na Web, o funcionamento de sistemas de recomendação de conteúdo em plataformas digitais (redes sociais, marketplaces, serviços de streaming de áudio e vídeo, entre outros) e constitui elemento essencial de tecnologias de combate a abusos, fraudes e golpes em praticamente todos os pontos do ecossistema.
Muitas dessas atividades acontecem a partir do processamento de dados disponíveis (ou não) publicamente. O direito evoluiu para obrigar os agentes de tratamento a adotar cautelas e salvaguardas, bem como medidas de accountability em termos de privacidade e proteção de dados, mas nenhuma dessas medidas objetiva inviabilizar de maneira absoluta o tratamento de dados pessoais. Por que seria diferente quando o processamento visa a aprimorar modelos de IA generativa?
Hoje, a IA já está presente em ferramentas de moderação de conteúdo, detecção de spam, melhoria de segurança e personalização no contexto digital. Com a popularização dos modelos generativos, que, em tempo recorde, foram amplamente aceitos e validados pela sociedade a ponto de já serem parte indissociável do uso da internet, surge uma evidente necessidade, em termos de governança, de acesso a um volume relevante de dados (de qualidade) para que a tecnologia funcione bem e de maneira responsável.
Embora exija cautelas evidentes, o tratamento de dados para fins de treinamento de modelos de IA não implica, necessariamente, riscos de privacidade que devam ser encarados como proibitivos. Pelo contrário: quando treinados em dados variados, os modelos tendem a compreender melhor o contexto, inclusive valores éticos e padrões sociais. Não é exagero afirmar que o futuro da IA responsável passa pela constante necessidade de acesso a dados diversos e atualizados. É como ensinar uma criança sobre certo e errado: se os exemplos forem limitados ou desconsiderarem aspectos regionais próprios, a educação será falha. Com a IA, quanto maior a diversidade de exemplos (inclusive de interações em ambientes não públicos), maior a chance de a tecnologia gerar resultados alinhados ao que a sociedade considera aceitável.
Logicamente, o contrário também é verdadeiro. Isso significa que restrições excessivas ao acesso a dados de usuários brasileiros para treinamento de modelos generativos, por exemplo, podem gerar como efeito colateral sistemas que não considerem aspectos locais essenciais. A consequência, em última instância, seria termos modelos de IA menos úteis e menos seguros para os próprios usuários brasileiros, que seriam parcialmente desconsiderados durante o processo de treinamento e validação.
Para equilibrar a proteção de dados com a necessidade de treinamento de modelos de IA (atividade fundamental para o desenvolvimento digital), há alternativas robustas, previstas na legislação e amigáveis à privacidade, como medidas reforçadas de segurança, anonimização (quando viável) e técnicas avançadas de privacidade que viabilizam o uso de informações com riscos praticamente extintos aos titulares. No entanto, para que tal equilíbrio seja alcançado, é preciso afastar teses pautadas na falácia de que o tratamento de dados de usuários para fins de treinamento de IA é mais arriscado ou menos nobre que tantas outras atividades corriqueiras do ambiente digital, como prevenção de fraudes, segurança e personalização.
É natural, contudo, temer que o modelo “memorize” e reproduza conversas privadas ou dados sensíveis. Mas esse risco pode ser sensivelmente reduzido com medidas de governança de IA, que incluem técnicas avançadas de privacidade e testes que verifiquem constantemente o funcionamento dos sistemas. Inclusive, dados são essenciais para as etapas de treinamento e validação de modelos de IA. Na IA generativa, se queremos que ela aprenda a lidar bem com expressões coloquiais, gírias e contextos sociais regionais, precisamos fornecer exemplos reais. Desde que respeitados princípios legais, esse processo pode ocorrer de modo seguro e responsável, sendo que não admitir isso é mais arriscado para a coletividade do que pode parecer.
Ao mesmo tempo, ninguém nega que deve haver limites quanto ao uso de dados gerados por usuários no ambiente digital. É preciso avaliar continuamente se os dados são de fato necessários, se podem ser anonimizados e se há transparência suficiente. Vale lembrar que a LGPD não obsta, de saída, a utilização de dados gerados por usuários, mas exige contrapartidas que devem ser exploradas por juristas, reguladores e agentes públicos.
Nesse sentido, uma leitura equilibrada da LGPD sugere que o melhor caminho não é, necessariamente, levar o debate a uma dicotomia simplista que admita o treinamento de modelos de IA com dados expostos publicamente pelos usuários, mas restrinja o uso de dados gerados em outros contextos. Isso porque, para fins da própria LGPD, o dado público ou não, se disser respeito a pessoa física identificada ou identificável, segue sendo dado pessoal. Portanto, eventual entendimento de que apenas o tratamento de dados pessoais públicos seria justificado para fins de treinamento carece de embasamento legal sólido.
Além disso, esse tipo de limitação é potencialmente arriscado à segurança de plataformas digitais, que precisam treinar sistemas de IA a partir de dados de seus usuários para atividades essenciais como prevenção de fraudes, impedimento de veiculação de conteúdo ilícito ou abusivo, fomento à acessibilidade e identificação de usos inaceitáveis. Negar esse tipo de uso pode significar bloquear inovações que beneficiam a coletividade e, paradoxalmente, fragilizar a própria proteção dos usuários, já que menos informação no treinamento pode resultar em modelos mais propensos a erros, vieses e falhas.
Assim, parece-me que o caminho jurídico adequado para o tema não deve passar por um racional simplista que admita o uso de dados públicos e o restrinja quanto aos demais dados gerados por usuários na internet. O papel da proteção de dados é essencial para o futuro da IA responsável, tanto para impedir abusos quanto para reconhecer que a ética digital do futuro depende da capacidade de os sistemas compreenderem como a sociedade se comporta. Fechar essa via em nome de um temor exagerado em torno da IA seria um retrocesso que a própria LGPD, concebida para equilibrar privacidade e inovação, não vislumbrou.
Luis Fernando Prado é Líder do Comitê de IA Responsável e membro do Conselho Consultivo da Associação Brasileira de Inteligência Artificial (Abria). Também é sócio do Prado Vidigal Advogados

