Como saber se suas imagens treinaram um modelo de IA (e como cancelar)

2023/01/27

Para a descrença de muitas pessoas, artistas vivos estão descobrindo que sua arte foi usada para treinar modelos de IA sem seu consentimento. Usando uma ferramenta da web chamada “Have I Been Trained?”, Você pode saber em questão de minutos se suas imagens foram enviadas para Midjourney, NightCafe e outros geradores de imagem AI populares.

Se você encontrar sua imagem em um dos conjuntos de dados usados para treinar esses sistemas de IA, não se desespere. Algumas organizações desenvolveram maneiras de recusar essa prática, evitando que suas imagens sejam descartadas da Internet e repassadas para empresas de IA.

Como os geradores de imagens AI são treinados em primeiro lugar

Quando você pede a um sistema de IA como o DALL-E para gerar uma imagem de um “cachorro usando um chapéu de aniversário”, ele primeiro precisa saber como é um cachorro e também como é um chapéu de aniversário. Ele obtém essas informações de enormes conjuntos de dados que agrupam bilhões de links para imagens na Internet.

Como todos sabemos, a internet contém praticamente qualquer tipo de imagem que você possa imaginar, incluindo, com toda a probabilidade, toneladas de imagens de um “cachorro usando um chapéu de aniversário”. Com dados suficientes como esse, um modelo de IA pode descobrir como reproduzir uma imagem semelhante àquela em que foi treinado.

Mas e se essas imagens fossem originalmente protegidas por direitos autorais? E se essas imagens pertencessem a artistas, fotógrafos ou pessoas comuns que não soubessem que suas imagens estavam alimentando um sistema de IA?

O problema dos artistas

Muitos geradores de imagens AI têm um nível pago onde os usuários podem comprar créditos para criar mais imagens, obtendo lucro. Mas esse lucro é obtido nas costas de pessoas não creditadas cujas imagens foram usadas para treinar o sistema de IA em primeiro lugar.

À medida que mais artistas descobrem que suas imagens foram usadas para desenvolver sistemas de IA, fica claro que nem todo mundo concorda com isso. No mínimo, eles querem que as empresas de IA obtenham consentimento antes de usar suas imagens.

Quatro imagens de um cachorro usando um chapéu no estilo de Henri Magritte geradas com DALL-E

Especialmente se você for um artista popular e conhecido, ter imagens geradas em seu estilo pode lotar seu mercado, com fãs ou clientes em potencial, sem saber se a arte foi criada por você ou replicada à sua imagem pela IA. O que é ainda pior, as pessoas podem criar obras de arte em seu estilo para apoiar valores nos quais você não acredita.

Este não é um problema novo, os deepfakes existem há anos e estão prestes a piorar com o surgimento da IA. Hoje em dia, reproduzir arte “falsa” é rápido, barato e fácil. Existem apenas algumas maneiras de identificar uma imagem gerada por IA, tornando difícil identificar a arte original de sua contraparte gerada por IA.

Conjuntos de dados: encontrando e indexando suas imagens

Como mencionamos anteriormente, os conjuntos de dados de imagens são usados por empresas de IA para treinar seus modelos. Esses conjuntos de dados parecem uma planilha gigante do Excel com uma coluna contendo um link para uma imagem na internet, enquanto outra tem a legenda da imagem.

Nem todas as empresas de IA divulgarão o conjunto de dados que usam, sendo o DALL-E um exemplo. Isso torna difícil saber o que está sendo referenciado quando gera uma imagem e aumenta a mística geral dos sistemas de IA.

Por outro lado, o Stable Diffusion, um modelo desenvolvido pela Stability AI, deixou claro que foi construído no conjunto de dados LAION-5B , que apresenta colossais 5,85 bilhões de pares de imagem e texto filtrados por CLIP. Como esse conjunto de dados é de código aberto, qualquer pessoa é livre para visualizar as imagens que ele indexa e, por isso, recebeu fortes críticas.

No início de 2023, a Getty Images processou a Stability AI por retirar imagens de seu site para treinar seu gerador de imagens AI, Stable Diffusion. Se você está se perguntando quem, por sua vez, usa o Stable Diffusion, seriam NightCafe, Midjourney e DreamStudio, alguns dos maiores players do setor.

Como saber se suas imagens foram usadas para treinar um modelo de IA

Criado por um grupo de artistas, o Spawning é um coletivo cujo objetivo é ajudar as pessoas a descobrir se suas imagens estão em conjuntos de dados como o LAION-5B, usado para treinar modelos de IA. Seu mecanismo de pesquisa na web chamado Have I Been Trained? permite pesquisar facilmente palavras-chave, como o nome do artista.

Fui treinado?

Have I Been Trained funciona muito como uma pesquisa de imagens do Google, exceto que sua pesquisa corresponde aos resultados no conjunto de dados LAION-5B. Você tem a opção de pesquisar por palavra-chave ou por imagem, esta última é útil se você quiser ver se uma imagem exata foi usada.

Resultados da busca por Frida Kahlo em Have I Been Trained? local na rede Internet

Usamos o nome da artista Frida Kahlo (1907-1954) para testar e encontramos uma mistura de fotografias históricas e o que parece ser fan art em forma de rabiscos, pinturas, ponto cruz, crochê e ilustrações.

Se você é um desses criadores, você é um dos muitos humanos não creditados cuja criatividade tornou possível a existência de geradores de imagens de IA. E com esse poder, agora qualquer um pode criar imagens de Frida como este retrato bizarro de “Frida Kahlo comendo sorvete”.

Uma imagem gerada por IA de Frida Kahlo feita com o Night Cafe

Tente digitar seu próprio nome de artista na barra de pesquisa para ver se seu trabalho foi usado para treinar um modelo de IA.

Como desativar conjuntos de dados de treinamento de IA

A mesma equipe por trás do site Have I Been Trained criou uma ferramenta para as pessoas optarem por entrar ou sair dos sistemas de arte de IA. É uma forma de os artistas manterem o controle e as permissões sobre quem usa sua arte e para qual finalidade.

Outras plataformas de arte estão começando a seguir o exemplo e, atualmente, o DeviantArt oferece uma opção para excluir suas imagens de serem pesquisadas por conjuntos de dados de imagens.

Fui treinado: Ferramenta de desativação de IA

Além de poder pesquisar sua imagem, você também pode selecionar imagens para desativar os dados de treinamento LAION-5B usando o site Have I Been Trained.

Você terá que criar uma conta primeiro e, em seguida, clicar com o botão direito do mouse em uma imagem e optar por excluir esta imagem .

Opção de menu para desativar e imagem usando o site Já fui treinado?

Selecionar esta opção adicionará essa imagem à sua lista de desativação, que você pode acessar clicando no símbolo da sua conta no canto superior direito da página e selecionando Minhas listas . Para removê-lo da sua lista, clique com o botão direito do mouse na imagem e selecione Remover da lista de exclusão .

Exibição da galeria de imagens em uma lista de desativação por Have I Been Trained

Se você é um artista prolífico, esse método é tedioso e não é adequado para excluir todas as suas imagens com eficiência. Infelizmente, não há uma alternativa melhor no momento em que escrevo, mas é provável que melhorias sejam feitas nesse sistema no futuro.

Essas listas de exclusão são então repassadas para a empresa por trás do LAION-5B, que concordou em remover essas imagens de seu conjunto de dados.

Preferência de exclusão do DeviantArt

Até agora, o DeviantArt liderou o caminho para plataformas de hospedagem de arte, dando aos usuários a opção de optar por não receber sua arte. Inicialmente, você tinha que encontrar a preferência e marcar a caixa de seleção de exclusão. Mas, seguindo um forte feedback da comunidade DeviantArt, essa opção agora está ativada por padrão.

Isso significa que nenhuma imagem postada no DeviantArt é disponibilizada para conjuntos de dados de imagem, a menos que os usuários tenham optado por isso. Embora não seja totalmente infalível, o mecanismo que ele usa envolve sinalizar uma imagem com uma tag HTML “noai”. Isso informa aos conjuntos de dados de IA que a imagem não pode ser usada e, se for, a empresa estará violando os Termos de Serviço do DeviantArt .

Captura de tela da preferência da bandeira noai no DeviantArt

Você pode encontrar a preferência de exclusão passando o mouse sobre o ícone da sua conta pessoal e clicando em Configurações da conta . Em seguida, clique em General no menu à esquerda e role para baixo até ver o título Tell AI Datasets They Can’t Use Your Content .

Respeitando o Trabalho dos Artistas

Encontrar um bom compromisso entre sistemas de IA e artistas cujo trabalho ajuda a treiná-los levará tempo. Se você é um criador, não se sinta impotente. Com respostas fortes das comunidades que usam plataformas de arte como DeviantArt, você pode ter controle sobre quem usa sua arte.

Nem todo mundo vai querer desistir também, algumas pessoas não têm problemas com suas imagens treinando modelos de IA. Mas o mais importante é que as empresas de IA obtenham consentimento e criem um espaço justo e respeitoso para que modelos e artistas de IA existam juntos.