Neutralidade em machine learning é um desafio para os próximos anos

Fernanda Viégas, do Google. Foto: Diego Padilha

Clarice Cudischevitch

Machine learning pode parecer ficção científica, mas já faz parte da nossa realidade de formas, muitas vezes, inesperadas. Esta disciplina da ciência da computação, que ficou “congelada” por muitos anos porque a tecnologia não era avançada o suficiente para sua evolução, hoje é a maior fronteira tecnológica do Google. O tema foi abordado pela especialista em visualização de dados Fernanda Viégas durante o Encontros Serrapilheira, que reuniu 64 grantees do instituto no Rio de Janeiro, de 10 a 14 de novembro.

“Todos compreendem o que é um espaço tridimensional, mas se eu falo em um universo de 50 dimensões, ninguém entende. É nesse universo que a aprendizagem de máquinas opera, e a visualização de dados é uma de suas ferramentas”, comentou Viégas, que é pesquisadora-sênior do Google e co-líder de um grupo de pesquisa na empresa sobre inteligência artificial, o PAIR (People + AI Research).

Em machine learning, em vez de serem programadas regras – algoritmos – que ditam como a máquina deve agir, mostra-se ao computador milhares de exemplos, para que ele identifique um padrão e “aprenda” a reconhecer o que é uma casa, um cachorro, um rosto. Trata-se de uma verdadeira revolução tecnológica, mas que traz consigo novas questões complexas, relacionadas ao que é chamado de fairness em machine learning, que trata da neutralidade.

“Estamos treinando esses sistemas a partir de dados que têm vieses, e eles vão reproduzir os problemas”, afirmou Viégas. Se, por exemplo, são apresentados às máquinas milhares de fotos de rostos para que ela desenvolva um sistema de reconhecimento facial, como garantir que os modelos apresentados abarcam toda a diversidade das pessoas e, assim, evitar que o computador “discrimine” um determinado perfil por não reconhecê-lo?

Viégas citou um caso de um professor do Massachusetts Institute of Technology (MIT), que testava um sistema de reconhecimento de imagem de canecas. Para isso, apresentava ao computador imagens baixadas do Google, mas o sistema não identificava. Entenderam, então, o problema: em todas as fotos, as canecas estavam com a aba virada para a direita. “Tornar a máquina capaz de ver dados não faz com que ela seja neutra”, destacou.

Outro caso emblemático foi o de uma ferramenta chamada Prospective AI, lançada pela plataforma Jigsaw em parceria com o New York Times para criar um mecanismo automático de censura a comentários tóxicos nos artigos do site do jornal. Por meio de machine learning, foram mostrados ao sistema exemplos de mensagem nocivas. A partir daí, a tecnologia não vetava os comentários, mas os ordenava de acordo com sua toxicidade para que a equipe do jornal avaliasse.

Observaram, no entanto, que o sistema estava rotulando como tóxicos comentários que mencionavam minorias, como negros, gays e transgêneros, mesmo que não houvesse qualquer ofensa nas mensagens. Viram, ainda, que quanto mais longos os comentários, menor o nível de toxicidade atribuído, enquanto mais de 90% dos comentários curtos falando sobre essas minorias eram tidos como nocivos. O problema foi resolvido quando apresentaram mais exemplos de comentários benignos, criados pela própria equipe.

Viégas também indicou uma ferramenta para cientistas interessados em inteligência artificial e aprendizado de máquinas: uma biblioteca em java script chamada tensorflow.js, onde é possível, por exemplo, rodar experimentos. Para usá-la, não é preciso fazer nenhum download. “Ela leva o poder do machine learning para o seu computador sem baixar nada. Gera, portanto, acessibilidade, a modelos que antes só rodavam em grandes servidores.”