Nos últimos anos, tem sido divulgado pelos media que a Inteligência Artificial (IA) é capaz de superar os especialistas de cada vez mais áreas. Apesar das IA serem comercializadas de modo semelhante, o seu valor para as empresas pode variar muito. Como é que os gestores podem decidir que ferramentas de IA adotar? Três investigadores da NYU Stern fizeram um estudo interessante (*) com cinco gestores de organizações de referência para perceber quais os riscos que comporta a adoção de ferramentas de IA. O objetivo era ir para além da fase de entusiasmo que sempre caracteriza a adoção de uma ferramenta de IA e discernir se é efetivamente conveniente adotar essa ferramenta ou não
POR MARTA LINCE FARIA
Partilho três conclusões deste estudo. Primeiro, ao avaliar as ferramentas de IA, o decisivo é olhar para a chamada Ground Truth (GT) que esteve na origem do modelo de IA. A GT refere-se aos dados, classificados por humanos, que servem para treinar os algoritmos. As pessoas e instituições que desenvolvem ferramentas de IA têm muita liberdade para escolher as bases de dados. Um bom modelo de IA é um modelo que tem um elevado grau de exatidão (ex.: 97%, 98% ou 99%), mas este grau de exatidão diz respeito à eficiência do modelo relativamente aos seus dados de treino. À partida, um grau de exatidão de 97% parece excelente, mas se a GT não for de alta qualidade, essa exatidão é aparente porque está baseada nuns dados de treino deficientes.
Em segundo lugar, é preciso ter em conta que muitas das ferramentas de IA capturam o know-what dos especialistas (replicam o resultado do seu raciocínio e experiência), mas não capturam necessariamente o seu know-how. O know-what capta apenas a ponta observável do iceberg do conhecimento dos especialistas. Usar ferramentas de IA baseadas apenas em know-what pode ser extremamente arriscado para decisões importantes. Por exemplo, no caso de ferramentas de IA para diagnosticar o cancro. À medida que se foram percorrendo os vários níveis da ferramenta de IA e da GT correspondente, descobriu-se que em muitos dos dados se tinha registado um diagnóstico a partir de apenas uma imagem por paciente. Na prática, nenhum médico faria um diagnóstico com base numa única imagem. Os profissionais recorrem a práticas ricas em know-how como a análise de imagens históricas, avaliação genética, realização de exames, estudo dos registos clínicos, etc. Na verdade, a GT de muitas ferramentas de diagnóstico não é validada externamente por ninguém, o que coloca as empresas numa situação vulnerável face a quem desenvolve os modelos de IA. O modo ideal de obter a validação, no caso do diagnóstico do cancro, seria ter uma biopsia para todos os pacientes, tanto aqueles que o médico suspeita que podem ter cancro como aqueles que sabe que estão saudáveis. Só desse modo, teríamos dados fiáveis e com variabilidade suficiente para que o modelo funcionasse perfeitamente. No entanto, esses dados seriam extremamente caros senão impossíveis de obter (não se pode pedir a doentes presumivelmente saudáveis que façam uma biopsia). Em muitos contextos, não há como validar a GT. Para além da medicina, o mesmo problema de construção de uma GT de qualidade pode acontecer para ferramentas usadas em decisões de contratação, de apoio à justiça criminal, ou de políticas públicas. Isso significa que em muitas ferramentas de IA, a GT mostra apenas o que outros especialistas pensavam que poderia ser verdade, mas não as verdades objetivas.
O terceiro insight é o que fazer no caso de se descobrir que a GT da nossa ferramenta de IA não é de boa qualidade. Contextos de decisão crítica geralmente envolvem alto risco de erro e consequências éticas, bem como consequências legais e profissionais. É extremamente perigoso delegar as decisões em ferramentas de IA que usam GT que não foram devidamente validadas.
O que é que os gestores podem fazer? Se possível, redesenhar as ferramentas de IA para que se aproximem da verdade ou evitar usar estas ferramentas para não incorrer em riscos. Uma hipótese, seria criar uma equipa interna de especialistas integrada por data scientists para fortalecer a GT da IA.
Os desafios para avaliar as ferramentas de IA são reais real e impõem respeito. Somente depois de estudar os vários níveis de desempenho de IA e de examinar a respetiva GT é que os gestores estão em condições de compreender e avaliar o valor e o risco de as adotar para decisões importantes.
Este estudo mostra que as decisões tomadas pelos designers de IA têm uma influência de longo prazo. Não apenas nas organizações que testam e adotam essas ferramentas, mas também porque a recolha de dados e utilização da ferramenta pode ter um impacto social duradouro. É importante refletir nos grandes cenários que pode criar uma IA geral mais potente que a humana, considerando possíveis distopias onde as máquinas assumem o controlo do mundo. No entanto, enquanto esse momento não chegar, parece que temos de continuar a ser críticos e cuidadosos nas decisões de adoção da IA especificas. Pode ser que a distopia nunca venha a acontecer, mas as ferramentas de IA vieram e estão para ficar no mundo corporativo e se queremos que a sua adoção seja efetivamente uma melhoria ou um progresso é muito necessário que a inteligência natural faça uma avaliação crítica de inteligência artificial.
* Lebovitz, S., Levina, N., Lifshitz-Assaf, H. (2021). “Is AI ground truth really true? The dangers of training and evaluation AI tools based on experts “know-what”. Management information Systems Quarterly, 45 (3b), pp. 1501-1525. Available online: https://doi.10.25300/MISQ/2021/16564
Versão curta do artigo publicado no Dinheiro Vivo. Republicado com permissão.
Professora de Comportamento Humano e Macroeconomia da AESE Business School Cátedra de Ética na Empresa e na Sociedade AESE/EDP