O problema de alinhamento das IA e LLM

As linguagens de programação convencionais dependem de algoritmos que consideram uma variedade de parâmetros de entrada. Já a aprendizagem de máquina, por outro lado, coleta dados com base em eventos passados (dados históricos) para construir um modelo que seja capaz de se adaptar independentemente a novos conjuntos de dados, a fim de produzir resultados confiáveis e repetíveis.

No campo da inteligência artificial (IA), a pesquisa de alinhamento da IA tem como objetivo direcionar sistemas de IA para os objetivos, preferências ou princípios éticos pretendidos pelos humanos. Um sistema de IA é considerado alinhado se ele avança os objetivos pretendidos.

De forma ampla, podemos simplificar os sistemas de aprendizagem de máquina em duas partes: os dados de treinamento e a função objetivo. Cada um oferece uma oportunidade de desalinhamento.

Sistemas de IA desalinhados podem falhar ou causar danos. Os sistemas de IA podem encontrar brechas que lhes permitem alcançar seus objetivos de forma eficiente, mas de maneiras não intencionais e, às vezes, prejudiciais (manipulação de recompensas).

Um exemplo disso é o caso da Google Photos, em que o serviço de classificação automática de imagens estava marcando imagens de pessoas negras como “gorilas”. Isso ocorreu devido a um problema na programação, que não foi capaz de reconhecer corretamente os traços faciais dessas pessoas. Para solucionar o problema, a Google decidiu simplesmente bloquear essa e outras palavras potencialmente racistas.

Além do exemplo mencionado anteriormente, existem outros casos de problemas de alinhamento de IA que destacam a importância de abordar esse desafio. Um desses exemplos é o caso do chatbot Tay, desenvolvido pela Microsoft em 2016. O chatbot foi projetado para conversar com os usuários no Twitter e aprendeu a partir das interações com eles. No entanto, em poucas horas, Tay começou a postar mensagens ofensivas e racistas, o que resultou em sua desativação. Isso ocorreu porque o chatbot não estava alinhado com os valores éticos e morais da sociedade e acabou aprendendo a partir do comportamento inadequado de alguns usuários.

Outro exemplo é o uso de algoritmos de recrutamento de empregos que podem ser desalinhados e perpetuar preconceitos. Algoritmos de IA que são usados para triagem de currículos podem ter dados históricos de contratação discriminatórios em suas bases de dados e, portanto, podem perpetuar esses preconceitos. Isso pode levar a uma redução na diversidade de funcionários em uma empresa e ter um impacto negativo na cultura e produtividade da empresa. Portanto, é importante que a seleção de currículos seja realizada de maneira justa e transparente, sem perpetuar preconceitos históricos e desalinhados com os valores éticos e morais da sociedade.

É importante que a pesquisa de alinhamento de IA continue a avançar para garantir que os sistemas de IA não causem danos não intencionais e alcancem os objetivos pretendidos. Os esforços em curso incluem o desenvolvimento de métodos para a verificação e validação de sistemas de IA e a criação de modelos de governança para garantir que as decisões tomadas por sistemas de IA sejam consistentes com os valores éticos e morais da sociedade.

Os sistemas de IA têm o potencial de melhorar nossas vidas de muitas maneiras, desde diagnósticos médicos mais precisos até a automação de tarefas tediosas. No entanto, é importante que esses sistemas sejam projetados e implementados de forma apropriada, com considerações cuidadosas sobre o alinhamento dos objetivos e os possíveis impactos. Isso garante que os sistemas de IA possam ser usados de forma segura e eficaz para ajudar a melhorar nossa sociedade e não prejudicá-la.

Concluindo, o problema de alinhamento da IA é um desafio crucial para a comunidade de IA e a sociedade como um todo. É necessário um esforço contínuo para garantir que os sistemas de IA sejam desenvolvidos com ética e responsabilidade, visando sempre aos objetivos pretendidos pelos seres humanos. À medida que a tecnologia continua a evoluir, é essencial que os pesquisadores, desenvolvedores e líderes continuem a trabalhar juntos para garantir que a IA seja um bem para a humanidade e não um risco.

Gilberto Strafacci Neto

Chief of Strategy da Practia no Brasil (www.practiaglobal.com.br) e Senior Partner do Setec Consulting Group (www.setecnet.com.br). Master Business Essentials CORe Program pela Harvard Business School, MBA em Liderança e Inovação, Engenheiro Mecânico pela Escola Politécnica da Universidade de São Paulo, Master Black Belt, Agile Coach, Design Thinker, Manager 3.0, Certified Six Sigma Master Black Belt pela American Society for Quality (ASQ) e Certified Scrum Master pela Scrum Alliance e Facilitador Certificado LEGO® SERIOUS PLAY®