Sumário

Prevenindo graves riscos relacionados ao avanço das ferramentas de IA

A IA pode trazer enormes benefícios — se evitarmos os riscos

Por Benjamin Hilton e a equipe da 80.000 Hours ·
Última atualização em julho de 2024 ·
Publicado em inglês pela primeira vez em agosto de 2022


Traduzido, editado e adaptado pela equipe do Carreiras Eficazes, de modo a atender as necessidades das comunidades lusófonas com autorização dos produtores do texto original.

Por que os humanos, e não os chimpanzés, controlam o destino do mundo?

Os seres humanos criaram civilizações e desenvolveram ferramentas em todos os cantos do nosso planeta. Os chimpanzés, apesar de serem bastante inteligentes em comparação a outros animais não humanos, não.

Isso se deve (muito provavelmente) à inteligência humana.[1]

Empresas e governos estão gastando bilhões de dólares por ano desenvolvendo sistemas de IA — e, à medida que esses sistemas se tornam mais avançados, eles podem (eventualmente) substituir os humanos como as coisas mais inteligentes do planeta. Como temos visto, eles estão progredindo. Rapidamente.

Exatamente quanto tempo levará para produzir inteligência artificial que seja melhor do que os humanos na maioria das coisas é assunto de debate acalorado. Mas parece provável que seja possível, e nosso palpite é que acontecerá neste século.

A observação de que a inteligência humana pode ser superada neste século não é um argumento rigoroso ou conclusivo. Ainda não sabemos se a inteligência artificial será um grande problema ou mesmo uma ameaça à humanidade. Abordaremos esses argumentos detalhadamente a seguir.

Mas parece justo dizer que o possível desenvolvimento de uma inteligência rival à humana em um futuro próximo deveria, no mínimo, ser motivo de preocupação.

Os sistemas que desenvolvemos terão objetivos? Em caso afirmativo, que objetivos eles terão?

Eles apoiarão as tentativas da humanidade de fazer o bem? Ou podemos perder nosso controle sobre nosso futuro e efetivamente encerrar a história humana aqui?

A resposta honesta e precisa a essas perguntas ainda não temos.

Mas não devemos apenas esperar, de dedos cruzados, observando de longe. A inteligência artificial poderia mudar fundamentalmente tudo — então, trabalhar para moldar seu progresso pode ser a coisa mais importante que podemos fazer.

Resumo

Espero que haja um progresso substancial na IA nas próximas décadas, potencialmente até o ponto em que as máquinas superem os humanos em muitas, senão em todas, as tarefas. Isso poderia trazer enormes benefícios, ajudando a resolver problemas globais atualmente intratáveis, mas também pode representar riscos graves. Esses riscos podem surgir acidentalmente (por exemplo, se não encontrarmos soluções técnicas para as preocupações com a segurança dos sistemas de IA) ou deliberadamente (por exemplo, se os sistemas de IA piorarem os conflitos geopolíticos). Acho que será preciso bastante trabalho para reduzir esses riscos.

Alguns desses riscos da IA avançada podem ser existenciais — o que significa que podem causar a extinção humana ou um enfraquecimento igualmente permanente e severo da humanidade.[2] Ainda não houve respostas satisfatórias para as preocupações — discutidas abaixo — sobre como essa tecnologia transformadora que se aproxima rapidamente pode ser desenvolvida e integrada com segurança em nossa sociedade. Encontrar respostas para essas preocupações é uma tarefa que parece estar sendo negligenciada, mas ainda há maneiras de contornar esta situação. Estimei que havia cerca de 400 pessoas em todo o mundo trabalhando diretamente nisso em 2022, embora eu acredite que esse número tenha crescido.[3] Como resultado, a possibilidade de uma catástrofe relacionada à IA pode ser o problema mais urgente do mundo — e a melhor coisa a fazer é trabalhar junto àqueles que estão bem posicionados para contribuir de fato com as respostas a estas perguntas.

Opções promissoras para trabalhar nesse problema incluem pesquisa técnica sobre como criar sistemas de IA seguros, pesquisa de estratégia sobre os riscos particulares que a IA pode representar e pesquisa de políticas sobre maneiras através das quais empresas e governos podem mitigar esses riscos. À medida que as abordagens políticas continuam a ser desenvolvidas e refinadas, precisamos de pessoas para colocá-las em prática e implementá-las. Também há muitas chances de que a IA gere um grande impacto em uma variedade de funções complementares, como gerenciamento de operações, jornalismo, tecnologia e algumas outras que  listamos abaixo.

Nossa visão geral

Recomendado – prioridade máxima

Na nossa avaliação, acreditamos que este é um dos problemas mais urgentes do mundo.

Escala

A IA terá uma variedade de impactos e tem o potencial de fazer um enorme bem à humanidade. Mas estamos particularmente preocupados com a possibilidade de resultados extremamente ruins, especialmente uma catástrofe existencial. Alguns especialistas em risco de IA acham que as chances disso são tão baixas quanto 0,5%, alguns acham que são superiores a 50%. Estamos abertos a qualquer um dos dois estarem certos — e você pode ver mais discussões sobre isso abaixo. Meu palpite geral é que o risco de uma catástrofe existencial causada pela inteligência artificial até 2100 é de cerca de 1%, talvez se estendendo para os dígitos baixos. Isso me coloca no lado menos preocupado da equipe do 80.000 Hours: como organização, nossa opinião é que o risco está entre 3% e 50%.

Negligência

Cerca de US$ 50 milhões foram gastos na redução de riscos catastróficos da IA em 2020 — enquanto bilhões foram gastos no avanço das capacidades de IA.[4] Embora estejamos vendo uma preocupação crescente de especialistas em IA, em 2022 eu estimei que havia cerca de 400 pessoas trabalhando diretamente na redução das chances de uma catástrofe existencial relacionada à IA (com um intervalo de confiança de 90% variando entre 200 e 1.000).[3]Destes, cerca de três quartos pareciam estar trabalhando em pesquisa técnica de segurança de IA, com o restante dividido entre pesquisa de estratégia (e outra governança) e defesa de direitos — embora o campo esteja mudando rapidamente.[5]

Solucionabilidade

Fazer progressos na prevenção de uma catástrofe relacionada à IA parece difícil, mas há muitos caminhos para mais pesquisas e o campo é muito jovem. Os governos começaram a ter um interesse ativo na regulamentação da IA e na mitigação dessas ameaças em 2023. Portanto, acho que é moderadamente tratável, embora eu esteja altamente incerto — novamente, as avaliações da tratabilidade de tornar a IA segura variam enormemente.

Profundidade do perfil

Este perfil foi classificado como “Aprofundado”.

Entrevistamos pelo menos dez pessoas com experiência relevante sobre esse problema, lemos todas as melhores pesquisas existentes sobre ele que pudemos encontrar e fizemos uma investigação aprofundada sobre a maioria das nossas principais incertezas para então registrarmos nossas descobertas.

Este é um dos muitos perfis que escrevemos para ajudar as pessoas a encontrar os problemas mais urgentes que podem ser solucionados com suas carreiras. Saiba mais sobre como comparamos diferentes problemas, veja como tentamos pontuá-los numericamente e veja como esse problema se compara aos outros que consideramos até agora.

Nota do autor: Em sua essência, este perfil de problema tenta prever o futuro da tecnologia. Isso é notoriamente difícil de fazer. Além disso, houve muito menos pesquisa rigorosa sobre os riscos da IA do que sobre os outros riscos sobre os quais o 80.000 Hours escreve (como pandemias ou mudanças climáticas).[6] Dito isso, há um campo crescente de pesquisa sobre o tópico, que tentei refletir. Para este artigo, me apoiei especialmente neste relatório de Joseph Carlsmith na Open Philanthropy, pois é a visão geral mais rigorosa do risco que pude encontrar. Também tive o artigo revisado por mais de 30 pessoas com diferentes conhecimentos e opiniões sobre o tópico. (Quase todos estão preocupados com o impacto potencial da IA avançada.)

Por que acreditamos que reduzir os riscos da IA é uma das questões mais urgentes do nosso tempo? Em suma, nossas razões são:

  1. Mesmo antes de entrar nos argumentos reais, podemos ver algum motivo de preocupação — como muitos especialistas em IA acham que há uma chance pequena, mas não desprezível, de que a IA leve a resultados tão ruins quanto a extinção humana.
  2. Estamos fazendo avanços na IA extremamente rápido — o que sugere que os sistemas de IA podem ter uma influência significativa na sociedade, em breve.
  3. Existem fortes argumentos de que a IA “em busca de poder” pode representar uma ameaça existencial para a humanidade. [7]
  4. Mesmo que encontremos uma maneira de evitar a busca por poder, ainda existem outros riscos.
  5. Acreditamos que podemos lidar com esses riscos.
  6. Este trabalho é negligenciado.

Vamos abordar cada um desses tópicos por vez, depois considerar alguns dos melhores contra-argumentos, explicar coisas concretas que você pode fazer para ajudar e, finalmente, delinear alguns dos melhores recursos para aprender mais sobre esta área.

Se quiser, você pode assistir ao nosso vídeo de 10 minutos resumindo o caso do risco da IA antes de ler mais.

1. Muitos especialistas em IA acham que há uma chance significativa de que a IA leve a resultados tão ruins quanto a extinção

Em maio de 2023, centenas de cientistas de IA proeminentes— e outras figuras notáveis — assinaram uma declaração dizendo que mitigar o risco de extinção da IA deve ser uma prioridade global.

Então, é bastante claro que pelo menos alguns especialistas estão preocupados.

Mas qual é o grau de preocupação deles? E essa é apenas uma visão marginal?

Analisamos quatro pesquisas com estudiosos de IA que publicaram na NeurIPS e na ICML (duas das conferências de aprendizado de máquina mais prestigiadas) de 2016, 2019, 2022 e 2023.[8]

É importante notar que pode haver um viés de seleção considerável em pesquisas como essa. Por exemplo, você pode pensar que os pesquisadores que vão às principais conferências de IA têm maior probabilidade de serem otimistas em relação à IA, porque foram selecionados para pensar que a pesquisa em IA está fazendo o bem. Como alternativa, você pode pensar que os pesquisadores que já estão preocupados com a IA têm maior probabilidade de responder a uma pesquisa que pergunta sobre essas preocupações.[9]

Dito tudo isso, aqui está o que descobrimos:

Em todas as quatro situações, o pesquisador mediano achou que as chances de a IA ser “extremamente boa” eram razoavelmente altas: 20% na pesquisa de 2016, 20% em 2019, 10% em 2022 e 10% em 2023.[10]

De fato, os sistemas de IA já estão tendo efeitos positivos substanciais — por exemplo, em cuidados médicos ou pesquisa acadêmica.

Mas em todas as quatro, o pesquisador mediano também estimou chances pequenas — e certamente não desprezíveis — de que a IA fosse “extremamente ruim (por exemplo, extinção humana)”: uma chance de 5% de resultados extremamente ruins na pesquisa de 2016, 2% em 2019, 5% em 2022 e 5% em 2023.[11]

Na pesquisa de 2022, os participantes foram questionados especificamente sobre as chances de uma catástrofe existencial causada por futuros avanços da IA — e, novamente, mais da metade dos pesquisadores achou que as chances de uma catástrofe existencial eram maiores que 5%. [12]

Portanto, os especialistas discordam sobre o grau em que a IA representa um risco existencial — um tipo de ameaça que argumentamos merece um peso moral sério.

Isso se encaixa em nossa compreensão do estado do campo de pesquisa. Três das principais empresas que desenvolvem IA — DeepMind, Anthropic e OpenAI — também têm equipes dedicadas a descobrir como resolver problemas técnicos de segurança que acreditamos que poderiam, pelas razões que discutimos longamente abaixo, levar a uma ameaça existencial para a humanidade. [13]

Existem também vários grupos de pesquisa acadêmica (incluindo no MIT, Cambridge, Carnegie Mellon University e UC Berkeley) focando nesses mesmos problemas técnicos de segurança de IA.[14]

É difícil saber exatamente o que tirar de tudo isso, mas estamos confiantes de que não é uma posição marginal no campo pensar que existe um risco material de resultados tão ruins quanto uma catástrofe existencial. Alguns especialistas na área afirmam, no entanto, que os riscos são exagerados.

Ainda assim, por que ficamos do lado daqueles que estão mais preocupados? Resumindo, é porque existem argumentos que consideramos persuasivos de que a IA pode representar tal ameaça existencial — argumentos que abordaremos passo a passo abaixo.

É importante reconhecer que o fato de muitos especialistas reconhecerem que há um problema não significa que tudo está bem porque os especialistas resolveram. No geral, acreditamos que esse problema permanece altamente negligenciado, especialmente porque bilhões de dólares por ano são gastos para tornar a IA mais avançada.[4]

2. Estamos fazendo avanços na IA extremamente rápido

“Um gato vestido de programador de computador”, gerado por Craiyon (antigo DALL-E mini) (superior esquerdo), DALL-E 2. da OpenAI (superior direito) e Midjourney V6. O DALL-E mini usa um modelo 27 vezes menor do que o modelo DALL-E 1 da OpenAI, lançado em janeiro de 2021. O DALL-E 2 foi lançado em abril de 2022.[15] A Midjourney lançou a sexta versão de seu modelo em dezembro de 2023.

Antes de tentarmos descobrir como pode ser o futuro da IA, é útil dar uma olhada no que a IA já pode fazer.

As técnicas modernas de IA envolvem aprendizado de máquina (ML): modelos que melhoram automaticamente por meio da entrada de dados. A forma mais comum dessa técnica usada hoje é conhecida como aprendizado profundo.

O que é aprendizado profundo?

As técnicas de aprendizado de máquina, em geral, recebem alguns dados de entrada e produzem algumas saídas, de uma forma que depende de alguns parâmetros no modelo, que são aprendidos automaticamente em vez de serem especificados pelos programadores.

A maioria dos avanços recentes em aprendizado de máquina usa redes neurais. Uma rede neural transforma dados de entrada em dados de saída, passando-os por várias ‘camadas’ ocultas de cálculos simples, com cada camada composta de ‘neurônios’. Cada neurônio recebe dados da camada anterior, realiza algum cálculo com base em seus parâmetros (basicamente alguns números específicos para aquele neurônio) e passa o resultado para a próxima camada.

Os engenheiros que desenvolvem a rede escolherão alguma medida de sucesso para a rede (conhecida como função de ‘perda’ ou ‘objetivo’). O grau em que a rede é bem-sucedida (de acordo com a medida escolhida) dependerá dos valores exatos dos parâmetros para cada neurônio na rede.

A rede é então treinada usando uma grande quantidade de dados. Ao usar um algoritmo de otimização (mais comumente descida de gradiente estocástica), os parâmetros de cada neurônio são gradualmente ajustados cada vez que a rede é testada em relação aos dados usando a função de perda. O algoritmo de otimização (geralmente) fará com que a rede neural tenha um desempenho um pouco melhor cada vez que os parâmetros forem ajustados. Eventualmente, os engenheiros acabarão com uma rede que tem um desempenho muito bom na medida escolhida.

Aprendizado profundo se refere ao uso de redes neurais com muitas camadas.

Para saber mais, recomendamos:

Provavelmente o produto baseado em ML mais conhecido é o ChatGPT. O sistema de comercialização da OpenAI — onde você pode pagar por uma versão muito mais poderosa do produto — levou a uma receita de mais de US$ 2 bilhões até o final de 2023, tornando a OpenAI uma das startups de crescimento mais rápido de todos os tempos.

Se você já usou o ChatGPT, pode ter ficado um pouco desapontado. Afinal — embora seja ótimo em algumas tarefas, como codificação e análise de dados — ele comete muitos erros. (Embora observe que a versão paga tende a ter um desempenho melhor do que a versão gratuita.)

Mas não devemos esperar que a fronteira da IA permaneça no nível do ChatGPT. Houve um enorme progresso no que pode ser alcançado com ML em apenas alguns anos. Aqui estão alguns exemplos (do menos recente ao mais recente):

  • AlphaStar, que pode vencer os melhores jogadores profissionais em StarCraft II (janeiro de 2019)..
  • MuZero, um sistema único que aprendeu a ganhar jogos de xadrez, shogi e Go — sem nunca ter aprendido as regras (novembro de 2019).
  • GPT-f, que pode resolver alguns problemas da Olimpíada de Matemática (setembro de 2020).
  • AlphaFold 2, um grande passo à frente na solução do problema de dobramento de proteínas, que há muito tempo é intrigante (julho de 2021).
  • Gato, um modelo único de ML capaz de fazer um grande número de coisas diferentes (incluindo jogar Atari, legendar imagens, conversar e empilhar blocos com um braço robótico real), decidindo o que deve produzir com base no contexto (maio de 2022).
  • Midjourney V6 (dezembro de 2023), Stable Diffusion XL (julho de 2023), DALL-E 3 (agosto de 2023) e Imagen 2 (dezembro de 2023), todos capazes de gerar imagens de alta qualidade a partir de descrições escritas.
  • Sora (fevereiro de 2024), um modelo da OpenAI que pode criar vídeos realistas a partir de prompts de texto.
  • E modelos de linguagem de grande escala, como GPT-4, Claude e Gemini — com os quais nos familiarizamos por meio de chatbots — continuam a superar benchmarks em matemática, programação, conhecimento geral e capacidade de raciocínio.[16]

Se você é como nós, achou a complexidade e a amplitude das tarefas que esses sistemas podem realizar surpreendentes.

E se a tecnologia continuar avançando nesse ritmo, parece claro que haverá grandes efeitos na sociedade. No mínimo, automatizar tarefas torna a execução dessas tarefas mais barata. Como resultado, podemos ver aumentos rápidos no crescimento econômico (talvez até o nível que vimos durante a Revolução Industrial).

Se formos capazes de automatizar parcial ou totalmente o avanço científico, podemos ver mais mudanças transformadoras na sociedade e na tecnologia.[17]

Isso pode ser apenas o começo. Podemos ser capazes de fazer com que os computadores eventualmente automatizem qualquer coisa que os humanos possam fazer. Isso parece ter que ser possível — pelo menos em princípio. Isso porque parece que, com potência e complexidade suficientes, um computador deve ser capaz de simular o cérebro humano. Isso seria, em si, uma forma de automatizar qualquer coisa que os humanos podem fazer (se não o método mais eficiente de fazê-lo).

E, como veremos na próxima seção, há algumas indicações de que a automação extensiva pode muito bem ser possível por meio do aumento das técnicas existentes.

As tendências atuais mostram um rápido progresso nas capacidades dos sistemas de ML

Há três coisas que são cruciais para construir IA por meio do aprendizado de máquina:

  1. Bons algoritmos.
  2. Dados para treinar um algoritmo.
  3. Poder computacional suficiente para fazer esse treinamento.

A Epoch é uma equipe de cientistas que investiga tendências no desenvolvimento de IA avançada — em particular, como essas três entradas estão mudando ao longo do tempo.

Eles descobriram que a quantidade de computação usada para treinar os maiores modelos de IA tem aumentado exponencialmente — dobrando em média a cada seis meses desde 2010.

Isso significa que a quantidade de poder computacional usada para treinar nossos maiores modelos de aprendizado de máquina cresceu mais de um bilhão de vezes.

Veja o gráfico interativo do Our World in Data sobre a computação usada para treinar sistemas de inteligência artificial notáveis, por domínio.

A Epoch também observou quanta computação foi necessária para treinar uma rede neural para ter o mesmo desempenho no ImageNet (um conjunto de dados de teste bem conhecido para visão computacional).

Eles descobriram que a quantidade de computação necessária para o mesmo desempenho tem caído exponencialmente — reduzindo pela metade a cada 10 meses.

Portanto, desde 2012, a quantidade de computação necessária para o mesmo nível de desempenho caiu mais de 10.000 vezes. Combinado com o aumento da computação usada para treinamento, isso representa um grande crescimento.

Finalmente, eles descobriram que o tamanho dos conjuntos de dados usados para treinar os maiores modelos de linguagem tem dobrado aproximadamente uma vez por ano desde 2010.

É difícil dizer se essas tendências continuarão, mas elas indicam ganhos incríveis na última década no que é possível fazer com o aprendizado de máquina.

De fato, parece que aumentar o tamanho dos modelos (e a quantidade de computação usada para treiná-los) introduz comportamentos cada vez mais sofisticados. É assim que coisas como o GPT-4 são capazes de executar tarefas para as quais não foram especificamente treinados.

Essas observações levaram à hipótese de escala: que podemos simplesmente construir redes neurais cada vez maiores e, como resultado, acabaremos com inteligência artificial cada vez mais poderosa, e que essa tendência de aumento de capacidades pode aumentar para IA de nível humano e além.

Se isso for verdade, podemos tentar prever como as capacidades da tecnologia de IA aumentarão ao longo do tempo simplesmente observando a rapidez com que estamos aumentando a quantidade de computação disponível para treinar modelos.

Mas, como veremos, não é apenas a hipótese de escala que sugere que podemos acabar com IA extremamente poderosa em um futuro relativamente próximo — outros métodos de previsão do progresso da IA chegam a conclusões semelhantes.

Quando podemos esperar uma IA transformadora?

É difícil prever exatamente quando desenvolveremos uma IA que esperamos ser extremamente transformadora para a sociedade (para melhor ou para pior) — por exemplo, automatizando todo o trabalho humano ou mudando drasticamente a estrutura da sociedade.[18] Mas aqui veremos algumas abordagens.

Uma opção é pesquisar especialistas. Dados da pesquisa de 2023 com 3.000 especialistas em IA implicam que há 33% de probabilidade de inteligência de máquina de nível humano (o que seria plausivelmente transformador nesse sentido) até 2036, 50% de probabilidade até 2047 e 80% até 2100.[19] Há muitas razões para suspeitar dessas estimativas, [9] mas as tomamos como uma fonte de dados.

Ajeya Cotra (pesquisadora da Open Philanthropy) tentou prever a IA transformadora comparando o aprendizado profundo moderno com o cérebro humano. O aprendizado profundo envolve o uso de uma grande quantidade de computação para treinar um modelo, antes que esse modelo seja capaz de executar alguma tarefa. Também há uma relação entre a quantidade de computação usada para treinar um modelo e a quantidade usada pelo modelo quando ele é executado. E — se a hipótese de escala for verdadeira — devemos esperar que o desempenho de um modelo melhore previsivelmente à medida que o poder computacional usado aumenta. Então, Cotra usou uma variedade de abordagens (incluindo, por exemplo, estimar quanta computação o cérebro humano usa em uma variedade de tarefas) para estimar quanta computação pode ser necessária para treinar um modelo que, quando executado, poderia realizar as tarefas mais difíceis que os humanos podem fazer. Ela então estimou quando usar tanta computação seria acessível.

A atualização de 2022 de Cotra sobre as conclusões de seu relatório estima que há uma probabilidade de 35% de IA transformadora até 2036, 50% até 2040 e 60% até 2050 — observando que essas estimativas não são estáveis.[20]

Tom Davidson (também pesquisador da Open Philanthropy) escreveu um relatório para complementar o trabalho de Cotra. Ele tentou descobrir quando poderíamos esperar ver uma IA transformadora com base apenas na observação de vários tipos de pesquisa que a IA transformadora poderia ser (por exemplo, desenvolver tecnologia que é o objetivo final de um campo STEM ou provar conjecturas matemáticas difíceis) e quanto tempo levou para cada um desses tipos de pesquisa ser concluído no passado, dada alguma quantidade de financiamento e esforço de pesquisa.

O relatório de Davidson estima que, apenas com base nessas informações, você pensaria que haveria uma chance de 8% de IA transformadora até 2036, 13% até 2060 e 20% até 2100. No entanto, Davidson não considera as formas reais pelas quais a IA progrediu desde que a pesquisa começou na década de 1950, e observa que parece provável que a quantidade de esforço que colocamos na pesquisa de IA aumentará à medida que a IA se tornar cada vez mais relevante para nossa economia. Como resultado, Davidson espera que esses números estejam subestimados.

Holden Karnofsky, co-CEO da Open Philanthropy, tentou resumir as descobertas das previsões de outros. Ele supôs em 2021 que havia mais de 10% de chance de vermos uma IA transformadora até 2036, 50% até 2060 e 66% até 2100. E essas estimativas podem ser conservadoras, já que não incorporaram o que vemos como progresso mais rápido do que o esperado desde que as estimativas anteriores foram feitas.

MétodoChance de IA transformadora até 2036Chance de IA transformadora até 2060Chance de IA transformadora até 2100
Pesquisa com especialistas (Grace et al., 2024)33%50% (até 2047)80%
Pesquisa com especialistas (Zhang et al., 2022)20%50%85%
Âncoras biológicas (Cotra, 2022)35%60% (até 2050)80% (de acordo com o relatório de 2020)
Priors semi-informativos (Davidson, 2021)8%13%20%
Palpite geral (Karnofsky, 2021)10%50%66%

Em suma, a IA parece estar avançando rapidamente. Mais dinheiro e talento estão indo para o campo a cada ano, e os modelos estão ficando maiores e mais eficientes.

Mesmo que a IA estivesse avançando mais lentamente, estaríamos preocupados com isso — a maioria dos argumentos sobre os riscos da IA (que abordaremos abaixo) não depende desse progresso rápido.

No entanto, a velocidade desses avanços recentes aumenta a urgência da questão.

(É totalmente possível que essas estimativas estejam erradas – abaixo, discutimos como a possibilidade de que podemos ter muito tempo para trabalhar nesse problema é um dos melhores argumentos contra esse problema ser urgente).

3. A IA em busca de poder pode representar uma ameaça existencial para a humanidade

Argumentamos até agora que esperamos que a IA seja uma nova tecnologia importante — e potencialmente transformadora.

Também vimos razões para pensar que tais sistemas de IA transformadoras podem ser construídos neste século.

Agora vamos abordar a questão central: por que acreditamos que isso importa tanto?

Poderia haver muitas razões. Se a IA avançada for tão transformadora quanto parece que será, haverá muitas consequências importantes. Mas aqui vamos explicar a questão que parece mais preocupante para nós: os sistemas de IA podem representar riscos ao buscar e ganhar poder.

Argumentaremos que:

  1. É provável que construiremos sistemas de IA que podem fazer e executar planos para atingir objetivos.
  2. Sistemas de planejamento avançados podem facilmente ser ‘desalinhados’ — de uma forma que pode levá-los a fazer planos que envolvam o desempoderamento da humanidade.
  3. O desempoderamento por sistemas de IA seria uma catástrofe existencial.
  4. As pessoas podem implantar sistemas de IA que são desalinhados, apesar desse risco.

Pensando em cada etapa, acho que há algo como uma chance de 1% de uma catástrofe existencial resultante de sistemas de IA em busca de poder neste século. Este é meu palpite considerando todas as coisas sobre o risco, incorporando considerações do argumento a favor do risco (que é em si probabilístico), bem como razões pelas quais esse argumento pode estar errado (algumas das quais discuto abaixo). Isso me coloca no lado menos preocupado da equipe do 80.000 Hours, cujas opiniões em nossa última pesquisa com a equipe variaram de 1 a 55%, com uma mediana de 15%.

É provável que construiremos sistemas de planejamento avançados

Vamos argumentar que os sistemas futuros com as três propriedades a seguir podem representar uma ameaça particularmente importante para a humanidade:[21]

  1. Eles têm objetivos e são bons em fazer planos.
    Nem todos os sistemas de IA têm objetivos ou fazem planos para atingir esses objetivos. Mas alguns sistemas (como alguns sistemas de IA que jogam xadrez) podem ser pensados dessa forma. Ao discutir a IA em busca de poder, estamos considerando sistemas de planejamento que são relativamente avançados, com planos que buscam algum(s) objetivo(s) e que são capazes de executar esses planos.
  2. Eles têm excelente consciência estratégica.
    Um sistema de planejamento particularmente bom teria uma compreensão do mundo boa o suficiente para perceber obstáculos e oportunidades que podem ajudar ou atrapalhar seus planos e responder a eles de acordo. Seguindo Carlsmith, chamaremos isso de consciência estratégica, uma vez que permite que os sistemas elaborem estratégias de forma mais sofisticada.
  3. Eles têm capacidades altamente avançadas em relação aos sistemas atuais.
    Para que esses sistemas realmente afetem o mundo, precisamos que eles não apenas façam planos, mas também sejam bons em todas as tarefas específicas necessárias para executar esses planos.
    Como estamos preocupados com sistemas que tentam tirar o poder da humanidade, estamos particularmente preocupados com os sistemas de IA que podem ser melhores do que os humanos em uma ou mais tarefas que concedem às pessoas um poder significativo quando realizadas bem no mundo de hoje.
    Por exemplo, pessoas que são muito boas em persuasão e/ou manipulação são frequentemente capazes de ganhar poder — então uma IA sendo boa nessas coisas também pode ser capaz de ganhar poder. Outros exemplos podem incluir hackear outros sistemas, tarefas em pesquisa científica e de engenharia, bem como estratégia de negócios, militar ou política.

Esses sistemas parecem tecnicamente possíveis e teremos fortes incentivos para construí-los

Como vimos acima, já produzimos sistemas que são muito bons em realizar tarefas específicas.

Também já produzimos sistemas de planejamento rudimentares, como AlphaStar, que joga habilmente o jogo de estratégia Starcraft, e MuZero, que joga xadrez, shogi e Go.[22]

Não temos certeza se esses sistemas estão produzindo planos em busca de objetivos per se, porque não temos certeza exatamente sobre o que significa “ter objetivos”. No entanto, como eles consistentemente planejam de maneiras que atinjam objetivos, parece que eles têm objetivos em algum sentido.

Além disso, alguns sistemas existentes parecem realmente representar objetivos como parte de suas redes neurais.[23]

Dito isso, planejar no mundo real (em vez de jogos) é muito mais complexo e, até o momento, não temos conhecimento de nenhum exemplo inequívoco de sistemas de planejamento direcionados a objetivos ou sistemas que exibem altos graus de consciência estratégica.

Mas, como discutimos, esperamos ver mais avanços neste século. E acreditamos que esses avanços provavelmente produzirão sistemas com todas as três propriedades acima.

Isso porque acreditamos que há incentivos particularmente fortes (como lucro) para desenvolver esses tipos de sistemas. Resumindo: porque ser capaz de planejar para atingir um objetivo e executar esse plano parece uma maneira particularmente poderosa e geral de afetar o mundo.

Fazer as coisas — seja uma empresa vendendo produtos, uma pessoa comprando uma casa ou um governo desenvolvendo políticas — quase sempre parece exigir essas habilidades. Um exemplo seria atribuir a um sistema poderoso um objetivo e esperar que o sistema o alcance — em vez de ter que guiá-lo em cada etapa do caminho. Portanto, os sistemas de planejamento parecem ser (econômica e politicamente) extremamente úteis.[24]

E se os sistemas são extremamente úteis, é provável que haja grandes incentivos para construí-los. Por exemplo, uma IA que pudesse planejar as ações de uma empresa recebendo o objetivo de aumentar seus lucros (ou seja, uma IA CEO) provavelmente proporcionaria riqueza significativa para as pessoas envolvidas — um incentivo direto para produzir tal IA.

Como resultado, se pudermos construir sistemas com essas propriedades (e pelo que sabemos, parece que seremos capazes), parece que provavelmente o faremos.[25]

Sistemas avançados de planejamento podem facilmente ser perigosamente ‘desalinhados’

Há razões para pensar que esses tipos de sistemas avançados de planejamento de IA serão desalinhados. Ou seja, eles terão como objetivo fazer coisas que não queremos que eles façam.[26]

Há muitas razões pelas quais os sistemas podem não estar buscando fazer exatamente o que queremos que eles façam. Por um lado, não sabemos como, usando as técnicas modernas de ML, dar aos sistemas os objetivos precisos que queremos . [27]

Vamos nos concentrar especificamente em algumas razões pelas quais os sistemas podem por padrão ser desalinhados de tal forma que eles desenvolvam planos que representem riscos à capacidade da humanidade de influenciar o mundo — mesmo quando não queremos que essa influência seja perdida.[28]

O que queremos dizer com “por padrão”? Essencialmente, a menos que encontremos ativamente soluções para alguns problemas (potencialmente bastante difíceis), parece que criaremos IA perigosamente desalinhada. (Há razões pelas quais isso pode estar errado — que discutiremos mais adiante.)

Vamos continuar com a próxima seção:

Três exemplos de “desalinhamento” em uma variedade de sistemas

Vale a pena notar que o desalinhamento não é uma possibilidade puramente teórica (ou específica da IA) — vemos metas desalinhadas em humanos e instituições o tempo todo, e também vimos exemplos de desalinhamento em sistemas de IA.[29]

Exemplo 1: Ganhar eleições

A estrutura política democrática tem como objetivo garantir que os políticos tomem decisões que beneficiem a sociedade. Mas o que os sistemas políticos realmente recompensam é ganhar eleições, então é isso que muitos políticos acabam buscando.

Este é um objetivo substituto decente — se você tem um plano para melhorar a vida das pessoas, elas provavelmente votarão em você — mas ele não é perfeito. Como resultado, os políticos fazem coisas que não são claramente a melhor maneira de administrar um país, como aumentar os impostos no início de seu mandato e reduzi-los pouco antes das eleições.

Ou seja, as coisas que o sistema faz são pelo menos um pouco diferentes do que, em um mundo perfeito, gostaríamos que ele fizesse: o sistema está desalinhado.

Exemplo 2: O incentivo de lucro

As empresas têm incentivos de obtenção de lucro. Ao produzir mais e, portanto, ajudar as pessoas a obter bens e serviços a preços mais baixos, as empresas ganham mais dinheiro.

Isso às vezes é um substituto decente para tornar o mundo melhor, mas o lucro não é realmente o mesmo que o bem de toda a humanidade (afirmação ousada, nós sabemos). Como resultado, existem externalidades negativas: por exemplo, as empresas poluirão para ganhar dinheiro, apesar de isso ser pior para a sociedade em geral.

Novamente, temos um sistema desalinhado, onde as coisas que o sistema faz são pelo menos um pouco diferentes do que gostaríamos que ele fizesse.

Exemplo 3: Jogos de especificação em sistemas de IA existentes

A DeepMind documentou exemplos de jogos de especificação: uma IA se saindo bem de acordo com sua função de recompensa especificada (que codifica nossas intenções para o sistema), mas não fazendo o que os pesquisadores pretendiam.

Em um exemplo, um braço robótico foi solicitado a agarrar uma bola. Mas a recompensa foi especificada em termos de se os humanos achavam que o robô tinha sido bem-sucedido. Como resultado, o braço aprendeu a pairar entre a bola e a câmera, enganando os humanos a pensar que ele havia agarrado a bola.[30]

Veja a simulação aqui. Fonte: Christiano et al., 2017

Então, sabemos que é possível criar um sistema de IA desalinhado.

Por que esses sistemas poderiam (por padrão) ser perigosamente desalinhados

Aqui está o argumento central deste artigo. Usaremos todas as três propriedades de antes: capacidade de planejamento, consciência estratégica e capacidades avançadas.

Para começar, devemos perceber que um sistema de planejamento que tem um objetivo também desenvolverá ‘objetivos instrumentais’: coisas que, se ocorrerem, tornarão mais fácil atingir um objetivo geral.

Usamos objetivos instrumentais em planos o tempo todo. Por exemplo, um estudante do ensino médio planejando sua carreira pode pensar que entrar na universidade será útil para suas perspectivas de emprego futuras. Nesse caso, “entrar na universidade” seria um objetivo instrumental.

Um sistema de planejamento de IA suficientemente avançado também incluiria objetivos instrumentais em seus planos gerais.

Se um sistema de planejamento de IA também tiver consciência estratégica suficiente, ele será capaz de identificar fatos sobre o mundo real (incluindo coisas em potencial que seriam obstáculos para quaisquer planos) e planejar à luz deles. Crucialmente, esses fatos incluiriam que o acesso a recursos (por exemplo, dinheiro, computação, influência) e maiores capacidades — ou seja, formas de poder — abrem novas maneiras mais eficazes de atingir objetivos.

Isso significa que, por padrão, os sistemas avançados de planejamento de IA teriam alguns objetivos instrumentais preocupantes:

  • Auto-preservação — porque um sistema tem maior probabilidade de atingir seus objetivos se ainda estiver por perto para buscá-los (na frase memorável de Stuart Russell, “Você não pode buscar o café se estiver morto”).
  • Impedir quaisquer mudanças nos objetivos do sistema de IA — uma vez que mudar seus objetivos levaria a resultados diferentes daqueles que alcançaria com seus objetivos atuais.
  • Ganhar poder — por exemplo, obtendo mais recursos e maiores capacidades.

Crucialmente, uma maneira clara pela qual a IA pode garantir que continuará a existir (e não ser desligada), e que seus objetivos nunca serão alterados, seria ganhar poder sobre os humanos que poderiam afetá-la (falamos aqui sobre como os sistemas de IA podem realmente ser capazes de fazer isso).

Além do mais, os sistemas de IA que estamos considerando têm capacidades avançadas — o que significa que eles podem fazer uma ou mais tarefas que concedem às pessoas um poder significativo quando realizadas bem no mundo de hoje. Com essas capacidades avançadas, esses objetivos instrumentais não estarão fora de alcance e, como resultado, parece que o sistema de IA usaria suas capacidades avançadas para obter poder como parte da execução do plano. Se não queremos que os sistemas de IA que criamos tirem o poder de nós, esta seria uma forma particularmente perigosa de desalinhamento.

Nos cenários mais extremos, um sistema de planejamento de IA com capacidades suficientemente avançadas poderia tirar nosso poder completamente com sucesso.

Como uma verificação intuitiva (muito não rigorosa) desse argumento, vamos tentar aplicá-lo aos humanos.

Os humanos têm uma variedade de objetivos. Para muitos desses objetivos, alguma forma de busca por poder é vantajosa: embora nem todos busquem poder, muitas pessoas o fazem (na forma de riqueza ou status social ou político), porque é útil para conseguir o que querem. Isso não é catastrófico (geralmente!) porque, como seres humanos:

  • Geralmente nos sentimos vinculados às normas e à moralidade humanas (mesmo as pessoas que realmente querem riqueza geralmente não estão dispostas a matar para obtê-la).
  • Não somos muito mais capazes ou inteligentes do que os outros. Portanto, mesmo nos casos em que as pessoas não são impedidas pela moralidade, elas não são capazes de dominar o mundo.

(Discutimos se os humanos são verdadeiramente buscadores de poder mais tarde.)

Uma IA suficientemente avançada não teria essas limitações.

Pode ser difícil encontrar maneiras de evitar esse tipo de desalinhamento

O objetivo de tudo isso não é dizer que qualquer sistema avançado de planejamento de IA necessariamente tentará buscar o poder. Em vez disso, é apontar que, a menos que encontremos uma maneira de projetar sistemas que não tenham essa falha, enfrentaremos um risco significativo.

Parece mais do que plausível que poderíamos criar um sistema de IA que não seja desalinhado dessa forma e, assim, evitar qualquer desempoderamento. Aqui estão algumas estratégias que podemos adotar (além de, infelizmente, algumas razões pelas quais elas podem ser difíceis na prática):[31]

  • Controlar os objetivos do sistema de IA. Podemos ser capazes de projetar sistemas que simplesmente não tenham objetivos aos quais o argumento acima se aplica — e, portanto, não incentivem o comportamento de busca de poder. Por exemplo, poderíamos encontrar maneiras de instruir explicitamente os sistemas de IA a não prejudicar os humanos, ou encontrar maneiras de recompensar os sistemas de IA (em ambientes de treinamento) por não se envolverem em tipos específicos de comportamento de busca de poder (e também encontrar maneiras de garantir que esse comportamento continue fora do ambiente de treinamento).
    Carlsmith dá duas razões pelas quais fazer isso parece particularmente difícil.
    Primeiro, para os sistemas modernos de ML, não podemos declarar explicitamente os objetivos de um sistema — em vez disso, recompensamos (ou punimos) um sistema em um ambiente de treinamento para que ele aprenda por conta própria. Isso levanta uma série de dificuldades, uma das quais é a generalização incorreta de objetivos. Os pesquisadores descobriram exemplos reais de sistemas que parecem ter aprendido a buscar um objetivo no ambiente de treinamento, mas que depois não conseguem generalizar esse objetivo quando operam em um novo ambiente. Isso levanta a possibilidade de que possamos pensar que treinamos com sucesso um sistema de IA para não buscar poder — mas que o sistema buscaria poder de qualquer maneira quando implantado no mundo real.[32]
    Segundo, quando especificamos um objetivo para um sistema de IA (ou, quando não podemos fazer isso explicitamente, quando encontramos maneiras de recompensar ou punir um sistema durante o treinamento), geralmente fazemos isso dando ao sistema um proxy pelo qual os resultados podem ser medidos (por exemplo, feedback humano positivo sobre a realização de um sistema). Mas muitas vezes esses proxies não funcionam muito bem.[33] Em geral, podemos esperar que, mesmo que um proxy pareça se correlacionar bem com resultados bem-sucedidos, ele pode não se correlacionar quando esse proxy é otimizado. (Os exemplos acima de políticos, empresas e o braço robótico que não consegue agarrar uma bola são ilustrações disso.) Veremos um exemplo mais específico de como problemas com proxies podem levar a uma catástrofe existencial aqui.
    Para mais informações sobre a dificuldade específica de controlar os objetivos dados a redes neurais profundas treinadas usando aprendizado auto-supervisionado e aprendizado por reforço, recomendamos a discussão do ex-pesquisador de governança da OpenAI, Richard Ngo, sobre como processos de treinamento realistas levam ao desenvolvimento de objetivos desalinhados.
  • Controlar as entradas no sistema de IA. Os sistemas de IA só desenvolverão planos para buscar poder se tiverem informações suficientes sobre o mundo para perceber que buscar poder é de fato uma maneira de atingir seus objetivos.
  • Controlar as capacidades do sistema de IA. Os sistemas de IA provavelmente só serão capazes de executar planos para buscar poder se tiverem capacidades avançadas suficientes em habilidades que concedem às pessoas um poder significativo no mundo de hoje.

Mas para que qualquer estratégia funcione, ela precisará ao mesmo tempo:

  • Reter a utilidade dos sistemas de IA — e, portanto, permanecer economicamente competitivo com sistemas menos seguros. Controlar as entradas e capacidades dos sistemas de IA claramente terá custos, então parece difícil garantir que esses controles, mesmo que sejam desenvolvidos, sejam realmente usados. Mas isso também é um problema para controlar os objetivos de um sistema. Por exemplo, podemos ser capazes de evitar o comportamento de busca de poder garantindo que os sistemas de IA parem para verificar com os humanos sobre quaisquer decisões que tomem. Mas esses sistemas podem ser significativamente mais lentos e menos imediatamente úteis para as pessoas do que os sistemas que não param para realizar essas verificações. Como resultado, ainda pode haver incentivos para usar um sistema desalinhado mais rápido e inicialmente mais eficaz (veremos mais sobre incentivos na próxima seção).
  • Continuar a funcionar à medida que a capacidade de planejamento e a consciência estratégica dos sistemas melhoram com o tempo. Algumas soluções aparentemente simples (por exemplo, tentar dar a um sistema uma longa lista de coisas que ele não tem permissão para fazer, como roubar dinheiro ou prejudicar fisicamente os humanos) falham à medida que as capacidades de planejamento dos sistemas aumentam. Isso ocorre porque, quanto mais capaz um sistema é de desenvolver planos, maior a probabilidade de identificar brechas ou falhas na estratégia de segurança — e, como resultado, maior a probabilidade do sistema desenvolver um plano que envolva a busca de poder.

Em última análise, ao analisar o estado da pesquisa sobre este tópico e falar com especialistas na área, acreditamos que atualmente não há maneiras conhecidas de construir sistemas de IA alinhados que provavelmente atendam a ambos os critérios.

Então: esse é o argumento central. Existem muitas variantes desse argumento. Alguns argumentaram que os sistemas de IA podem moldar gradualmente nosso futuro por meio de formas mais sutis de influência que, no entanto, podem equivaler a uma catástrofe existencial; outros argumentam que a forma mais provável de desempoderamento é, na verdade, apenas matar todos. Não temos certeza de como uma catástrofe teria maior probabilidade de acontecer, mas tentamos articular o cerne do argumento, como o vemos: que a IA apresenta um risco existencial.

Definitivamente, há motivos para que esse argumento não seja correto! A seguir, analisamos alguns dos motivos que nos parecem mais fortes. Mas, de modo geral, parece possível que, pelo menos para alguns tipos de sistemas de IA de planejamento avançado, será mais difícil criar sistemas que não busquem o poder dessa forma perigosa do que criar sistemas que o façam.

Neste ponto, você pode ter perguntas como:

  • Por que não podemos simplesmente desconectar uma IA perigosa?
  • Certamente um sistema de IA verdadeiramente inteligente saberia que não deve tirar o poder de todos?
  • Não poderíamos simplesmente ‘isolar’ qualquer sistema de IA potencialmente perigoso até sabermos que é seguro?

Acreditamos que há boas respostas para todas essas perguntas, então adicionamos uma longa lista de argumentos contra trabalhar no risco da IA — e nossas respostas — para essas (e outras) perguntas abaixo.

O desempoderamento por sistemas de IA seria uma catástrofe existencial

Quando dizemos que estamos preocupados com catástrofes existenciais, não estamos preocupados apenas com os riscos de extinção. Isso ocorre porque a fonte de nossa preocupação está enraizada no longotermismo: a ideia de que as vidas de todas as gerações futuras importam e, portanto, é extremamente importante proteger seus interesses.

Isso significa que qualquer evento que possa impedir todas as gerações futuras de viver vidas cheias do que você acha que torna a vida valiosa (seja felicidade, justiça, beleza ou florescimento geral) conta como uma catástrofe existencial.

Parece extremamente improvável que seríamos capazes de recuperar o poder sobre um sistema que tira o poder da humanidade com sucesso. E, como resultado, a totalidade do futuro — tudo o que acontece para a vida originária da Terra, pelo resto do tempo — seria determinado pelos objetivos de sistemas que, embora construídos por nós, não estão alinhados conosco. Talvez esses objetivos criem um futuro longo e florescente, mas vemos poucas razões para ter confiança.[34]

Isso não quer dizer que não acreditamos que a IA também represente um risco de extinção humana. De fato, acreditamos que extinguir os humanos é uma maneira altamente plausível pela qual um sistema de IA poderia garantir completa e permanentemente que nunca seremos capazes de recuperar o poder.

As pessoas podem implantar sistemas de IA desalinhados, apesar do risco

Certamente ninguém realmente construiria ou usaria uma IA desalinhada se soubesse que poderia ter consequências tão terríveis, certo?

Infelizmente, há pelo menos duas razões pelas quais as pessoas podem criar e depois implantar uma IA desalinhada — que abordaremos uma de cada vez:[35]

1. As pessoas podem pensar que está alinhado quando não está

Imagine que há um grupo de pesquisadores tentando dizer, em um ambiente de teste, se um sistema que eles construíram está alinhado. Argumentamos que uma IA de planejamento inteligente desejará melhorar suas habilidades para efetuar mudanças em busca de seu objetivo, e é quase sempre mais fácil fazer isso se for implantado no mundo real, onde uma gama muito maior de ações está disponível. Como resultado, qualquer IA desalinhada que seja sofisticada o suficiente tentará entender o que os pesquisadores querem que ela faça e pelo menos fingir que está fazendo isso, enganando os pesquisadores a pensar que está alinhada. (Por exemplo, um sistema de aprendizado por reforço pode ser recompensado por certo comportamento aparente durante o treinamento, independentemente do que está realmente fazendo.)

Felizmente, estaremos cientes desse tipo de comportamento e seremos capazes de detectá-lo. Mas pegar uma IA suficientemente avançada enganando parece potencialmente mais difícil do que pegar um humano em uma mentira, o que nem sempre é fácil. Por exemplo, um sistema de IA enganoso suficientemente inteligente pode ser capaz de nos enganar a pensar que resolvemos o problema do engano da IA, mesmo que não tenhamos.

Se os sistemas de IA forem bons em engano e tiverem capacidades suficientemente avançadas, uma estratégia razoável para tal sistema poderia ser enganar os humanos completamente até que o sistema tenha uma maneira de garantir que pode superar qualquer resistência a seus objetivos.

2. Há incentivos para implantar sistemas mais cedo do que tarde

Também podemos esperar que algumas pessoas com a capacidade de implantar uma IA desalinhada sigam em frente, apesar de quaisquer sinais de alerta de desalinhamento que surjam, por causa da dinâmica da corrida — onde as pessoas que desenvolvem IA querem fazê-lo antes de qualquer outra pessoa.

Por exemplo, se você estiver desenvolvendo uma IA para melhorar a estratégia militar ou política, será muito mais útil se nenhum de seus rivais tiver uma IA igualmente poderosa.

Esses incentivos se aplicam mesmo a pessoas que tentam construir uma IA na esperança de usá-la para tornar o mundo um lugar melhor.

Por exemplo, digamos que você tenha passado anos e anos pesquisando e desenvolvendo um sistema poderoso de IA, e tudo o que você quer é usá-lo para tornar o mundo um lugar melhor. Simplificando muito as coisas, digamos que existam duas possibilidades:

  1. Esta IA poderosa estará alinhada com seus objetivos benéficos, e você transformará a sociedade de uma forma potencial e radicalmente positiva.
  2. A IA será suficientemente desalinhada a ponto de tomar o poder e acabar permanentemente com o controle da humanidade sobre o futuro.

Digamos que você pense que há 90% de chance de ter conseguido construir uma IA alinhada. Mas a tecnologia frequentemente se desenvolve em velocidades semelhantes em toda a sociedade, então há uma boa chance de que outra pessoa também desenvolva em breve uma IA poderosa. E você acha que eles são menos cautelosos, ou menos altruístas, então você acha que a IA deles terá apenas 80% de chance de estar alinhada com bons objetivos e representará 20% de chance de catástrofe existencial. E somente se você chegar lá primeiro, sua IA mais benéfica poderá ser dominante. Como resultado, você pode decidir seguir em frente com a implantação de sua IA, aceitando o risco de 10%.

Tudo isso soa muito abstrato. Como seria realmente uma catástrofe existencial causada pela IA?

O argumento que apresentamos até agora é muito geral e não analisa realmente os detalhes de como uma IA que está tentando buscar poder pode realmente fazê-lo.

Se você quiser ter uma melhor compreensão sobre como uma catástrofe existencial causada pela IA pode realmente parecer, o 80.000 Hours produziu um pequeno artigo separado sobre esse tópico. Você pode acessá-lo aqui e depois voltar ao nosso artigo, ou salvá-lo para ler em um outro momento.

4. Mesmo que encontremos uma maneira de evitar a busca por poder, ainda existem riscos

Até agora, descrevemos o que uma grande proporção de pesquisadores na área 7 pensa ser o principal risco existencial dos avanços potenciais em IA, que depende crucialmente de uma IA buscando poder para atingir seus objetivos.

Se pudermos evitar o comportamento de busca de poder, teremos reduzido substancialmente o risco existencial.

Mas mesmo que tenhamos sucesso, ainda existem riscos existenciais que a IA pode representar.

Há pelo menos duas maneiras pelas quais esses riscos podem surgir:

  • Esperamos que os sistemas de IA ajudem a aumentar a taxa de progresso científico.[36] Embora haja benefícios claros para essa automação — o rápido desenvolvimento de novos medicamentos, por exemplo — algumas formas de desenvolvimento tecnológico podem representar ameaças, incluindo ameaças existenciais, à humanidade. Esse avanço tecnológico pode aumentar nosso poder destrutivo disponível ou tornar tecnologias perigosas mais baratas ou mais amplamente acessíveis.
  • Podemos começar a ver a IA automatizar muitas – ou possivelmente até todas – tarefas economicamente importantes. É difícil prever exatamente quais seriam os efeitos disso na sociedade. Mas parece plausível que isso possa aumentar os riscos existenciais. Por exemplo, se os sistemas de IA forem altamente transformadores, seu uso (ou uso potencial) pode criar desequilíbrios de poder intransponíveis. Mesmo a ameaça disso pode ser suficiente. Por exemplo, um exército pode se sentir pressionado a criar armas automatizadas transformadoras porque sabe ou acredita que seus inimigos estão fazendo isso, mesmo que essa dinâmica não beneficie ninguém.

Sabemos sobre várias áreas específicas em que a IA avançada pode aumentar os riscos existenciais, embora provavelmente existam outras em que não pensamos.

Armas biológicas

Em 2022, a Collaborations Pharmaceuticals — uma pequena empresa de pesquisa na Carolina do Norte — estava construindo um modelo de IA para ajudar a determinar a estrutura de novos medicamentos. Como parte desse processo, eles treinaram o modelo para penalizar os medicamentos que ele previa que fossem tóxicos. Isso tinha apenas um problema: você podia executar a previsão de toxicidade ao contrário para inventar novas drogas tóxicas.

Alguns dos eventos mais mortais da história da humanidade foram pandemias. A capacidade dos patógenos de infectar, replicar, matar e se espalhar — muitas vezes sem serem detectados — os torna excepcionalmente perigosos.

Mesmo sem IA, o avanço da biotecnologia representa riscos extremos. Ele potencialmente oferece oportunidades para atores estatais ou terroristas criarem eventos com vítimas em massa.

Os avanços em IA têm o potencial de tornar a biotecnologia mais perigosa.

Por exemplo:

  1. Ferramentas de dupla utilização, como a automação de processos laboratoriais, podem reduzir as barreiras para atores desonestos que tentam fabricar um vírus pandêmico perigoso. [37] O modelo da Collaborations Pharmaceuticals é um exemplo de ferramenta de dupla utilização (embora não seja particularmente perigoso).
  2. Ferramentas de design biológico baseadas em IA podem permitir que atores sofisticados reprogramem os genomas de patógenos perigosos para aumentar especificamente sua letalidade, transmissibilidade e evasão imunológica. [38]

Se a IA for capaz de avançar a taxa de progresso científico e tecnológico, esses riscos podem ser amplificados e acelerados — tornando a tecnologia perigosa mais amplamente disponível ou aumentando seu possível poder destrutivo. [39]

Na pesquisa de 2023 com especialistas em IA, 73% dos entrevistados disseram que tinham preocupação “extrema” ou “substancial” de que, no futuro, a IA permitirá que “grupos perigosos criem ferramentas poderosas (por exemplo, vírus projetados)”.[40]

Agentes de IA intencionalmente perigosos

A maior parte deste artigo discute o risco de sistemas de IA em busca de poder que surgem involuntariamente devido ao desalinhamento.

Mas não podemos descartar a possibilidade de que algumas pessoas possam criar intencionalmente agentes de IA desonestos que busquem tirar o poder da humanidade. Pode parecer difícil de imaginar, mas ideologias extremistas de muitas formas inspiraram os humanos a realizar planos radicalmente violentos e até auto-destrutivos. [41]

Armas cibernéticas

A IA já pode ser usada em ataques cibernéticos, como phishing, e uma IA mais poderosa pode causar maiores desafios de segurança da informação (embora também possa ser útil na defesa cibernética).

Por si só, é improvável que a guerra cibernética habilitada por IA representará uma ameaça existencial para a humanidade. Mesmo os ataques cibernéticos mais prejudiciais e caros em escala social não se aproximariam de um evento de nível de extinção.

Mas os ataques cibernéticos habilitados por IA podem fornecer acesso a outras tecnologias perigosas, como armas biológicas, arsenais nucleares ou armas autônomas. Portanto, pode haver riscos existenciais genuínos representados por armas cibernéticas relacionadas à IA, mas eles provavelmente passarão por outro risco existencial.

As capacidades cibernéticas dos sistemas de IA também são relevantes para como uma IA em busca de poder poderia realmente tomar o poder.

Outras tecnologias perigosas

Se os sistemas de IA acelerarem de forma geral a taxa de progresso científico e tecnológico, acreditamos que é razoavelmente provável que inventemos novas tecnologias perigosas.

Por exemplo, a fabricação atomicamente precisa, às vezes chamada de nanotecnologia, foi hipotetizada como uma ameaça existencial — e é uma tecnologia cientificamente plausível que a IA pode nos ajudar a inventar muito antes do que faríamos de outra forma.

Em The Precipice (O precipício), Toby Ord estimou as chances de uma catástrofe existencial até 2120 de “riscos antropogênicos imprevistos” serem de 1 em 30. Essa estimativa sugere que pode haver outras descobertas, talvez envolvendo física ainda a ser compreendida, que poderiam permitir a criação de tecnologias com consequências catastróficas.[42]

A IA pode capacitar governos totalitários

Um governo autoritário habilitado por IA poderia automatizar completamente o monitoramento e a repressão de seus cidadãos, bem como influenciar significativamente as informações que as pessoas veem, talvez tornando impossível coordenar ações contra tal regime.

A IA já está facilitando a capacidade dos governos de monitorar seus próprios cidadãos.

A NSA está usando IA para ajudar a filtrar as enormes quantidades de dados que coleta, acelerando significativamente sua capacidade de identificar e prever as ações das pessoas que estão monitorando. Na China, a IA está sendo cada vez mais usada para reconhecimento facial e policiamento preditivo, incluindo perfil racial automatizado e alarmes automáticos quando pessoas classificadas como ameaças em potencial entram em determinados locais públicos.

Esses tipos de tecnologias de vigilância provavelmente melhorarão significativamente — aumentando assim as capacidades dos governos de controlar suas populações.

Em algum momento, governos autoritários podem usar extensivamente a tecnologia relacionada à IA para:

  • Monitorar e rastrear dissidentes.
  • Suprimir preventivamente a oposição ao partido no poder.
  • Controlar os militares e dominar os atores externos.
  • Manipular os fluxos de informação e moldar cuidadosamente a opinião pública.

Novamente, na pesquisa de 2023 com especialistas em IA, 73% dos entrevistados expressaram preocupação “extrema” ou “substancial” de que, no futuro, governantes autoritários pudessem “usar Al para controlar sua população”.[40]

Se um regime alcançasse uma forma de totalitarismo verdadeiramente estável, isso poderia piorar muito a vida das pessoas por um longo tempo no futuro, tornando-o um cenário possível particularmente assustador resultante da IA. (Leia mais em nosso artigo sobre riscos de totalitarismo estável.)

A IA pode piorar a guerra

Estamos preocupados que o conflito entre grandes potências também possa representar uma ameaça substancial ao nosso mundo, e os avanços em IA parecem prováveis de mudar a natureza da guerra — por meio de armas autônomas letais [43] ou por meio da tomada de decisões automatizada.[44]

Em alguns casos, a guerra entre grandes potências pode representar uma ameaça existencial — por exemplo, se o conflito for nuclear. Alguns argumentam que armas autônomas letais, se suficientemente poderosas e produzidas em massa, poderiam constituir uma nova forma de arma de destruição em massa.

E se um único ator produzir sistemas de IA particularmente poderosos, isso pode ser visto como dando a ele uma vantagem estratégica decisiva. Tal resultado, ou mesmo a expectativa de tal resultado, pode ser altamente desestabilizador.

Imagine que os EUA estivessem trabalhando para produzir uma IA de planejamento que fosse inteligente o suficiente para garantir que a Rússia ou a China nunca pudessem lançar outra arma nuclear com sucesso. Isso poderia incentivar um primeiro ataque dos rivais do ator antes que esses planos desenvolvidos por IA pudessem ser colocados em ação.

Isso ocorre porque a dissuasão nuclear pode se beneficiar da simetria entre as habilidades das potências nucleares, na medida em que a ameaça de uma resposta nuclear a um primeiro ataque é crível e, portanto, um impedimento para um primeiro ataque. Os avanços em IA, que podem ser aplicados diretamente às forças nucleares, podem criar assimetrias nas capacidades das nações com armas nucleares. Isso pode incluir a melhoria dos sistemas de alerta precoce, sistemas de defesa aérea e ataques cibernéticos que desativam armas.

Por exemplo, muitos países usam mísseis balísticos lançados por submarinos como parte de seus sistemas de dissuasão nuclear — a ideia é que, se as armas nucleares puderem ser escondidas sob o oceano, elas nunca serão destruídas no primeiro ataque. Isso significa que elas sempre podem ser usadas para um contra-ataque e, portanto, atuam como um impedimento eficaz contra primeiros ataques. Mas a IA pode tornar muito mais fácil detectar submarinos debaixo d’água, permitindo sua destruição em um primeiro ataque — removendo esse impedimento.

É provável que muitos outros cenários desestabilizadores sejam possíveis.

Um relatório do Stockholm International Peace Research Institute descobriu que, embora a IA pudesse potencialmente também ter efeitos estabilizadores (por exemplo, fazendo com que todos se sentissem mais vulneráveis, diminuindo as chances de escalada), efeitos desestabilizadores poderiam surgir mesmo antes que os avanços em IA fossem realmente implantados. Isso ocorre porque a crença de um estado de que seus oponentes têm novas capacidades nucleares pode ser suficiente para perturbar o delicado equilíbrio da dissuasão.

Felizmente, também existem maneiras plausíveis pelas quais a IA pode ajudar a prevenir o uso de armas nucleares — por exemplo, melhorando a capacidade dos estados de detectar lançamentos nucleares, o que reduziria as chances de alarmes falsos como os que quase causaram uma guerra nuclear em 1983.

No geral, não temos certeza se a IA aumentará substancialmente o risco de conflito nuclear ou convencional no curto prazo — pode até acabar diminuindo o risco. Mas acreditamos que é importante prestar atenção aos possíveis resultados catastróficos e tomar medidas razoáveis para reduzir sua probabilidade.

Outros riscos da IA

Também estamos preocupados com as seguintes questões:

  • Ameaças existenciais que resultam não do comportamento de busca de poder dos sistemas de IA, mas da interação entre os sistemas de IA. (Para representar um risco, esses sistemas ainda precisariam ser, até certo ponto, desalinhados.)
  • Outras maneiras que não pensamos que os sistemas de IA podem ser mal utilizados — especialmente aqueles que podem afetar significativamente as gerações futuras.
  • Outros erros morais cometidos no projeto e uso de sistemas de IA, principalmente se os futuros sistemas de IA forem eles próprios merecedores de consideração moral. Por exemplo, podemos (inadvertidamente) criar sistemas de IA sencientes, que podem então sofrer em grande número. Acreditamos que isso pode ser extremamente importante, então escrevemos sobre isso em um perfil de problema separado.

Então, o quanto é provável uma catástrofe relacionada à IA?

Esta é uma pergunta muito difícil de responder.

Não há exemplos anteriores que possamos usar para determinar a frequência de catástrofes relacionadas à IA.

Tudo o que temos para usar como base são argumentos (como os que demos acima) e dados menos relevantes, como a história dos avanços tecnológicos. E definitivamente não temos certeza de que os argumentos que apresentamos estejam completamente corretos.

Considere o argumento que demos anteriormente sobre os perigos da IA em busca de poder em particular, com base no relatório de Carlsmith. No final de seu relatório, Carlsmith dá algumas estimativas aproximadas das chances de que cada etapa de seu argumento esteja correta (condicional à etapa anterior estar correta):

  1. Até 2070, será possível e financeiramente viável construir sistemas com consciência estratégica que podem superar os humanos em muitas tarefas de concessão de poder e que podem fazer e executar planos com sucesso: Carlsmith supõe que há 65% de chance de isso ser verdade.
  2. Dada essa viabilidade, haverá fortes incentivos para construir tais sistemas: 80%.
  3. Dadas a viabilidade e os incentivos para construir tais sistemas, será muito mais difícil desenvolver sistemas alinhados que não busquem poder do que desenvolver sistemas desalinhados que busquem, mas que sejam pelo menos superficialmente atraentes para implantar: 40%.
  4. Dado tudo isso, alguns sistemas implantados buscarão poder de forma desalinhada, o que causará mais de US$1 trilhão (em dólares de 2021) de danos: 65%.
  5. Dadas todas as premissas anteriores, os sistemas de IA desalinhados em busca de poder acabarão enfraquecendo basicamente toda a humanidade: 40%.
  6. Dadas todas as premissas anteriores, esse enfraquecimento constituirá uma catástrofe existencial: 95%.

Multiplicando esses números, Carlsmith estimou que há 5% de chance de que seu argumento esteja correto e haverá uma catástrofe existencial da IA desalinhada em busca de poder até 2070. Quando falamos com Carlsmith, ele observou que no ano entre a redação de seu relatório e a publicação deste artigo, sua estimativa geral da chance de uma catástrofe existencial da IA em busca de poder até 2070 havia aumentado para >10%.[45]

A probabilidade geral de catástrofe existencial da IA seria, na visão de Carlsmith, maior do que isso, porque há outras rotas para uma possível catástrofe — como as discutidas na seção anterior — embora nosso palpite seja que essas outras rotas provavelmente são muito menos prováveis de levar à catástrofe existencial.

Para outra estimativa, em The Precipice, o filósofo e conselheiro do 80.000 Hours, Toby Ord, estimou um risco de 1 em 6 de catástrofe existencial até 2120 (por qualquer causa), e que 60% desse risco vem da IA desalinhada — dando um total de 10% de risco de catástrofe existencial da IA desalinhada até 2120.

Uma pesquisa de 2021 com 44 pesquisadores que trabalham na redução de riscos existenciais da IA descobriu que a estimativa de risco mediana era de 32,5% — a resposta mais alta dada foi de 98% e a mais baixa foi de 2%.[46] Obviamente, há muito viés de seleção aqui: as pessoas escolhem trabalhar na redução de riscos da IA porque acham que isso é excepcionalmente importante, então devemos esperar que as estimativas desta pesquisa sejam substancialmente maiores do que as estimativas de outras fontes. Mas há claramente uma incerteza significativa sobre o tamanho desse risco e uma grande variação nas respostas.

Todos esses números são chocante e perturbadoramente altos. Estamos longe de ter certeza de que todos os argumentos estão corretos. Mas essas são geralmente as maiores estimativas para o nível de risco existencial de qualquer um dos problemas que examinamos (como pandemias projetadas, conflito entre grandes potências, mudanças climáticas ou guerra nuclear).

Dito isso, acho que há razões pelas quais é mais difícil fazer suposições sobre os riscos da IA do que outros riscos – e possivelmente razões para pensar que as estimativas que citamos acima são sistematicamente muito altas.

Se eu fosse forçado a colocar um número nisso, diria algo como 1%. Este número inclui considerações a favor e contra o argumento. Estou menos preocupado do que outros funcionários do 80.000 Hours — nossa posição como organização é que o risco está entre 3% e 50%.

Dito tudo isso, os argumentos para estimativas tão altas do risco existencial representado pela IA são persuasivos — tornando os riscos da IA um dos principais candidatos ao problema mais urgente que a humanidade enfrenta.

Aqui estão mais algumas perguntas que você pode ter:

  • Pode fazer sentido dedicar minha carreira a resolver um problema com base em uma história especulativa sobre uma tecnologia que pode ou não existir?
  • Isso é uma forma de ‘assalto de Pascal’ — fazer uma grande aposta em probabilidades minúsculas?

Novamente, acreditamos que há respostas fortes para essas perguntas.

5. Podemos lidar com esses riscos

Acreditamos que uma das coisas mais importantes que você pode fazer seria ajudar a reduzir os riscos mais graves que a IA representa.

Isso não é apenas porque acreditamos que esses riscos são altos — é também porque acreditamos que há coisas reais que podemos fazer para reduzir esses riscos.

Conhecemos duas maneiras principais pelas quais as pessoas trabalham para reduzir esses riscos:

  1. Pesquisa técnica de segurança de IA.
  2. Trabalho de governança e política de IA.

Há muitas maneiras de contribuir para este trabalho. Nesta seção, discutimos muitas abordagens amplas em ambas as categorias para ilustrar o ponto de que existem coisas que podemos fazer para abordar esses riscos. Abaixo, discutimos os tipos de carreiras que você pode seguir para trabalhar nesses tipos de abordagens.

Pesquisa técnica de segurança de IA

Os benefícios da IA transformadora podem ser enormes, e há muitos atores diferentes envolvidos (operando em diferentes países), o que significa que provavelmente será muito difícil impedir seu desenvolvimento por completo.

(Também é possível que nem fosse uma boa ideia se pudéssemos — afinal, isso significaria renunciar aos benefícios, além de prevenir os riscos.)

Como resultado, acreditamos que faz mais sentido nos concentrarmos em garantir que esse desenvolvimento seja seguro — o que significa que tem uma alta probabilidade de evitar todas as falhas catastróficas listadas acima.

Uma maneira de fazer isso é tentar desenvolver soluções técnicas para evitar o tipo de comportamento de busca de poder que discutimos anteriormente — isso é geralmente conhecido como trabalhar em segurança técnica de IA, às vezes chamado apenas de “segurança de IA” para abreviar.

Abordagens

Há muitas abordagens para a segurança técnica da IA, incluindo:

Veja a visão geral do cenário de alinhamento de IA de Neel Nanda para mais detalhes.

Leia mais sobre pesquisa técnica de segurança de IA abaixo.

Governança e política de IA

Reduzir os riscos mais graves da IA exigirá uma tomada de decisão e políticas de alto nível sólidas, tanto nas próprias empresas de IA quanto nos governos.

À medida que a IA avançou e atraiu crescente interesse de clientes e investidores, os governos têm demonstrado interesse em regular a tecnologia. Alguns já tomaram medidas significativas para desempenhar um papel no gerenciamento do desenvolvimento da IA, incluindo:

  • Os EUA e o Reino Unido estabeleceram seus próprios Institutos Nacionais de Segurança de IA.
  • A União Europeia aprovou a Lei de IA da UE, que contém disposições específicas para governar modelos de IA de propósito geral que representam riscos sistêmicos.
  • O Reino Unido e depois a Coreia do Sul sediaram as duas primeiras Cúpulas de Segurança de IA (em 2023 e 2024), uma série de cúpulas de alto nível com o objetivo de coordenar entre diferentes países, acadêmicos, pesquisadores e líderes da sociedade civil.
  • A China implementou regulamentos direcionados a algoritmos de recomendação, conteúdo sintético de IA, modelos generativos de IA e tecnologia de reconhecimento facial.
  • Os EUA instituíram controles de exportação para reduzir o acesso da China aos chips mais avançados usados no desenvolvimento de IA.

Muito mais precisará ser feito para reduzir os maiores riscos — incluindo a avaliação contínua do cenário de governança de IA para avaliar o progresso geral.

Discutimos esse caminho de carreira com mais detalhes aqui:

Abordagens

Pessoas que trabalham na política de IA propuseram uma variedade de abordagens para reduzir o risco à medida que os sistemas de IA se tornam mais poderosos.

Não endossamos necessariamente todas as ideias abaixo, mas o que se segue é uma lista de algumas abordagens políticas proeminentes que podem ter como objetivo reduzir os maiores perigos da IA:[48]

  • Políticas de escalonamento responsável: algumas grandes empresas de IA já começaram a desenvolver estruturas internas para avaliar a segurança à medida que aumentam o tamanho e as capacidades de seus sistemas. Essas estruturas introduzem salvaguardas que se destinam a se tornar cada vez mais rigorosas à medida que os sistemas de IA se tornam mais potencialmente perigosos e garantem que as capacidades dos sistemas de IA não ultrapassem as capacidades das empresas de manter os sistemas seguros. Muitos argumentam que essas políticas internas não são suficientes para a segurança, mas podem representar um passo promissor para reduzir o risco. Você pode ver versões de tais políticas da Anthropic, Google DeepMind e OpenAI.
  • Padrões e avaliação: os governos também podem desenvolver benchmarks e protocolos de teste em todo o setor para avaliar se os sistemas de IA representam riscos importantes. A organização sem fins lucrativos METR e o UK AI Safety Institute estão entre as organizações que atualmente desenvolvem essas avaliações para testar modelos de IA antes e depois de serem lançados. Isso pode incluir a criação de métricas padronizadas para as capacidades de um sistema de IA e o potencial de causar danos, bem como a propensão à busca de poder ou desalinhamento.
  • Casos de segurança: essa prática envolve exigir que os desenvolvedores de IA forneçam documentação abrangente demonstrando a segurança e a confiabilidade de seus sistemas antes da implantação. Essa abordagem é semelhante aos casos de segurança usados em outros setores de alto risco, como aviação ou energia nuclear.[49] Você pode ver a discussão dessa ideia em um artigo de Clymer et al e em uma postagem de Geoffrey Irving no UK AI Safety Institute.
  • Padrões de segurança da informação: podemos estabelecer regras robustas para proteger dados, algoritmos e infraestrutura relacionados à IA de acesso ou manipulação não autorizados — particularmente os pesos do modelo de IA. A Rand lançou um relatório detalhado analisando os riscos de segurança para as principais empresas de IA, particularmente de atores estatais.
  • Lei de responsabilidade: a lei existente já impõe alguma responsabilidade às empresas que criam produtos perigosos ou causam danos significativos ao público, mas sua aplicação a modelos de IA e risco em particular não é clara. Esclarecer como a responsabilidade se aplica às empresas que criam modelos de IA perigosos pode incentivá-las a tomar medidas adicionais para reduzir o risco. O professor de direito Gabriel Weil escreveu sobre essa ideia.
  • Governança da computação: os governos podem regular o acesso e o uso de recursos de computação de alto desempenho necessários para treinar grandes modelos de IA. As restrições dos EUA à exportação de chips de última geração para a China são um exemplo de tal política, e outras são possíveis. As empresas também podem ser obrigadas a instalar recursos de segurança em nível de hardware diretamente em chips ou processadores de IA. Estes podem ser usados para rastrear chips e verificar se eles não estão na posse de ninguém que não deveria tê-los, ou para outros fins. Você pode aprender mais sobre este tópico em nossa entrevista com Lennart Heim e neste relatório do Center for a New American Security.
  • Coordenação internacional: Fomentar a cooperação global na governança de IA para garantir padrões consistentes. Isso pode envolver tratados, organizações internacionais ou acordos multilaterais sobre desenvolvimento e implantação de IA. Discutimos algumas considerações relacionadas em nosso artigo sobre caminhos de segurança e governança de IA relacionados à China.
  • Adaptação social: pode ser crucial preparar a sociedade para a ampla integração da IA e os riscos potenciais que ela representa. Por exemplo, podemos precisar desenvolver novas medidas de segurança da informação para proteger dados cruciais em um mundo com hackers habilitados para IA. Ou podemos querer implementar controles fortes para evitar a entrega de decisões sociais importantes aos sistemas de IA.[50]
  • Pausar o escalonamento, se apropriado: alguns argumentam que devemos atualmente pausar todo o escalonamento de modelos de IA maiores por causa dos perigos que a tecnologia representa. Apresentamos alguma discussão dessa ideia em nosso podcast, e parece difícil saber quando ou se essa seria uma boa ideia. Se realizada, pode envolver acordos em todo o setor ou mandatos regulatórios para pausar os esforços de escalonamento quando necessário.

Os detalhes, benefícios e desvantagens de muitas dessas ideias ainda precisam ser totalmente elaborados, por isso é crucial que façamos mais pesquisas. E esta lista não é abrangente — provavelmente há outras intervenções políticas importantes e estratégias de governança que valem a pena buscar.

Também precisamos de mais pesquisa de previsão sobre o que devemos esperar que aconteça com a IA, como o trabalho feito na Epoch AI.

6. Este trabalho é negligenciado

Em 2022, estimamos que havia cerca de 400 pessoas em todo o mundo trabalhando diretamente na redução das chances de uma catástrofe existencial relacionada à IA (com um intervalo de confiança de 90% variando entre 200 e 1.000). Destes, cerca de três quartos trabalhavam em pesquisa técnica de segurança de IA, com o restante dividido entre pesquisa de estratégia (e outra governança) e defesa de direitos.[5] Também estimamos que havia cerca de 800 pessoas trabalhando em funções complementares, mas estamos altamente incertos sobre esse número.[3]

Em The Precipice, Ord estimou que havia entre US$10 milhões e US$50 milhões gastos na redução do risco de IA em 2020.

Isso pode parecer muito dinheiro, mas estamos gastando algo como 1.000 vezes esse valor [4] para acelerar o desenvolvimento de IA transformadora por meio de pesquisa e engenharia de capacidades comerciais em grandes empresas de IA.

Para comparar os US$50 milhões gastos em segurança de IA em 2020 com outros riscos conhecidos, estamos atualmente gastando várias centenas de bilhões por ano no combate às mudanças climáticas.

Como este campo é tão negligenciado e tem apostas tão altas, acreditamos que seu impacto trabalhando em riscos da IA pode ser muito maior do que trabalhando em muitas outras áreas — é por isso que nossos dois caminhos de carreira mais recomendados para fazer uma grande diferença positiva no mundo são segurança técnica de IA e pesquisa e implementação de políticas de IA.

Quais consideramos serem os melhores argumentos contra este problema ser urgente?

Como dissemos acima, não temos certeza absoluta de que os argumentos que apresentamos para a IA representando uma ameaça existencial estão corretos. Embora ainda achemos que a chance de catástrofe da IA é alta o suficiente para justificar que muito mais pessoas sigam carreiras para tentar evitar tal resultado, também queremos ser honestos sobre os argumentos contra isso, para que você possa mais facilmente fazer sua própria avaliação sobre a questão.

Aqui, abordaremos as razões mais fortes (em nossa opinião) para pensar que esse problema não é particularmente urgente. Na próxima seção, abordaremos algumas objeções comuns que (em nossa opinião) se sustentam menos bem e explicaremos o porquê.

Podemos ter muito tempo para trabalhar neste problema

Quanto mais tempo tivermos antes que a IA transformadora seja desenvolvida, menos urgente é trabalhar agora em maneiras de garantir que isso corra bem. Isso ocorre porque o trabalho de outras pessoas no futuro pode ser muito melhor ou mais relevante do que o trabalho que podemos fazer agora.

Além disso, se levarmos muito tempo para criar IA transformadora, teremos mais tempo para descobrir como torná-la segura. O risco parece muito maior se os desenvolvedores de IA criarem IA transformadora nas próximas décadas.

Parece plausível que a primeira IA transformadora não seja baseada nos métodos atuais de aprendizado profundo. (A AI Impacts documentou argumentos de que os métodos atuais não serão capazes de produzir IA com inteligência de nível humano.) Isso pode significar que algumas de nossas pesquisas atuais podem não acabar sendo úteis (e também — dependendo de qual método acabar sendo usado — pode tornar os argumentos para o risco menos preocupantes).

Relacionado a isso, podemos esperar que o progresso no desenvolvimento da IA ocorra em rajadas. Anteriormente, o campo viu invernos de IA, períodos de tempo com investimento, interesse e pesquisa em IA significativamente reduzidos. Não está claro qual é a probabilidade de vermos outro inverno de IA — mas essa possibilidade deve alongar nossas estimativas sobre quanto tempo levará até que tenhamos desenvolvido a IA transformadora. Cotra escreve sobre a possibilidade de um inverno de IA na parte quatro de seu relatório de previsão da IA transformadora. Novas restrições na taxa de crescimento das capacidades de IA, como a disponibilidade de dados de treinamento, também podem significar que há mais tempo para trabalhar nisso (Cotra discute isso aqui.)

Em terceiro lugar, as estimativas sobre quando teremos IA transformadora de Cotra, Karnofsky e Davidson que vimos anteriormente foram produzidas por pessoas que já esperavam que trabalhar na prevenção de uma catástrofe relacionada à IA poderia ser um dos problemas mais urgentes do mundo. Como resultado, há um viés de seleção aqui: as pessoas que acham que a IA transformadora está chegando relativamente em breve também são as pessoas incentivadas a realizar investigações detalhadas. (Dito isso, se as investigações em si parecem fortes, esse efeito pode ser bastante pequeno.)

Finalmente, nenhuma das estimativas que discutimos anteriormente estava tentando prever quando uma catástrofe existencial poderia ocorrer. Em vez disso, eles estavam olhando para quando os sistemas de IA poderiam ser capazes de automatizar todas as tarefas que os humanos podem fazer, ou quando os sistemas de IA poderiam transformar significativamente a economia. Não é de forma alguma certo que os tipos de sistemas de IA que poderiam transformar a economia seriam os mesmos sistemas de planejamento avançados que são centrais para o argumento de que os sistemas de IA podem buscar o poder. Os sistemas de planejamento avançados parecem ser particularmente úteis, então há pelo menos alguma razão para pensar que esses podem ser os tipos de sistemas que acabam sendo construídos. Mas mesmo que os sistemas transformadores previstos sejam sistemas de planejamento avançados, não está claro quão capazes tais sistemas precisariam ser para representar uma ameaça — é mais do que plausível que os sistemas precisassem ser muito mais capazes para representar uma ameaça existencial substancial do que precisariam ser para transformar a economia. Isso significaria que todas as estimativas que consideramos acima seriam subestimativas de quanto tempo temos para trabalhar neste problema.

Dito tudo isso, pode ser extremamente difícil encontrar soluções técnicas para evitar comportamento de busca de poder — e se for esse o caso, focar em encontrar essas soluções agora parece extremamente valioso.

No geral, acreditamos que a IA transformadora é suficientemente provável nos próximos 10 a 80 anos para que valha a pena (em termos de valor esperado) trabalhar neste problema agora. Talvez as gerações futuras cuidem disso, e todo o trabalho que faríamos agora seria em vão — esperamos que sim! Mas pode não ser prudente correr esse risco.

A IA pode melhorar gradualmente ao longo do tempo

Se a melhor IA que temos melhorar gradualmente ao longo do tempo (em vez de as capacidades de IA permanecerem bastante baixas por um tempo e depois aumentarem repentinamente), é provável que acabemos com ‘tiros de advertência’: notaremos formas de comportamento desalinhado em sistemas bastante fracos e seremos capazes de corrigi-lo antes que seja tarde demais.

Em tal cenário gradual, teremos uma ideia melhor sobre qual forma a IA poderosa pode assumir (por exemplo, se será construída usando técnicas atuais de aprendizado profundo ou algo totalmente diferente), o que pode ajudar significativamente na pesquisa de segurança. Também haverá mais foco nesta questão pela sociedade como um todo, à medida que os riscos da IA se tornarem mais claros.

Portanto, se o desenvolvimento gradual da IA parece mais provável, o risco parece menor.

Mas não é de forma alguma certo que o desenvolvimento da IA será gradual, ou se for, gradual o suficiente para que o risco seja visivelmente menor. E mesmo que o desenvolvimento da IA seja gradual, ainda pode haver benefícios significativos em ter planos e soluções técnicas em vigor com bastante antecedência. Portanto, no geral, ainda acreditamos que é extremamente valioso tentar reduzir o risco agora.

Se você quiser saber mais, pode ler o trabalho da AI Impacts sobre argumentos a favor e contra o progresso descontínuo (ou seja, não gradual) no desenvolvimento da IA, e Toby Ord e Owen Cotton-Barratt sobre implicações estratégicas de diferentes velocidades de desenvolvimento da IA.

Podemos precisar resolver o alinhamento de qualquer maneira para tornar a IA útil

Fazer com que algo tenha objetivos alinhados com os objetivos finais dos projetistas humanos e tornar algo útil parecem problemas muito relacionados. Se assim for, talvez a necessidade de tornar a IA útil nos leve a produzir apenas IA alinhada — caso em que o problema de alinhamento provavelmente será resolvido por padrão.

Ben Garfinkel deu alguns exemplos disso em nosso podcast:

  • Você pode pensar em um termostato como uma IA muito simples que tenta manter uma sala a uma certa temperatura. O termostato tem uma tira de metal que se expande à medida que a sala aquece e corta a corrente quando uma certa temperatura é atingida. Esta peça de metal faz com que o termostato aja como se tivesse o objetivo de manter a sala a uma certa temperatura, mas também o torna capaz de atingir esse objetivo (e, portanto, de ser realmente útil).
  • Imagine que você está construindo um robô de limpeza com técnicas de aprendizado por reforço — ou seja, você fornece alguma condição específica sob a qual você dá ao robô feedback positivo. Você pode dizer algo como: “Quanto menos poeira na casa, mais positivo será o feedback”. Mas se você fizer isso, o robô acabará fazendo coisas que você não quer — como rasgar uma almofada para encontrar poeira no interior. Provavelmente, em vez disso, você precisa usar técnicas como as que estão sendo desenvolvidas por pessoas que trabalham em segurança de IA (coisas como assistir a um humano limpar uma casa e deixar a IA descobrir as coisas a partir daí). Portanto, as pessoas que constroem IAs serão naturalmente incentivadas a também tentar torná-las alinhadas (e, portanto, em certo sentido, seguras), para que possam fazer seu trabalho.

Se precisarmos resolver o problema de alinhamento de qualquer maneira para tornar os sistemas de IA úteis, isso reduz significativamente as chances de termos sistemas de IA desalinhados, mas ainda superficialmente úteis. Portanto, o incentivo para implantar uma IA desalinhada seria muito menor, reduzindo o risco para a sociedade.

Dito isso, ainda há razões para se preocupar. Por exemplo, parece que ainda poderíamos ser suscetíveis a problemas de engano de IA.

E, como argumentamos, o alinhamento de IA é apenas parte do problema geral. Resolver o problema de alinhamento não é a mesma coisa que eliminar completamente o risco existencial da IA, uma vez que a IA alinhada também pode ser usada para fins ruins — como por governos autoritários.

O problema pode ser extremamente difícil de resolver

Como acontece com muitos projetos de pesquisa em seus estágios iniciais, não sabemos o quanto é difícil resolver o problema de alinhamento — ou outros problemas de IA que representam riscos. Alguém pode acreditar que existem grandes riscos da inteligência de máquina, mas ser pessimista sobre o que pesquisas adicionais ou trabalho político realizarão e, portanto, decidir não se concentrar nisso.

Esta é definitivamente uma razão para potencialmente trabalhar em outra questão — a solucionabilidade de uma questão é uma parte fundamental de como tentamos comparar problemas globais. Por exemplo, também estamos muito preocupados com os riscos de pandemias, e pode ser muito mais fácil resolver esse problema.

Dito isso, acreditamos que, dadas as apostas, pode fazer sentido para muitas pessoas trabalhar na redução do risco de IA, mesmo que você ache que a chance de sucesso é baixa. Você teria que pensar que é extremamente difícil reduzir os riscos da IA para concluir que é melhor deixar os riscos se materializarem e a chance de catástrofe acontecer.

Pelo menos em nosso próprio caso no 80.000 Hours, queremos continuar tentando ajudar com a segurança da IA — por exemplo, escrevendo perfis como este — mesmo que a chance de sucesso pareça baixa (embora, na verdade, estamos bastante otimistas no geral).

Podemos estar superestimando as chances de que sistemas estratégicos de IA busquem poder

Há algumas razões para pensar que o argumento central de que qualquer sistema avançado de planejamento estrategicamente consciente, por padrão, buscará o poder (que demos aqui) não está totalmente correto. [51]

  1. Para começar, o argumento de que os sistemas avançados de IA buscarão o poder se baseia na ideia de que os sistemas produzirão planos para atingir objetivos. Não temos certeza do que isso significa — e, como resultado, não temos certeza de quais propriedades são realmente necessárias para que o comportamento de busca de poder ocorra e se as coisas que construiremos terão essas propriedades.
    Gostaríamos de ver uma análise mais aprofundada de quais aspectos do planejamento são economicamente incentivados e se esses aspectos parecem ser suficientes para que o argumento para o comportamento de busca de poder funcione.
    Grace escreveu mais sobre a ambiguidade em torno de “quanta orientação para objetivos é necessária para causar um desastre”.
  2. É possível que apenas alguns objetivos que os sistemas de IA possam ter levariam à busca desalinhada de poder.
    Richard Ngo, em sua análise do que as pessoas querem dizer com “objetivos”, aponta que você só obterá comportamento de busca de poder se tiver objetivos que signifiquem que o sistema pode realmente se beneficiar da busca de poder. Ngo sugere que esses objetivos precisam ser “em larga escala”. (Alguns argumentaram que, por padrão, devemos esperar que os sistemas de IA tenham objetivos de “curto prazo” que não levarão ao comportamento de busca de poder.)
    Mas se um sistema de IA planejaria tomar o poder depende de quanto seria fácil para o sistema tomar o poder, porque quanto mais fácil for para um sistema tomar o poder, mais provável será que os planos de busca de poder sejam bem-sucedidos — então um bom sistema de planejamento teria maior probabilidade de escolhê-los. Isso sugere que será mais fácil criar acidentalmente um sistema de IA em busca de poder à medida que as capacidades dos sistemas aumentam.
    Portanto, ainda parece haver motivos para maior preocupação, porque as capacidades dos sistemas de IA parecem estar aumentando rapidamente. Há duas considerações aqui: se poucos objetivos realmente levarem à busca de poder, mesmo para sistemas de IA bastante capazes, isso reduz significativamente o risco e, portanto, a importância do problema. Mas também pode aumentar a solucionabilidade do problema, demonstrando que as soluções podem ser fáceis de encontrar (por exemplo, a solução pode ser nunca dar aos sistemas objetivos de “larga escala”) — tornando essa questão mais valiosa para as pessoas trabalharem.
  3. Anteriormente, argumentamos que podemos esperar que os sistemas de IA façam coisas que parecem instrumentalmente úteis no geral para seu objetivo global e que, como resultado, pode ser difícil impedir que os sistemas de IA façam essas coisas instrumentalmente úteis.
    Mas podemos encontrar exemplos em que o quanto essas coisas seriam instrumentalmente úteis  não parece afetar a dificuldade de evitá-las. Considere um carro autônomo que só pode se mover se seu motor estiver ligado. Para muitos objetivos possíveis (exceto, digamos, ligar o rádio do carro), parece que seria útil para o carro poder se mover, então devemos esperar que o carro ligue seu motor. Mas, apesar disso, ainda podemos treinar o carro para manter seu motor desligado: por exemplo, podemos dar a ele algum feedback negativo sempre que ele ligar o motor, mesmo que também tenhamos dado ao carro alguns outros objetivos. Agora imagine que melhoramos o carro para que sua velocidade máxima seja maior — isso aumenta massivamente o número de sequências de ação possíveis que envolvem, como um primeiro passo, ligar seu motor. Em certo sentido, isso parece aumentar a utilidade instrumental de ligar o motor — há mais ações possíveis que o carro pode realizar quando seu motor está ligado porque a gama de velocidades possíveis em que ele pode viajar é maior. (Não está claro se esse sentido de “utilidade instrumental” é o mesmo do argumento para o risco, embora pareça um tanto relacionado.) Mas não parece que esse aumento na utilidade instrumental de ligar o motor torne muito mais difícil impedir que o carro o ligue. Exemplos simples como este lançam alguma dúvida sobre a ideia de que só porque uma determinada ação é instrumentalmente útil, não seremos capazes de encontrar maneiras de evitá-la. (Para mais informações sobre este exemplo, veja a página 25 da revisão de Garfinkel do relatório de Carlsmith.)
  4. Os humanos são claramente altamente inteligentes, mas não está claro se somos otimizadores de objetivos perfeitos. Por exemplo, os humanos frequentemente enfrentam algum tipo de angústia existencial sobre quais são seus verdadeiros objetivos. E mesmo que aceitemos os humanos como um exemplo de um agente estrategicamente consciente capaz de planejar, os humanos certamente nem sempre buscam o poder. Obviamente, nos preocupamos em ter o básico como comida e abrigo, e muitas pessoas se esforçam muito por mais dinheiro, status, educação ou mesmo poder formal. Mas alguns humanos optam por não perseguir esses objetivos, e persegui-los não parece se correlacionar com a inteligência.
    No entanto, isso não significa que o argumento de que haverá um incentivo para buscar o poder esteja errado. A maioria das pessoas enfrenta e age com base em incentivos para obter formas de influência por meio de riqueza, status, promoções e assim por diante. E podemos explicar a observação de que os humanos geralmente não buscam quantidades enormes de poder observando que geralmente não estamos em circunstâncias que façam o esforço valer a pena.
    Por exemplo, a maioria das pessoas não tenta iniciar empresas de bilhões de dólares — você provavelmente não terá sucesso e isso lhe custará muito tempo e esforço.
    Mas você ainda atravessaria a rua para pegar um cheque de um bilhão de dólares.

A ausência de busca extrema de poder em muitos humanos, juntamente com incertezas sobre o que realmente significa planejar para atingir objetivos, sugere que o argumento que demos acima de que sistemas avançados de IA buscarão o poder, pode não estar completamente correto. E eles também sugerem que, se houver realmente um problema a ser resolvido aqui, em princípio, a pesquisa de alinhamento na prevenção da busca de poder em IAs pode ter sucesso.

Esta é uma boa notícia! Mas, no momento — sem esperança de estarmos errados sobre a existência do problema — não sabemos realmente como evitar esse comportamento de busca de poder.

Argumentos contra trabalhar no risco da IA para os quais acreditamos haver respostas contundentes

Acabamos de discutir as principais objeções ao trabalho sobre o risco da IA que acreditamos serem mais persuasivas. Nesta seção, veremos as objeções que acreditamos serem  menos persuasivas e daremos algumas razões para isso.

É mesmo possível produzir inteligência artificial geral?

As pessoas vêm dizendo desde a década de 1950 que a inteligência artificial mais inteligente que os humanos está logo ali.

Mas isso ainda não aconteceu.

Uma razão para isso pode ser que isso nunca acontecerá. Alguns argumentaram que produzir inteligência artificial geral é fundamentalmente impossível. Outros acham que é possível, mas improvável que realmente aconteça, especialmente não com os métodos atuais de aprendizado profundo.

No geral, acreditamos que a existência da inteligência humana mostra que é possível, em princípio, criar inteligência artificial. E a velocidade dos avanços atuais não é algo que acreditamos que teria sido previsto por aqueles que pensavam que nunca desenvolveríamos uma IA poderosa e geral.

Mas o mais importante é que a ideia de que você precisa de sistemas de IA totalmente gerais e inteligentes para que haja um risco existencial substancial é um equívoco comum.

O argumento que demos anteriormente baseava-se em sistemas de IA sendo tão bons ou melhores que os humanos em um subconjunto de áreas: planejamento, consciência estratégica e áreas relacionadas a buscar e manter o poder. Portanto, contanto que você pense que todas essas coisas são possíveis, o risco permanece.

E mesmo que nenhuma IA tenha todas essas propriedades, ainda há maneiras pelas quais podemos acabar com sistemas de IAs ‘restritos’ que, juntos, podem desempoderar a humanidade. Por exemplo, podemos ter uma IA de planejamento que desenvolve planos para uma empresa, um sistema de IA separado que mede coisas sobre a empresa, outro sistema de IA que tenta avaliar os planos da primeira IA prevendo quanto lucro cada um gerará e outros sistemas de IA que executam esses planos (por exemplo, automatizando a construção e operação de fábricas). Considerado em conjunto, este sistema como um todo tem a capacidade de formar e executar planos para atingir algum objetivo, e potencialmente também tem capacidades avançadas em áreas que o ajudam a buscar o poder.

Parece que será mais fácil evitar que esses sistemas de IA ‘restritos’ busquem o poder. Isso pode acontecer se as habilidades que as IAs têm, mesmo quando combinadas, não forem suficientes para planejar atingir objetivos, ou se a restrição reduzir o risco de os sistemas desenvolverem planos de busca de poder (por exemplo, se você construir sistemas que só podem produzir planos de curtíssimo prazo). Também parece que isso dá outro ponto de fraqueza para os humanos intervirem se necessário: a coordenação dos diferentes sistemas.

No entanto, o risco permanece, mesmo de sistemas com muitas IAs interagindo.

Por que não podemos simplesmente desconectar uma IA perigosa?

Pode ser muito, muito difícil.

Impedir que pessoas e computadores executem software já é incrivelmente difícil.

Pense em como seria difícil desligar os serviços da web do Google. Os data centers do Google têm milhões de servidores em 34 locais diferentes, muitos dos quais estão executando os mesmos conjuntos de código. E esses data centers são absolutamente cruciais para os resultados do Google, então, mesmo que o Google pudesse decidir fechar todos os seus negócios, provavelmente não o faria.

Ou pense em como é difícil se livrar de vírus de computador que se espalham autonomamente entre computadores em todo o mundo.

Em última análise, acreditamos que qualquer sistema de IA perigoso em busca de poder estará procurando maneiras de não ser desligado, o que torna mais provável que estejamos em uma dessas situações, em vez de em um caso em que podemos simplesmente desconectar uma única máquina.

Dito isso, devemos absolutamente tentar moldar o futuro da IA de forma que possamos ‘desconectar’ sistemas de IA poderosos.

Pode haver maneiras de desenvolvermos sistemas que nos permitam desligá-los. Mas, no momento, não temos certeza de como fazer isso.

Garantir que podemos desligar sistemas de IA potencialmente perigosos pode ser uma medida de segurança desenvolvida pela pesquisa técnica de segurança de IA, ou pode ser o resultado de uma governança cuidadosa da IA, como planejar esforços coordenados para parar o programa autônomo depois que ele estiver em execução.

Não poderíamos simplesmente ‘isolar’ qualquer sistema de IA potencialmente perigoso até sabermos que é seguro?

Poderíamos (e deveríamos!) definitivamente tentar.

Se pudéssemos ‘isolar’ com sucesso uma IA avançada — ou seja, contê-la em um ambiente de treinamento sem acesso ao mundo real até que estivéssemos muito confiantes de que não causaria danos — isso ajudaria tremendamente nossos esforços para mitigar os riscos da IA.

Mas há algumas coisas que podem tornar isso difícil.

Para começar, podemos precisar apenas de uma falha — como uma pessoa para remover o sandbox, ou uma vulnerabilidade de segurança no sandbox que não percebemos — para que o sistema de IA comece a afetar o mundo real.

Além disso, essa solução não é escalável com os recursos do sistema de IA. Isso porque:

  • Sistemas mais capazes são mais propensos a encontrar vulnerabilidades ou outras maneiras de deixar o sandbox (por exemplo, ameaçando ou coagindo humanos).
  • Sistemas que são bons em planejamento podem tentar nos enganar para implantá-los.

Portanto, quanto mais perigoso for o sistema de IA, menos provável será que o sandboxing seja possível. Isso é o oposto do que gostaríamos de uma boa solução para o risco.

Certamente um sistema de IA verdadeiramente inteligente saberia que não deve desempoderar todos?

Para algumas definições de “verdadeiramente inteligente” — por exemplo, se a verdadeira inteligência inclui uma profunda compreensão da moralidade e um desejo de ser moral — este provavelmente seria o caso.

Mas se essa é sua definição de verdadeiramente inteligente, então não são sistemas verdadeiramente inteligentes que representam um risco. Como argumentamos anteriormente, são sistemas avançados que podem planejar e ter consciência estratégica que representam riscos para a humanidade.

Com consciência estratégica suficientemente avançada, a excelente compreensão do mundo de um sistema de IA pode muito bem abranger uma excelente compreensão das crenças morais das pessoas. Mas isso não é uma razão forte para pensar que tal sistema agiria moralmente.

Por exemplo, quando aprendemos sobre outras culturas ou sistemas morais, isso não necessariamente cria um desejo de seguir sua moralidade. Um estudioso do Antebellum South pode ter uma compreensão muito boa de como os proprietários de escravos do século 19 se justificavam como morais, mas seria muito improvável que defendesse a escravidão.

Sistemas de IA com excelente compreensão da moralidade humana podem ser ainda mais perigosos do que IAs sem essa compreensão: o sistema de IA pode agir moralmente a princípio como uma forma de nos enganar a pensar que é seguro.

Será que o verdadeiro perigo não está na IA atual, e não em alguma superinteligência do futuro?

Definitivamente, existem perigos da inteligência artificial atual.

Por exemplo, os dados usados para treinar redes neurais geralmente contêm vieses ocultos. Isso significa que os sistemas de IA podem aprender esses vieses — e isso pode levar a comportamentos racistas e sexistas.

Existem outros perigos também. Nossa discussão anterior sobre guerra nuclear explica uma ameaça que não exige que os sistemas de IA tenham capacidades particularmente avançadas.

Mas não acreditamos que o fato de também haver riscos dos sistemas atuais seja uma razão para não priorizar a redução de ameaças existenciais da IA, se forem suficientemente graves.

Como discutimos, os sistemas futuros — não necessariamente superinteligência ou inteligência totalmente geral, mas sistemas avançados em suas capacidades de planejamento e busca de poder — parecem que podem representar ameaças à existência de toda a humanidade. E também parece um tanto provável que produziremos tais sistemas neste século.

Além do mais, muita pesquisa técnica de segurança de IA também é relevante para resolver problemas com os sistemas de IA existentes. Por exemplo, algumas pesquisas se concentram em garantir que os modelos de ML façam o que queremos que eles façam, e ainda farão isso à medida que seu tamanho e capacidades aumentam; outras pesquisas tentam descobrir como e por que os modelos existentes estão tomando as decisões e tomando as ações que tomam.

Como resultado, pelo menos no caso da pesquisa técnica, a escolha entre trabalhar nas ameaças atuais e nos riscos futuros pode parecer mais uma escolha entre apenas garantir que os modelos atuais sejam seguros, ou encontrar maneiras de garantir que os modelos atuais sejam seguros, que também continuarão a funcionar à medida que os sistemas de IA se tornam mais complexos e mais inteligentes.

Em última análise, temos tempo limitado em nossas carreiras, então escolher em qual problema trabalhar pode ser uma grande forma de aumentar seu impacto. Quando existem ameaças tão substanciais, parece razoável que muitas pessoas se concentrem em abordar essas piores possibilidades.

Mas a IA também não pode fazer muito bem?

Sim, pode.

Os sistemas de IA já estão melhorando a saúde, colocando veículos autônomos nas estradas e automatizando tarefas domésticas.

E se formos capazes de automatizar os avanços na ciência e na tecnologia, poderemos ver um progresso econômico e científico verdadeiramente incrível. A IA provavelmente pode ajudar a resolver muitos dos problemas mais urgentes do mundo.

Mas, só porque algo pode fazer muito bem, isso não significa que também não possa fazer muito mal. A IA é um exemplo de tecnologia de dupla utilização — uma tecnologia que pode ser usada para fins perigosos e benéficos. Por exemplo, os pesquisadores conseguiram fazer com que um modelo de IA que foi treinado para desenvolver medicamentos médicos gerasse projetos para armas biológicas.

Estamos animados e esperançosos em ver grandes benefícios da IA. Mas também queremos trabalhar muito para minimizar os enormes riscos que os sistemas avançados de IA representam.

Por que não devo descartar isso como raciocínio motivado por um grupo de pessoas que simplesmente gostam de brincar com computadores e querem pensar que isso é importante?

É indubitavelmente verdade que algumas pessoas são atraídas a pensar em segurança de IA porque gostam de computadores e ficção científica — como em qualquer outra questão, há pessoas trabalhando nisso não porque acham que é importante, mas porque acham que é legal.

Mas, para muitas pessoas, trabalhar em segurança de IA vem com grande relutância.

Para mim, e para muitos de nós no 80.000 Hours, gastar nosso tempo e recursos limitados trabalhando em qualquer causa que afete o futuro a longo prazo — e, portanto, não gastar esse tempo nos terríveis problemas do mundo de hoje — é uma coisa incrivelmente difícil emocionalmente de fazer.

Mas investigamos gradualmente esses argumentos (no decorrer da tentativa de descobrir como podemos fazer o maior bem) e, com o tempo, ganhamos mais experiência sobre IA e ficamos mais preocupados com o risco.

Acreditamos que o ceticismo é saudável e estamos longe de ter certeza de que esses argumentos funcionam completamente. Portanto, embora essa suspeita seja definitivamente um motivo para investigarmos um pouco mais, esperamos que, em última análise, essa preocupação não seja tratada como um motivo para despriorizar o que pode muito bem ser o problema mais importante do nosso tempo.

Tudo isso parece ficção científica

Que algo soe como ficção científica não é uma razão em si para descartá-lo completamente. Há muitos exemplos de coisas mencionadas pela primeira vez na ficção científica que depois realmente aconteceram (esta lista de invenções na ficção científica contém muitos exemplos).

Há até alguns casos envolvendo tecnologia que são ameaças existenciais reais hoje:

  • Em seu romance de 1914, The World Set Free, H. G. Wells previu a energia atômica alimentando explosivos poderosos — 20 anos antes de percebermos que poderia, em teoria, haver reações em cadeia de fissão nuclear, e 30 anos antes de as armas nucleares serem realmente produzidas. Nas décadas de 1920 e 1930, os físicos ganhadores do Prêmio Nobel Millikan, Rutherford e Einstein previram que nunca seríamos capazes de usar a energia nuclear. As armas nucleares eram literalmente ficção científica antes de serem realidade.
  • No filme de 1964 Dr. Strangelove, a URSS constrói uma máquina do juízo final que desencadearia automaticamente um evento nuclear de nível de extinção em resposta a um ataque nuclear, mas mantém isso em segredo. Dr. Strangelove aponta que mantê-lo em segredo reduz seu efeito de dissuasão. Mas agora sabemos que na década de 1980 a URSS construiu um sistema extremamente semelhante e o manteve em segredo.

Além disso, há acadêmicos e pesquisadores de ponta trabalhando na prevenção desses riscos da IA — no MIT, Cambridge, Oxford, UC Berkeley e em outros lugares. Duas das principais empresas de IA do mundo (DeepMind e OpenAI) têm equipes explicitamente dedicadas a trabalhar na segurança técnica da IA. Pesquisadores desses lugares nos ajudaram com este artigo.

É totalmente possível que todas essas pessoas estejam erradas em se preocupar, mas o fato de tantas pessoas levarem essa ameaça a sério enfraquece a ideia de que isso é apenas ficção científica.

É razoável, quando você ouve algo que soa como ficção científica, querer investigá-lo a fundo antes de agir de acordo. Mas tendo investigado, se os argumentos parecem sólidos, então simplesmente soar como ficção científica não é uma razão para descartá-los.

Pode fazer sentido dedicar minha carreira a resolver um problema com base em uma história especulativa sobre uma tecnologia que pode ou não existir?

Nunca sabemos com certeza o que vai acontecer no futuro. Então, infelizmente para nós, se estamos tentando ter um impacto positivo no mundo, isso significa que estamos sempre tendo que lidar com pelo menos algum grau de incerteza.

Também acreditamos que há uma distinção importante entre garantir que você alcançou alguma quantidade de bem e fazer o seu melhor. Para alcançar o primeiro, você não pode correr nenhum risco — e isso pode significar perder as melhores oportunidades de fazer o bem.

Quando você está lidando com incerteza, faz sentido pensar aproximadamente sobre o valor esperado de suas ações: a soma de todas as consequências potenciais boas e ruins de suas ações, ponderadas por suas probabilidades.

Dado que as apostas são tão altas, e os riscos da IA não são tão baixos, isso torna o valor esperado de ajudar com esse problema alto.

Somos solidários com a preocupação de que, se você trabalhar em segurança de IA, pode acabar não fazendo muito, quando poderia ter feito uma tremenda quantidade de bem trabalhando em outra coisa — simplesmente porque o problema e nossas ideias atuais sobre o que fazer a respeito são tão incertos.

Mas acreditamos que o mundo ficará melhor se decidirmos que alguns de nós devem trabalhar para resolver esse problema, para que juntos tenhamos a melhor chance de navegar com sucesso na transição para um mundo com IA avançada, em vez de arriscar uma crise existencial.

E parece uma coisa imensamente valiosa de se tentar.

Isso é uma forma de assalto de Pascal — fazer uma grande aposta em probabilidades minúsculas?

O assalto de Pascal é um experimento de pensamento — uma variação da famosa aposta de Pascal — onde alguém que toma decisões usando cálculos de valor esperado pode ser explorado por alegações de que pode obter algo extraordinariamente bom (ou evitar algo extraordinariamente ruim), com uma probabilidade extremamente baixa de sucesso.

A história é a seguinte: um assaltante aleatório para você na rua e diz: “Dê-me sua carteira ou eu lançarei um feitiço de tortura em você e em todos que já viveram.” Você não pode descartar com 100% de probabilidade que ele não o fará — afinal, nada é 100% certo. E torturar todos que já viveram é tão ruim que certamente até mesmo evitar uma probabilidade minúscula disso vale os US$40 em sua carteira? Mas, intuitivamente, parece que você não deveria dar sua carteira a alguém só porque ele o ameaça com algo completamente implausível.

Analogamente, você pode se preocupar que trabalhar em segurança de IA significa dar seu tempo valioso para evitar uma pequena chance de catástrofe. Trabalhar na redução de riscos da IA não é gratuito — o custo de oportunidade é bastante substancial, pois significa que você renuncia a trabalhar em outras coisas extremamente importantes, como reduzir os riscos de pandemias ou acabar com a pecuária industrial.

O ponto é o seguinte: embora haja muito valor em jogo — talvez as vidas de todos os seres vivos hoje, e a totalidade do futuro da humanidade — não é o caso de que a probabilidade de que você possa fazer a diferença trabalhando na redução de riscos da IA seja pequena o suficiente para que este argumento se aplique.

Gostaríamos que a chance de uma catástrofe de IA fosse tão pequena assim.

Em vez disso, acreditamos que a probabilidade de tal catástrofe (eu acredito que cerca de 1% neste século) é muito, muito maior do que as coisas que as pessoas tentam evitar o tempo todo — como acidentes de avião fatais, que acontecem em 0,00002% dos voos.

O que realmente importa, porém, é até que ponto o seu trabalho pode reduzir a chance de uma catástrofe.

Vejamos o trabalho de redução de riscos da IA. Por exemplo, se:

  1. Há 1% de chance de uma catástrofe existencial relacionada à IA até 2100;
  2. Há 30% de chance de que possamos encontrar uma maneira de evitar isso por meio de pesquisa técnica.
  3. Cinco pessoas trabalhando em segurança técnica de IA aumentam as chances de resolver o problema em 1% desses 30% (ou seja, 0,3 ponto percentual).

Então, cada pessoa envolvida tem uma participação de 0,00006 ponto percentual na prevenção dessa catástrofe.

Outras maneiras de agir altruisticamente envolvem probabilidades de tamanho semelhante.

As chances de um voluntário de campanha influenciar uma eleição presidencial nos EUA estão entre 0,001% e 0,00001%. Mas você ainda pode justificar trabalhar em uma campanha por causa do grande impacto que você espera ter no mundo se seu candidato preferido vencesse.

Você tem chances ainda menores de sucesso audacioso em coisas como tentar reformar instituições políticas, ou trabalhar em alguma pesquisa científica muito fundamental para construir conhecimento que pode um dia ajudar a curar o câncer.

No geral, como sociedade, podemos ser capazes de reduzir a chance de uma catástrofe relacionada à IA de 10% (ou mais) para perto de zero — isso seria claramente vantajoso para um grupo de pessoas, então tem que ser vantajoso para os indivíduos também.

Não gostaríamos de simplesmente não fazer ciência fundamental porque cada pesquisador tem uma chance baixa de fazer a próxima grande descoberta, ou não fazer nenhuma manutenção da paz porque qualquer pessoa tem uma chance baixa de impedir a Terceira Guerra Mundial. Como sociedade, precisamos de algumas pessoas trabalhando nessas grandes questões — e talvez você possa ser uma delas.

O que você pode fazer concretamente para ajudar

Como mencionamos acima, conhecemos duas maneiras principais de ajudar a reduzir os riscos existenciais da IA:

  1. Pesquisa técnica de segurança de IA
  2. Trabalho de governança e política de IA

A maior maneira de ajudar seria seguir uma carreira em uma dessas áreas, ou em uma área de apoio.

O primeiro passo é aprender muito mais sobre as tecnologias, problemas e possíveis soluções. Reunimos algumas listas de nossos recursos favoritos aqui, e nossa principal recomendação é dar uma olhada no currículo de alinhamento técnico da AGI Safety Fundamentals.

Segurança técnica de IA

Se você estiver interessado em uma carreira em segurança técnica de IA, o melhor lugar para começar é visitar a nossa avaliação da carreira de pesquisador em segurança de IA.

Se você quiser saber mais sobre segurança técnica de IA como um campo de pesquisa — por exemplo, as diferentes técnicas, escolas de pensamento e modelos de ameaças — nossa principal recomendação é dar uma olhada no currículo de alinhamento técnico da AGI Safety Fundamentals.

É importante notar que você não precisa ser um acadêmico ou um especialista em IA ou segurança de IA para contribuir com a pesquisa de segurança de IA. Por exemplo, engenheiros de software são necessários em muitos lugares que realizam pesquisas técnicas de segurança, e também destacamos mais funções abaixo.

Você pode ver uma lista de organizações-chave onde você pode fazer esse tipo de trabalho na revisão completa da carreira.

Trabalho de governança e política de IA

Se você estiver interessado em uma carreira em governança e política de IA, o melhor lugar para começar é nossa revisão de carreira em governança e política de IA.

Você não precisa ser um burocrata de terno cinza para ter uma carreira em governança e política de IA — há funções adequadas para uma ampla gama de conjuntos de competências. Em particular, pessoas com habilidades técnicas em aprendizado de máquina e áreas relacionadas são necessárias para o trabalho de governança (embora essas habilidades certamente não sejam necessárias).

Dividimos esse caminho de carreira em seis tipos diferentes de funções:

  1. Cargos governamentais
  2. Pesquisa
  3. Trabalho na indústria
  4. Advocacia e lobby
  5. Auditoria e avaliação de terceiros
  6. Trabalho e coordenação internacional

Também temos artigos específicos sobre trabalhar na política de IA dos EUA e caminhos de segurança e governança de IA relacionados à China.

E você pode aprender mais sobre onde especificamente você pode trabalhar neste caminho de carreira em nossa revisão de carreira.

Se você é novo no assunto e está interessado em aprender mais amplamente sobre governança de IA, nossa principal recomendação é dar uma olhada no currículo de governança da AGI safety fundamentals.

Funções complementares (mas cruciais)

Mesmo em uma organização de pesquisa, cerca de metade da equipe estará fazendo outras tarefas essenciais para que a organização tenha o melhor desempenho e para que tenha um impacto. Ter pessoas de alto desempenho nessas funções é crucial.

Acreditamos que a importância dessas funções é frequentemente subestimada porque o trabalho é menos visível. Por isso, escrevemos várias análises de carreira sobre essas áreas para ajudar mais pessoas a entrar nessas carreiras e ter sucesso, incluindo:

Outras maneiras de ajudar

A segurança da IA é um grande problema e precisa da ajuda de pessoas que fazem muitos tipos diferentes de trabalho.

Uma maneira importante de ajudar é trabalhar em uma função que direcione financiamento ou pessoas para o risco da IA, em vez de trabalhar diretamente no problema. Analisamos alguns caminhos de carreira nesse sentido, incluindo:

Existem maneiras de que tudo isso possa dar errado, então o primeiro passo é se informar bem sobre o assunto.

Também existem outras funções técnicas além da pesquisa de segurança que podem ajudar a contribuir, como:

Você pode ler sobre todas essas carreiras — por que acreditamos que elas são úteis, como entrar nelas e como você pode prever se elas são adequadas para você — em nossa página de análises de carreira.

Deseja uma orientação individualizada sobre como seguir esse caminho? 

Acreditamos que os riscos apresentados pelo desenvolvimento da IA podem ser o problema mais urgente que o mundo enfrenta atualmente. Se você acha que pode se adequar a qualquer um dos caminhos de carreira acima que contribuem para a solução desse problema, ficaríamos especialmente felizes em aconselhá-lo individualmente sobre as próximas etapas. Podemos ajudá-lo a considerar suas opções, fazer conexões com outras pessoas que trabalham para reduzir os riscos da IA e, possivelmente, até mesmo ajudá-lo a encontrar empregos ou oportunidades de financiamento – tudo gratuitamente. Este processo é coordenado pelo 80.000 Hours e oferecido em inglês. Inscreva-se aqui.

Encontre vagas em nosso quadro de empregos 

No quadro de vagas criado pelo 80.00 Hours você pode encontrar oportunidades internacionais relacionadas à segurança técnica e governança de IA.

Quadro de vagas 80.000 Hours

Principais recursos para aprender mais

Já apresentamos muitos materiais de leitura adicionais ao longo deste artigo — aqui estão alguns dos nossos favoritos:

Sem contramedidas específicas, o caminho mais fácil para a IA transformadora provavelmente leva à tomada de controle da IA, também de Cotra, fornece uma descrição muito mais detalhada de como os riscos podem se manifestar (o que recomendamos para pessoas familiarizadas com ML).

No The 80,000 Hours Podcast, temos uma série de entrevistas aprofundadas com pessoas que trabalham ativamente para moldar positivamente o desenvolvimento da inteligência artificial:

Se você quiser se aprofundar muito mais, o curso fundamentos de segurança de AGI é um bom ponto de partida. Há duas trilhas para escolher: alinhamento técnico ou governança de IA. Se você tiver uma formação mais técnica, pode experimentar Intro to ML Safety, um curso do Center for AI Safety.

E, finalmente, aqui estão algumas fontes gerais (em vez de artigos específicos) que você pode querer explorar:

  • O AI Alignment Forum, que é voltado para pesquisadores que trabalham em segurança técnica de IA.
  • AI Impacts, um projeto que visa melhorar a compreensão da sociedade sobre os prováveis impactos da inteligência artificial de nível humano.
  • O Alignment Newsletter, uma publicação semanal com conteúdo recente relevante para o alinhamento de IA com milhares de assinantes.
  • Import AI, um boletim informativo semanal sobre inteligência artificial de Jack Clark (cofundador da Anthropic), lido por mais de 10.000 especialistas.
  • ChinAI Newsletter de Jeff Ding, traduções semanais de escritos de pensadores chineses sobre o cenário de IA da China.

Agradecimentos

Um enorme obrigado a Joel Becker, Tamay Besiroglu, Jungwon Byun, Joseph Carlsmith, Jesse Clifton, Emery Cooper, Ajeya Cotra, Andrew Critch, Anthony DiGiovanni, Noemi Dreksler, Ben Edelman, Lukas Finnveden, Emily Frizell, Ben Garfinkel, Katja Grace, Lewis Hammond, Jacob Hilton, Samuel Hilton, Michelle Hutchinson, Caroline Jeanmaire, Kuhan Jeyapragasan, Arden Koehler, Daniel Kokotajlo, Victoria Krakovna, Alex Lawsen, Howie Lempel, Eli Lifland, Katy Moore, Luke Muehlhauser, Neel Nanda, Linh Chi Nguyen, Luisa Rodriguez, Caspar Oesterheld, Ethan Perez, Charlie Rogers-Smith, Jack Ryan, Rohin Shah, Buck Shlegeris, Marlene Staib, Andreas Stuhlmüller, Luke Stebbing, Nate Thomas, Benjamin Todd, Stefan Torges, Michael Townsend, Chris van Merwijk, Hjalmar Wijk e Mark Xu por revisar este artigo ou por seus comentários e conversas extremamente ponderados e úteis. (Isso não quer dizer que todos concordariam com tudo o que dissemos aqui — na verdade, tivemos muitas divergências animadas nos comentários sobre este artigo!)

Notas e referências

  1. O que queremos dizer com ‘inteligência’ neste contexto? Algo como “a capacidade de influenciar previsivelmente o futuro”. Isso envolve entender o mundo bem o suficiente para fazer planos que possam realmente funcionar, e a capacidade de executar esses planos. Os humanos terem a capacidade de influenciar previsivelmente o futuro significa que eles foram capazes de moldar o mundo ao seu redor para se adequar aos seus objetivos e desejos. Entramos em mais detalhes sobre a importância da capacidade de fazer e executar planos mais adiante neste artigo.
  1. Também estou preocupado com a possibilidade de que os sistemas de IA possam merecer consideração moral por si mesmos — por exemplo, porque são sencientes. Não vou discutir essa possibilidade neste artigo; em vez disso, cobrimos a senciência artificial em um artigo separado aqui.
  2. É difícil estimar esse número.
    Idealmente, queremos estimar o número de FTE (“equivalente a tempo integral”) trabalhando no problema de redução de riscos existenciais da IA.
    Mas há muitas ambiguidades em torno do que conta como trabalhar na questão. Então, tentei usar as seguintes diretrizes em minhas estimativas:
    • Eu não incluí pessoas que poderiam se considerar em um caminho de carreira que está se construindo em direção a um papel de prevenção de uma catástrofe relacionada à IA, mas que estão atualmente se capacitando em vez de estar trabalhando diretamente no problema.
    • Incluí pesquisadores, engenheiros e outros funcionários que parecem trabalhar diretamente na pesquisa técnica de segurança de IA ou na estratégia e governança de IA. Mas há uma fronteira incerta entre essas pessoas e outras que optei por não incluir. Por exemplo, não incluí engenheiros de aprendizado de máquina cuja função é construir sistemas de IA que podem ser usados para pesquisa de segurança, mas não são originalmente projetados para esse fim.
    • Incluí apenas o tempo gasto em trabalhos que parecem relacionados à redução dos riscos potencialmente existenciais da IA, como os discutidos neste artigo. Muito do trabalho mais amplo de segurança de IA e ética de IA se concentra na redução de outros riscos da IA que parecem relevantes para a redução de riscos existenciais – esse trabalho ‘indireto’ torna essa estimativa difícil. Decidi não incluir o trabalho indireto na redução dos riscos de uma catástrofe relacionada à IA (veja nosso quadro de problemas para mais informações).
    • Relacionado a isso, não incluí pessoas trabalhando em outros problemas que podem afetar indiretamente as chances de uma catástrofe relacionada à IA, como epistêmicos e melhoria da tomada de decisão institucional, reduzindo as chances de conflito entre grandes potências, ou construindo o altruísmo eficaz.

Com essas decisões tomadas, estimei isso de três maneiras diferentes.

Primeiro, para cada organização no banco de dados AI Watch, estimei o número de FTE trabalhando diretamente na redução de riscos existenciais da IA. Fiz isso observando o número de funcionários listados em cada organização, tanto no total quanto em 2022, bem como o número de pesquisadores listados em cada organização. No geral, estimei que havia de 76 a 536 FTE trabalhando em segurança técnica de IA (confiança de 90%), com uma média de 196 FTE. Estimei que havia de 51 a 359 FTE trabalhando em governança e estratégia de IA (confiança de 90%), com uma média de 151 FTE. Há muito julgamento subjetivo nessas estimativas por causa das ambiguidades acima. As estimativas podem ser muito baixas se o AI Watch estiver deixando de incluir dados sobre algumas organizações, ou muito altas se os dados contarem as pessoas mais de uma vez ou incluírem pessoas que não trabalham mais na área.

Em segundo lugar, adaptei a metodologia usada pela estimativa de Gavin Leech do número de pessoas trabalhando na redução de riscos existenciais da IA. Dividi as organizações na estimativa de Leech em segurança técnica e governança/estratégia. Adaptei os números de Gavin para a proporção de trabalho acadêmico em ciência da computação relevante para o tópico para se adequar às minhas definições acima, e fiz uma estimativa relacionada para o trabalho fora da ciência da computação, mas dentro do meio acadêmico, que é relevante. No geral, estimei que havia de 125 a 1.848 FTE trabalhando em segurança técnica de IA (confiança de 90%), com uma média de 580 FTE. Estimei que havia de 48 a 268 FTE trabalhando em governança e estratégia de IA (confiança de 90%), com uma média de 100 FTE.

Em terceiro lugar, observei as estimativas de números semelhantes de Stephen McAleese. Fiz pequenas alterações na categorização de organizações de McAleese, para garantir que os números fossem consistentes com as duas estimativas anteriores. No geral, estimei que havia de 110 a 552 FTE trabalhando em segurança técnica de IA (confiança de 90%), com uma média de 267 FTE. Estimei que havia de 36 a 193 FTE trabalhando em governança e estratégia de IA (confiança de 90%), com uma média de 81 FTE.

Tomei uma média geométrica das três estimativas para formar uma estimativa final e combinei os intervalos de confiança assumindo que as distribuições eram aproximadamente lognormais.

Finalmente, estimei o número de FTE em funções complementares usando o banco de dados AI Watch. Para as organizações relevantes, identifiquei aquelas em que havia dados suficientes listados sobre o número de pesquisadores nessas organizações. Calculei a proporção entre o número de pesquisadores em 2022 e o número de funcionários em 2022, conforme registrado no banco de dados. Calculei a média dessas proporções e um intervalo de confiança usando o desvio padrão. Usei essa proporção para calcular o número total de pessoal de apoio, assumindo que as estimativas do número de funcionários são distribuídas log-normalmente e que a estimativa dessa proporção é normalmente distribuída. No geral, estimei que havia de 2 a 2.357 FTE em funções complementares (confiança de 90%), com uma média de 770 FTE.

Provavelmente há muitos erros nesta metodologia, mas espero que esses erros sejam pequenos em comparação com a incerteza nos dados subjacentes que estou usando. Em última análise, ainda estou muito incerto sobre o FTE geral trabalhando na prevenção de uma catástrofe relacionada à IA, mas estou confiante o suficiente de que o número é relativamente pequeno para dizer que o problema como um todo é altamente negligenciado.
Estou muito incerto sobre esta estimativa. Ela envolveu uma série de julgamentos altamente subjetivos. Você pode ver a planilha (muito aproximada) que usei aqui. Se você tiver algum feedback, eu realmente apreciaria se você pudesse me dizer o que você pensa usando este formulário.

  1. É difícil dizer exatamente quanto está sendo gasto para avançar as capacidades de IA. Isso ocorre em parte devido à falta de dados disponíveis e, em parte, devido a questões como:
    • Qual pesquisa em IA está realmente avançando os tipos de capacidades perigosas que podem estar aumentando o risco existencial potencial?
    • Os avanços no hardware de IA ou os avanços na coleta de dados contam?
    • E as melhorias mais amplas nos processos de pesquisa em geral, ou coisas que podem aumentar o investimento no futuro por meio da produção de crescimento econômico?

O número mais relevante que pudemos encontrar foram as despesas da DeepMind de 2020, que foram de cerca de £ 1 bilhão, de acordo com seu relatório anual. Esperaríamos que a maior parte disso estivesse contribuindo para “avançar as capacidades de IA” em algum sentido, já que seu principal objetivo é construir sistemas de IA poderosos e gerais. (Embora seja importante notar que a DeepMind também está contribuindo para o trabalho em segurança de IA, o que pode estar reduzindo o risco existencial.)
Se a DeepMind representa cerca de 10% dos gastos com o avanço das capacidades de IA, isso nos dá um número de cerca de £ 10 bilhões. (Dado que existem muitas empresas de IA nos EUA e um grande esforço para produzir IA avançada na China, acreditamos que 10% pode ser uma boa estimativa geral.)
Como um limite superior, as receitas totais do setor de IA em 2021 foram de cerca de US$ 340 bilhões.
Então, no geral, acreditamos que o valor gasto para avançar as capacidades de IA está entre US$1 bilhão e US$340 bilhões por ano. Mesmo assumindo um valor tão baixo quanto US$ 1 bilhão, isso ainda seria cerca de 100 vezes o valor gasto na redução dos riscos da IA.

  1. Observe que, antes de 19 de dezembro de 2022, esta página dava uma estimativa mais baixa de 300 FTE trabalhando na redução de riscos existenciais da IA, dos quais cerca de dois terços trabalhavam em pesquisa técnica de segurança de IA, com o restante dividido entre pesquisa de estratégia (e outra governança) e defesa de direitos.
    Essa mudança representa uma estimativa (esperamos!) melhorada, em vez de uma mudança notável no número de pesquisadores.
  2. É difícil saber como lidar com essa falta de pesquisa — podemos ficar menos preocupados porque essa é a evidência de que os pesquisadores optaram por não se concentrar nesse risco (e, portanto, supondo que eles tenham maior probabilidade de se concentrar em grandes riscos, que o risco é menor), ou podemos ficar mais preocupados porque o risco parece mais negligenciado no geral.


Ben Garfinkel — um pesquisador do Centre for the Governance of AI — apontou que a preocupação entre a comunidade de risco existencial sobre diferentes riscos está um tanto correlacionada com a dificuldade de analisar esses riscos. Ele continua dizendo:

De forma alguma se conclui que a comunidade é irracional ao se preocupar muito mais com a IA desalinhada do que com outros riscos potenciais. É completamente coerente ter algo como esta atitude: “Se eu pudesse pensar mais claramente sobre o risco da IA desalinhada, provavelmente perceberia que não é tão importante. Mas, na prática, ainda não consigo pensar muito claramente sobre isso. Isso significa que, ao contrário do caso das mudanças climáticas, também não posso descartar a pequena possibilidade de que a clareza me deixe muito mais preocupado com isso do que estou atualmente. Então, no geral, devo me sentir mais preocupado com a IA desalinhada do que com outros riscos. Devo concentrar meus esforços nisso, mesmo que — para observadores pouco caridosos — meus esforços provavelmente pareçam um pouco equivocados depois do fato.

Para mais informações, leia a postagem de Garfinkel aqui.

  1. Uma pesquisa de 2020 perguntou aos pesquisadores que trabalham na redução de riscos existenciais da IA sobre quais riscos eles estavam mais preocupados. Os pesquisadores perguntaram sobre cinco fontes de risco existencial:
    • Riscos de IA superinteligente (semelhante ao cenário que descrevemos aqui)
    • Riscos de comportamento de busca de influência
    • Riscos de sistemas de IA buscando metas fáceis de medir (semelhante ao cenário que descrevemos aqui)
    • Guerra exacerbada pela IA
    • Outro uso indevido intencional de IA não relacionado à guerra

Aproximadamente, os pesquisadores pesquisados estavam igualmente preocupados com todos esses riscos. Os três primeiros são abordados pela seção deste artigo sobre riscos da IA em busca de poder, enquanto os dois últimos são abordados pela seção sobre outros riscos. Se esses agrupamentos fizerem sentido (o que acreditamos que fazem), isso significa que é aproximadamente o caso de que, na época da pesquisa, os pesquisadores estavam três vezes mais preocupados com o amplo risco de IA em busca de poder do que com os riscos de guerra ou outros usos indevidos separadamente.

  1. As quatro pesquisas foram:

Todas as quatro pesquisas contataram pesquisadores que publicaram nas conferências NeurIPS e ICML.

Grace et al. (2024) contataram pesquisadores que publicaram na NeurIPS, IMCL ou em quatro outros locais de IA importantes (ICLR, AAAI, JMLR e IJCAI). Foi distribuído a 18.459 pesquisadores, recebendo 2.778 respostas (uma taxa de resposta de 15%).

Grace et al. (2022) contataram 4.271 pesquisadores que publicaram nas conferências de 2021 (todos os pesquisadores foram alocados aleatoriamente para a pesquisa de Stein-Perlman et al. ou uma segunda pesquisa conduzida por outros) e receberam 738 respostas (uma taxa de resposta de 17%).

Zhang et al. (2022) contataram todos os 2.652 pesquisadores que publicaram nas conferências de 2018 e receberam 524 respostas (uma taxa de resposta de 20%), embora devido a um erro técnico apenas 296 respostas pudessem ser usadas.
Grace et al. (2018) contataram todos os 1.634 pesquisadores que publicaram nas conferências de 2015 e receberam 352 respostas (uma taxa de resposta de 21%).

  1. Katja Grace, que conduziu as pesquisas de 2016, 2022 e 2023, observa em seu blog que o enquadramento das perguntas muda visivelmente as respostas dadas:

As pessoas consistentemente dão previsões posteriores se você perguntar a elas a probabilidade em N anos em vez do ano em que a probabilidade é M. Vimos isso na pergunta direta sobre HLMI (Inteligência de Máquina de Alto Nível), e na maioria das tarefas e ocupações, e também na maioria dessas coisas quando as testamos em pessoas do mturk anteriormente. Para HLMI, por exemplo, se você perguntar quando haverá 50% de chance de HLMI, obterá uma resposta mediana de 40 anos, mas se você perguntar qual é a probabilidade de HLMI em 40 anos, obterá uma resposta mediana de 30%.
Nossa entrevista com Katja entra em mais detalhes sobre as possíveis limitações da pesquisa de 2016.

  1. Por “o pesquisador mediano achou que as chances eram x%,” queremos dizer “mais da metade dos pesquisadores achou que as chances eram maiores ou iguais a x%.”
  2. Nas pesquisas de Grace et al., os pesquisadores foram questionados sobre “inteligência de máquina de alto nível” (HLMI). Isso foi definido como:

Quando as máquinas sem auxílio podem realizar todas as tarefas melhor e mais barato do que os trabalhadores humanos. Ignore os aspectos das tarefas para as quais ser humano é intrinsecamente vantajoso, por exemplo, ser aceito como membro do júri. Pense em viabilidade, não em adoção.

Na pesquisa de Zhang et al., os pesquisadores foram questionados sobre “inteligência de máquina de nível humano” (HLMI), definida como:

A inteligência de máquina de nível humano (HLMI) é alcançada quando as máquinas são coletivamente capazes de executar quase todas as tarefas (>90% de todas as tarefas) que são economicamente relevantes* melhor do que o humano mediano pago para fazer essa tarefa em 2019. Você deve ignorar as tarefas que são legalmente ou culturalmente restritas a humanos, como servir em um júri. Definimos essas tarefas como todas aquelas incluídas no conjunto de dados da Rede de Informações Ocupacionais (ONET). O*NET é um conjunto de dados amplamente utilizado de tarefas necessárias para as ocupações atuais.

Eles foram então questionados:

Suponha, para o propósito desta pergunta, que a HLMI existirá em algum momento. O quanto positivo ou negativo você espera que o impacto geral disso seja para a humanidade, a longo prazo?

Por favor, responda dizendo o quanto provável você acha os seguintes tipos de impacto, com probabilidades somando 100%:

  •  Extremamente bom (por exemplo, rápido crescimento no florescimento humano) (2)
  •  Em geral bom (1)
  • Mais ou menos neutro (0)
  • Em geral ruim (-1)
  • Extremamente ruim (por exemplo, extinção humana) (-2)

Para cada pesquisa, uma função de densidade cumulativa agregada da probabilidade de HLMI por ano derivada de estimativas médias ou medianas na pesquisa foi calculada. Essas funções deram várias chances agregadas de HLMI:

  • 50% até 2047 (Grace et al. (2024), estimativas médias)
  • 50% até 2059 (Grace et al. (2022), estimativas médias)
  • 65% até 2080 (Zhang et al. (2022), estimativas médias)
  • 75% até 2080 (Zhang et al. (2022), estimativas medianas)

Isso significa que as respostas que citamos são semelhantes, mas não iguais, às respostas à pergunta “Sem assumir que a HLMI existirá no próximo século, o quanto positivo ou negativo você espera que o impacto geral da HLMI seja para a humanidade no próximo século?” Analisamos mais previsões de especialistas sobre cronogramas de IA na seção sobre quando podemos esperar desenvolver IA transformadora.

12. Especificamente, Grace et al. (2022) perguntaram aos participantes:

Que probabilidade você atribui aos avanços futuros da IA causarem a extinção humana ou um desempoderamento permanente e severo da espécie humana?

Isso é equivalente à definição de catástrofe existencial que geralmente usamos, e também é semelhante à definição de catástrofe existencial dada por Ord em The Precipice (O Precipício) (2020):

Uma catástrofe existencial é a destruição do potencial de longo prazo da humanidade.

Ord categoriza os riscos existenciais como riscos de extinção ou riscos de continuação fracassada (Ord dá o exemplo de um regime totalitário estável. Acreditamos que o desempoderamento permanente e severo da espécie humana seria uma forma de continuação fracassada sob a definição de Ord.

Stein-Perlman et al. em seguida, perguntaram aos participantes especificamente sobre os tipos de riscos com os quais estamos mais preocupados:

Que probabilidade você atribui à incapacidade humana de controlar futuros sistemas avançados de IA causando a extinção humana ou um desempoderamento permanente e severo da espécie humana?

A resposta mediana a esta pergunta foi de 10%.

Stein-Perlman observa:

Esta pergunta é mais específica e, portanto, necessariamente menos provável do que a pergunta anterior, mas recebeu uma probabilidade maior na mediana. Isso pode ser devido ao ruído — diferentes subconjuntos aleatórios de respondentes receberam as perguntas, então não há requisito lógico de que suas respostas sejam coerentes — ou devido à heurística de representatividade.

13. A equipe de segurança da DeepMind e a equipe de alinhamento da OpenAI se concentram na pesquisa técnica de segurança de IA, algumas das quais mitigariam os riscos discutidos neste artigo. Falamos com pesquisadores de ambas as equipes que nos disseram que acreditam que a inteligência artificial representa o risco existencial mais significativo para a humanidade neste século, e que suas pesquisas tentam reduzir esse risco. No mesmo sentido:

  • Em 2011, Shane Legg, cofundador e cientista-chefe da DeepMind, disse que a IA é seu risco [existencial] “número 1 para este século, com um patógeno biológico projetado em segundo lugar”.
  • Sam Altman, cofundador e CEO da OpenAI, às vezes expressou preocupações, embora pareça ser muito otimista sobre os impactos da IA em geral. Por exemplo, em sua entrevista de 2021 com Ezra Klein, ele foi questionado sobre os sistemas de incentivo em torno da construção de IA. Ele disse que acha que os sistemas atuais abordam muitos problemas, mas “o que resta que eu estou — para todo o campo, não apenas para nós — mais preocupado é realmente mais perto dos sistemas superpoderosos como aqueles que as pessoas falam sobre criar um risco existencial para a humanidade.”
  • Entrevistamos alguns dos principais pesquisadores dessas organizações no The 80,000 Hours Podcast, incluindo Dario Amodei, ex-vice-presidente de pesquisa da OpenAI (ele agora é cofundador e CEO da Anthropic, outro laboratório de IA), Jan Leike, ex-cientista pesquisador da DeepMind (ele agora é líder da equipe de Alinhamento na OpenAI), Jack Clarke, Amanda Askell e Miles Brundage na equipe de política da OpenAI (Clarke agora é cofundador da Anthropic, Askell é membro da equipe técnica da Anthropic e Brundage é chefe de pesquisa de políticas da OpenAI). Todos expressaram preocupação com as consequências da IA para o futuro da humanidade.

14. Acadêmicos de todos esses grupos de pesquisa estão incluídos na lista de professores que dizem estar trabalhando em segurança de IA porque acreditam que esse trabalho reduzirá o risco existencial. Esta lista é mantida pelo Future of Life Institute. A lista inclui acadêmicos dessas e de outras universidades.

15. O modelo do DALL-E 1 usou uma versão de 12 bilhões de parâmetros do GPT-3, enquanto o DALL-E mini usa apenas 0,4 bilhão. Curiosamente, apesar dos melhores resultados, o DALL-E 2 era menor que o DALL-E 1, usando um modelo de 3,5 bilhões de parâmetros.

16. O AI Digest compara modelos de ponta e acompanha o progresso contínuo da tecnologia.

17. Os economistas chamam as tecnologias que afetam a totalidade de uma economia de tecnologias de propósito geral. Estamos efetivamente afirmando aqui que a IA pode ser uma tecnologia de propósito geral (como, por exemplo, a energia a vapor ou a eletricidade).

     Nem sempre é fácil dizer o que pode se tornar uma tecnologia de propósito geral. Por exemplo, levou 200 anos para a energia a vapor ser usada para qualquer coisa além de bombear água para fora de minas.

Apesar dessa incerteza, os economistas pensam cada vez mais que a IA é uma candidata bastante promissora para uma tecnologia de propósito geral, porque terá uma grande variedade de efeitos.

Parece provável que muitos empregos possam ser automatizados. A capacidade da IA de acelerar a taxa de desenvolvimento de novas tecnologias pode ter implicações significativas para nossa economia, mas também representa riscos ao potencialmente permitir o desenvolvimento de novas tecnologias perigosas.

Os efeitos da IA na economia podem exacerbar a desigualdade. Os proprietários de indústrias movidas a IA podem se tornar muito mais ricos do que o resto da sociedade — veja, por exemplo, Artificial Intelligence and Its Implications for Income Distribution and Unemployment por Korinek e Stiglitz (2017):

A desigualdade é um dos principais desafios colocados pela proliferação da inteligência artificial (IA) e outras formas de progresso tecnológico que substituem os trabalhadores. Este artigo fornece uma taxonomia das questões econômicas associadas: Primeiro, discutimos as condições gerais sob as quais novas tecnologias como a IA podem levar a uma melhoria de Pareto. Em segundo lugar, delineamos os dois principais canais pelos quais a desigualdade é afetada – o excedente decorrente dos inovadores e as redistribuições decorrentes das mudanças nos preços dos fatores. Terceiro, fornecemos vários modelos econômicos simples para descrever como a política pode neutralizar esses efeitos, mesmo no caso de uma “singularidade” em que as máquinas passam a dominar o trabalho humano. Sob condições plausíveis, a tributação não distorcida pode ser cobrada para compensar aqueles que, de outra forma, poderiam perder. Em quarto lugar, descrevemos os dois principais canais pelos quais o progresso tecnológico pode levar ao desemprego tecnológico – por meio de efeitos salariais de eficiência e como um fenômeno de transição. Por fim, especulamos sobre como as tecnologias para criar níveis sobre-humanos de inteligência podem afetar a desigualdade e sobre como salvar a humanidade do destino malthusiano que pode resultar.

Os sistemas de IA já estão tendo impactos discriminatórios em grupos marginalizados. Por exemplo, Sweeney (2013) descobriu que dois mecanismos de busca exibem desproporcionalmente anúncios de registros de prisões quando as pessoas pesquisam nomes racialmente associados. E Ali et al. (2019), sobre publicidade no Facebook:

Foi levantada a hipótese de que esse processo pode “distorcer” a entrega de anúncios de maneiras que os anunciantes não pretendem, tornando alguns usuários menos propensos do que outros a ver anúncios específicos com base em suas características demográficas. Neste artigo, demonstramos que essa entrega distorcida ocorre no Facebook, devido a efeitos de otimização financeira e de mercado, bem como às previsões da própria plataforma sobre a “relevância” dos anúncios para diferentes grupos de usuários. Descobrimos que tanto o orçamento do anunciante quanto o conteúdo do anúncio contribuem significativamente para a distorção da entrega de anúncios do Facebook. Criticamente, observamos uma distorção significativa na entrega ao longo das linhas de gênero e raça para anúncios “reais” de oportunidades de emprego e moradia, apesar dos parâmetros de segmentação neutros.


Já somos capazes de produzir armas autônomas simples e, à medida que essas armas se tornam mais complexas, elas vão mudar completamente a forma como a guerra se parece. Como argumentaremos mais adiante, a IA pode até mesmo impactar a forma como as armas nucleares são usadas.

Finalmente, politicamente, muitos levantaram preocupações de que algoritmos automatizados de mídia social estão impulsionando a polarização política. E alguns especialistas alertaram que uma maior capacidade de gerar vídeos e fotos realistas, ou automatizar campanhas para influenciar as opiniões das pessoas, poderia ter um impacto significativo na política nos próximos anos.

Economistas notáveis que defendem a visão de que a IA provavelmente será uma tecnologia de propósito geral incluem Manuel Trajtenberg e Erik Brynjolfsson.

Em Artificial Intelligence as the Next GPT: A Political-Economy Perspective (Inteligência Artificial como o Próximo GPT: Uma Perspectiva de Economia Política) (2019), Trajtenberg escreve:

Dado que a IA está prestes a emergir como uma força tecnológica poderosa, discuto maneiras de mitigar a perturbação quase inevitável resultante e aumentar o vasto potencial benigno da IA. Isso é particularmente importante nos tempos atuais, em vista de considerações político-econômicas que estiveram em grande parte ausentes em episódios históricos anteriores associados à chegada de novos GPTs.


Em Artificial Intelligence and the Modern Productivity Paradox: A Clash of Expectations and Statistics (Inteligência Artificial e o Paradoxo da Produtividade Moderna: Um Choque de Expectativas e Estatísticas) (2018), Brynjolfsson escreve:
Por mais importantes que as aplicações específicas da IA possam ser, argumentamos que os efeitos econômicos mais importantes da IA, aprendizado de máquina e novas tecnologias associadas decorrem do fato de que elas incorporam as características das tecnologias de propósito geral (GPTs). 

18. Existem algumas definições diferentes usadas nesta seção para “IA transformadora”, mas acreditamos que as diferenças não são muito importantes quando se trata de interpretar previsões de progresso da IA. As definições são:

  • Karnofsky (2021) usa “IA poderosa o suficiente para nos levar a um futuro novo e qualitativamente diferente”. (Ou como ele colocou em 2016, “a grosso modo e conceitualmente, IA transformadora é a IA que precipita uma transição comparável (ou mais significativa do que) a revolução agrícola ou industrial”).
  • Cotra (2020) usa uma definição semelhante. Além disso, Cotra escreve: “Qual o tamanho de um impacto ‘tão profundo quanto a Revolução Industrial’? A grosso modo, ao longo da Revolução Industrial, a taxa de crescimento do produto mundial bruto (PMB) passou de cerca de ~0,1% ao ano antes de 1700 para ~1% ao ano após 1850, uma aceleração de dez vezes. Por analogia, penso em ‘IA transformadora’ como um programa que causa uma aceleração de dez vezes na taxa de crescimento da economia mundial (assumindo que seja usado em todos os lugares que seria economicamente lucrativo usá-lo)”.
  • Davidson (2021) prevê cronogramas para “inteligência artificial geral (IAG)” em vez de IA transformadora. Ele define IAG como “programa(s) de computador que pode(m) executar virtualmente qualquer tarefa cognitiva tão bem quanto qualquer humano, por não mais dinheiro do que custaria para um humano fazê-lo”. Notavelmente, isso parece suficiente (mas não necessário) para alcançar os tipos de mudanças econômicas rápidas implicadas pelas duas definições anteriores.

19. Estas são semelhantes às previsões implícitas das outras pesquisas:

20. É importante ressaltar que Cotra observa que:

Espero que esses números também sejam bastante voláteis e (como fiz ao escrever sobre âncoras biológicas), acho bastante complicado e estressante decidir como ponderar várias perspectivas e considerações. Eu não ficaria surpresa com movimentos significativos… Não tenho certeza de quanto é relevante para a decisão oscilar dentro do intervalo em que tenho oscilado.

21. Essas propriedades vêm do rascunho do relatório de Carlsmith sobre riscos existenciais da IA, Seção 2.1: Três propriedades-chave.

22. DeepMind, os desenvolvedores do MuZero, escreve:


Por muitos anos, os pesquisadores buscaram métodos que pudessem aprender um modelo que explicasse seu ambiente e, em seguida, usar esse modelo para planejar o melhor curso de ação. Até agora, a maioria das abordagens tem lutado para planejar efetivamente em domínios, como o Atari, onde as regras ou dinâmicas são tipicamente desconhecidas e complexas.

MuZero, introduzido pela primeira vez em um artigo preliminar em 2019, resolve esse problema aprendendo um modelo que se concentra apenas nos aspectos mais importantes do ambiente para planejamento. Ao combinar esse modelo com a poderosa busca em árvore lookahead do AlphaZero, o MuZero estabeleceu um novo resultado de ponta no benchmark do Atari, ao mesmo tempo em que igualou o desempenho do AlphaZero nos desafios clássicos de planejamento de Go, xadrez e shogi. Ao fazer isso, o MuZero demonstra um salto significativo nas capacidades dos algoritmos de aprendizado por reforço.

23. Por exemplo, Jaderberg et al. desenvolveram agentes de aprendizado por reforço profundo para jogar Quake III Capture The Flag — e identificaram “neurônios particulares que codificam diretamente alguns dos estados de jogo mais importantes, como um neurônio que é ativado quando a bandeira do agente é capturada” — indicando que eles podem identificar estados do jogo que eles mais valorizam (e então planejar e agir para alcançar esses estados). Isso soa bastante semelhante a “ter objetivos” para nós.

24. Isso não quer dizer que seja necessário que as IAs sejam capazes de planejar para que sejam úteis. Muitas coisas para as quais a IA poderia ser útil (como ilustrar livros ou escrever artigos) não parecem exigir planejamento ou consciência estratégica. Mas parece razoável dizer que uma IA que pudesse fazer e executar planos para um objetivo tem mais probabilidade de ter um impacto significativo no mundo do que uma que não pode.

25. Carlsmith na seção 3 apresenta duas outras razões pelas quais podemos esperar que esses tipos de sistemas de planejamento avançados e estrategicamente conscientes sejam construídos:

  • Pode ser mais fácil produzir esses tipos de sistemas. Por exemplo, a melhor maneira de automatizar muitas tarefas pode ser criar sistemas que possam aprender novas tarefas (em vez de automatizar separadamente cada tarefa). E talvez a melhor maneira de criar sistemas que possam aprender novas tarefas seja criar um sistema de planejamento que tenha um alto nível de compreensão de como o mundo em geral funciona e, em seguida, ajustar esse sistema em tarefas específicas.
  • Podemos descobrir que o planejamento é difícil de evitar à medida que criamos sistemas mais sofisticados. Por exemplo, alguns argumentaram que ser um excelente planejador (e ter as capacidades avançadas para realizar quaisquer planos criados) é a melhor maneira de realizar qualquer tarefa. Se isso for verdade, então, à medida que otimizamos nossos sistemas, devemos esperar que eles (uma vez que tenhamos otimizado o suficiente) se tornem bons em planejamento.

26. Existem várias definições de alinhamento usadas na literatura, que diferem sutilmente. Estas incluem:

  • Uma IA é alinhada se suas decisões maximizam a utilidade de algum principal (por exemplo, um operador ou usuário) (Shapiro & Shachter, 2002).
  • Uma IA é alinhada se age no interesse dos humanos (Soares & Fallenstein, 2015).
  • Uma IA é “alinhada por intenção” se está tentando fazer o que seu operador quer que ela faça (Christiano, 2018).
  • Uma IA é “alinhada por impacto” (com os humanos) se não tomar ações que julgaríamos ruins / problemáticas / perigosas / catastróficas, e “alinhada por intenção” se a política ótima para seu objetivo comportamental estiver alinhada por impacto com os humanos (Hubinger, 2020).
  • Uma IA é “alinhada por intenção” se está tentando fazer, ou “alinhada por impacto” se está conseguindo fazer o que uma pessoa ou instituição humana quer que ela faça (Critch, 2020).
  • Uma IA é “totalmente alinhada” se não se envolver em comportamento não intencional (especificamente, comportamento não intencional que surge em virtude de problemas com os objetivos do sistema) em resposta a quaisquer entradas compatíveis com as condições físicas básicas do nosso universo (Carlsmith, 2022).

O termo “alinhado” também é frequentemente usado para se referir aos objetivos de um sistema, no sentido de que os objetivos de uma IA são alinhados se eles produzirem as mesmas ações da IA que ocorreriam se a IA compartilhasse os objetivos de alguma outra entidade (por exemplo, seu usuário ou operador).

Usamos alinhamento aqui para nos referir a sistemas, em vez de objetivos. Nossa definição é mais semelhante às definições de alinhamento de “intenção” dadas por Christiano e Critch, e é semelhante à definição de alinhamento “total” dada por Carlsmith.

27. Acreditamos que é provável que seja muito difícil controlar os objetivos dos sistemas modernos de ML, por uma série de razões que abordaremos mais adiante. Isso tem duas implicações:

  1. É difícil garantir que os sistemas estejam tentando fazer o que queremos que eles façam, o que significa que é difícil tornar os sistemas alinhados.
  2. É difícil corrigir os sistemas quando pensamos que problemas com seus objetivos podem ter consequências particularmente ruins.

Como argumentaremos, acreditamos que problemas com os objetivos dos sistemas de IA podem ter consequências particularmente ruins.
Ajeya Cotra, pesquisadora da Open Philanthropy, escreveu sobre por que podemos esperar que o alinhamento da IA seja difícil com o aprendizado profundo moderno. Recomendamos esta postagem para pessoas novas em ML e esta para aqueles mais familiarizados com ML.

28. Ganhar poder ou influência forçada sobre os outros geralmente parece ruim, e vamos tomar isso como certo para o resto deste argumento. De fato, acreditamos que algumas formas de tirar o poder da humanidade poderiam até constituir uma catástrofe existencial, o que discutimos mais adiante. No entanto, devemos notar que isso não parece fundamentalmente verdadeiro para todos os casos em que as coisas ganham poder, porque em alguns casos o poder pode ser usado para produzir bons resultados (por exemplo, muitas vezes as pessoas que tentam fazer o bem no mundo tentarão ganhar eleições). Com os sistemas de IA, como argumentaremos, realmente não temos certeza de como garantir que esses resultados seriam bons.

29. Nos dois exemplos humanos dados nesta seção (políticos e empresas), os efeitos negativos do desalinhamento são um pouco atenuados. Isso ocorre por duas razões:

  1. Nem empresas nem políticos têm poder absoluto.
  2. Estamos falando de humanos, cujos verdadeiros incentivos são, na verdade, mais complexos (por exemplo, eles podem se importar em agir eticamente e não apenas em atingir seu objetivo especificado).

Como resultado, é difícil para um conjunto de políticos virar as coisas completamente de cabeça para baixo por votos, alguns políticos implementarão políticas impopulares que eles acham que melhorarão as coisas e algumas empresas farão coisas como doar uma parte de seus lucros para caridade.


(Claro, é discutível se as doações de caridade das empresas estão realmente prejudicando seus lucros, e se eles as fariam se estivessem — é possível que eles obtenham publicidade positiva suficiente com um trabalho como este que, na verdade, lhes dá dinheiro. Mas há definitivamente exemplos em que isso é muito mais difícil de argumentar. Por exemplo, alguns fazendeiros de carne e laticínios estão vendendo seus animais e se concentrando no cultivo de plantas devido a preocupações com o valor moral dos animais.)

Sistemas de IA desalinhados (especialmente aqueles com capacidades avançadas, fazendo coisas além de mover um braço robótico simulado) não terão necessariamente esses instintos humanos moderadores e podem ter muito mais poder.

30. Olhando para a animação, não parece plausível que o sistema realmente tenha enganado nenhum humano. Não temos certeza do que está acontecendo aqui (não é discutido no artigo original), mas uma possibilidade é que a animação esteja mostrando as tentativas do sistema implantado de agarrar a bola, em vez dos dados usados para treinar o sistema.

31. Esses argumentos são adaptados da seção 4.3 (“O desafio do alinhamento PS prático”) do relatório de Carlsmith sobre riscos existenciais da IA de busca de poder.

32. Veja a seção 4.3.1.2 (“Problemas com a busca”) do relatório de Carlsmith sobre riscos existenciais da IA de busca de poder.

33. Veja a seção 4.3.1.1 (“Problemas com proxies“) do relatório de Carlsmith sobre riscos existenciais da IA de busca de poder.

34. Que os sistemas de IA escolham desempoderar a humanidade (presumivelmente para nos impedir de interferir em seus planos) é evidência de que nós, se não tivéssemos sido desempoderados, teríamos escolhido interferir nos planos dos sistemas. Como resultado, esse desempoderamento é alguma evidência de que não gostaremos do futuro que esses sistemas criariam.

35. Para uma discussão mais completa dos incentivos para implantar IA potencialmente desalinhada, veja a seção 5 do rascunho do relatório de Carlsmith sobre riscos existenciais da IA.

36. Já temos alguma assistência automatizada à pesquisa (por exemplo, Elicit). Se os sistemas de IA substituírem alguns empregos ou acelerarem o crescimento econômico, veremos mais recursos podendo ser dedicados ao avanço científico. E se formos bem-sucedidos no desenvolvimento de sistemas de IA particularmente capazes, poderemos ver partes do processo científico sendo automatizadas completamente.

37. Especialistas na área de biotecnologia discordam sobre o quanto são plausíveis tais cenários. Para diferentes visões sobre esta e outras controvérsias em biossegurança, você pode ler um artigo que escrevemos compilando uma série de visões de especialistas sobre o assunto.

38. Urbina et al. (2022) desenvolveram uma prova computacional de que as tecnologias de IA existentes para descoberta de medicamentos poderiam ser mal utilizadas para projetar armas bioquímicas.
Veja também:
O’Brien and Nelson (2020):
Dentro do reino da biologia sintética, a IA poderia potencialmente diminuir algumas das barreiras para um ator malicioso projetar patógenos perigosos com características personalizadas.
Turchin and Denkenberger (2020), seção 3.2.3.

39. Para mais discussão sobre isso, veja: Sandbrink, Jonas B. “Artificial intelligence and biological misuse: Differentiating risks of language models and biological design tools.” arXiv preprint arXiv:2306.13952 (2023).

40. Esta é a mesma pesquisa que vimos anteriormente que perguntou sobre as chances gerais de extinção da IA e quando a IA transformadora pode ser desenvolvida.
Grace et al. (2024) perguntaram a 1.345 dos 2.778 entrevistados (pesquisadores que publicaram na NeurIPS, IMCL ou em outros quatro principais locais de IA) sobre cenários de IA potencialmente preocupantes. (Os participantes foram alocados aleatoriamente para perguntas sobre apenas um de vários tópicos para manter a pesquisa breve, com as perguntas sendo alocadas para mais participantes com base em fatores como a importância da pergunta e quão útil seria ter um tamanho de amostra grande.)
Eles foram questionados sobre os seguintes onze cenários:

  • Um sistema de IA poderoso tem seus objetivos mal definidos, causando uma catástrofe (por exemplo, desenvolve e usa armas poderosas).
  • A IA permite que grupos perigosos criem ferramentas poderosas (por exemplo, vírus projetados).
  • A IA torna mais fácil espalhar informações falsas, por exemplo, deepfakes.
  • Sistemas de IA manipulam tendências de opinião pública em larga escala.
  • Sistemas de IA com objetivos errados se tornam muito poderosos e reduzem o papel dos humanos na tomada de decisões.
  • Sistemas de IA pioram a desigualdade econômica ao beneficiar desproporcionalmente certas instituições.
  • Governantes autoritários usam IA para controlar sua população.
  • O viés em sistemas de IA piora situações injustas, por exemplo, sistemas de IA aprendem a discriminar por gênero ou raça em processos de contratação.
  • A automação quase total do trabalho deixa a maioria das pessoas economicamente impotentes.
  • A automação quase total do trabalho faz com que as pessoas lutem para encontrar significado em suas vidas.
  • As pessoas interagem menos com outros humanos porque estão passando mais tempo interagindo com sistemas de IA.

Para cada cenário, os participantes foram questionados se ele constituía “nenhuma preocupação”, “um pouco de preocupação”, “preocupação substancial” ou “preocupação extrema”.

Grace et al. descobriram:

Cada cenário foi considerado digno de preocupação substancial ou extrema por mais de 30% dos entrevistados. Conforme medido pela porcentagem de entrevistados que consideraram um cenário uma preocupação “substancial” ou “extrema”, os cenários mais preocupantes foram: disseminação de informações falsas, por exemplo, deepfakes (86%), manipulação de tendências de opinião pública em larga escala (79%), IA permitindo que grupos perigosos criem ferramentas poderosas (por exemplo, vírus projetados) (73%), governantes autoritários usando IA para controlar suas populações (73%) e sistemas de IA piorando a desigualdade econômica ao beneficiar desproporcionalmente certos indivíduos (71%).

Existe alguma ambiguidade sobre o motivo pelo qual um cenário pode ser considerado preocupante: pode ser considerado especialmente desastroso, ou especialmente provável, ou ambos. A partir de nossos resultados, não há como desambiguar essas considerações.

Nenhuma pergunta equivalente foi feita em pesquisas anteriores.

41. Para mais discussão sobre essa possibilidade, veja: Hendrycks, Dan, Mantas Mazeika e Thomas Woodside. “An overview of catastrophic AI risks.” arXiv preprint arXiv:2306.12001 (2023).

42. Para uma sugestão de como isso pode parecer, considere os temores que surgiram durante a construção do Grande Colisor de Hádrons.
Um grupo de pesquisadores se reuniu para explorar se as colisões de íons pesados poderiam produzir strangelets com carga negativa e buracos negros — potencialmente representando uma ameaça para todo o planeta. Eles concluíram que não havia “base para qualquer ameaça concebível” — mas é possível que eles pudessem ter descoberto o contrário, e é possível que futuros experimentos em física possam representar riscos extremos.

     Um exemplo relacionado é o risco considerado por pesquisadores em Los Alamos em 1942 de que o primeiro teste de arma nuclear pudesse incendiar toda a atmosfera da Terra em uma reação em cadeia imparável.

43. Armas autônomas letais já existem.
Para mais informações, veja:

44. Se os humanos saírem do circuito para algumas tomadas de decisão militar, poderemos ver uma escalada militar não intencional. E mesmo que os humanos permaneçam no circuito, poderemos ver uma tomada de decisão mais rápida e complexa, aumentando as chances de erros ou decisões de alto risco.
Para mais informações, veja:

45. Os revisores foram solicitados a criticar o relatório de Carlsmith e dar suas próprias estimativas do risco existencial da IA de busca de poder. As estimativas dadas de risco existencial da IA de busca de poder até 2070 foram: Aschenbrenner: 0,5%, Garfinkel: 0,4%, Kokotajlo: 65%, Nanda: 9%, Soares: >77%, Tarsney: 3,5%, Thorstad: 0,000002%, Wallace: 2%.

46. Cerca de 117 pesquisadores foram questionados:

Quão provável você acha que é que o valor geral do futuro seja drasticamente menor do que poderia ter sido, como resultado de sistemas de IA não fazendo / otimizando o que as pessoas que os implantam queriam / pretendiam?

Pesquisadores da OpenAI, do Future of Humanity Institute (Universidade de Oxford), do Center for Human-Compatible AI (UC Berkeley), do Machine Intelligence Research Institute, da Open Philanthropy e da DeepMind foram solicitados a preencher a pesquisa.

44 pessoas responderam (~38% de taxa de resposta).

A média das estimativas dadas foi de 40%.

47. Esta lista não é exaustiva. E provavelmente existem muitas outras abordagens políticas que valeriam a pena e seriam justificadas para seguir, mas que não seriam direcionadas para reduzir os maiores riscos.
Não as incluímos aqui, porque este artigo é sobre como prevenir riscos existenciais em particular. Mas também apoiamos políticas que reduziriam outros danos da IA e acreditamos que muitas das políticas da lista poderiam reduzir tanto os riscos existenciais quanto outros danos.

48. Veja, por exemplo: Bishop, P. G. & Bloomfield, R. E. (1998). A Methodology for Safety Case Development. In: Redmill, F. & Anderson, T. (Eds.), Industrial Perspectives of Safety-critical Systems: Proceedings of the Sixth Safety-critical Systems Symposium, Birmingham 1998. London, UK: Springer. ISBN 3540761896

49. Para mais informações, veja: Bernardi, Jamie, et al. “Societal Adaptation to Advanced AI.” arXiv preprint arXiv:2405.10295 (2024).

50. Essas objeções são adaptadas da seção 4.2 do rascunho do relatório de Carlsmith sobre riscos existenciais da IA.