As ações dos EUA caíram acentuadamente na manhã de segunda-feira após um avanço surpreendente de uma empresa chinesa de inteligência artificial, a DeepSeek , que ameaçou a aura de invencibilidade que cerca a indústria de tecnologia dos Estados Unidos.
DeepSeek , uma startup de apenas um ano de existência, revelou uma capacidade impressionante na semana passada: apresentou um modelo de IA semelhante ao ChatGPT chamado R1, que tem todas as habilidades familiares, operando a uma fração do custo dos modelos de IA populares da OpenAI, Google ou Meta.
A empresa disse que gastou apenas US$ 5,6 milhões em poder de computação para seu modelo base, em comparação com as centenas de milhões ou bilhões de dólares que as empresas dos EUA gastam em suas tecnologias de IA.
Isso provocou uma onda de choque nos mercados, em particular no setor de tecnologia, na segunda-feira.
O S&P 500 caiu 1,4% e o Nasdaq, de alta tecnologia, caiu 2,3%. O Dow permaneceu inalterado. Os mercados estavam substancialmente mais baixos no início da sessão, mas os investidores podem ter julgado a liquidação um tanto exagerada.
O que é DeepSeek?
A empresa, fundada no final de 2023 pelo gestor de fundos de hedge chinês Liang Wenfeng, é uma das dezenas de startups que surgiram nos últimos anos em busca de grandes investimentos para surfar na enorme onda da IA que levou o setor de tecnologia a novos patamares.
Liang se tornou o Sam Altman da China – um evangelista da tecnologia de IA e investimento em novas pesquisas. Seu fundo de hedge, High-Flyer, foca no desenvolvimento de IA.
Assim como outras startups de IA, incluindo Anthropic e Perplexity, a DeepSeek lançou vários modelos competitivos de IA no ano passado que capturaram alguma atenção da indústria. Seu modelo V3 aumentou alguma conscientização sobre a empresa, embora suas restrições de conteúdo em torno de tópicos sensíveis sobre o governo chinês e sua liderança tenham gerado dúvidas sobre sua viabilidade como concorrente da indústria, relatou o Wall Street Journal .
Mas o R1, que surgiu do nada quando foi revelado no final do ano passado, foi lançado na semana passada e ganhou atenção significativa esta semana quando a empresa revelou ao Journal seu custo de operação chocantemente baixo. E é de código aberto, o que significa que outras empresas podem testar e desenvolver o modelo para melhorá-lo.
O aplicativo DeepSeek subiu nas paradas da app store, ultrapassando o ChatGPT na segunda-feira, e foi baixado quase 2 milhões de vezes.
O que é Modelo R1 ou Deep-Seek-R11?
DeepSeek-R1 é um modelo de raciocínio de código aberto desenvolvido pela DeepSeek, uma empresa chinesa de IA, para abordar tarefas que exigem inferência lógica, resolução de problemas matemáticos e tomada de decisão em tempo real.
O que diferencia modelos de raciocínio como DeepSeek-R1 e o o1 da OpenAI dos modelos de linguagem tradicionais é sua capacidade de mostrar como chegaram a uma conclusão.
Com o DeepSeek-R1, você pode seguir sua lógica, tornando-a mais fácil de entender e, se necessário, desafiar sua saída. Essa capacidade dá aos modelos de raciocínio uma vantagem em campos onde os resultados precisam ser explicáveis, como pesquisa ou tomada de decisão complexa.
O que torna o DeepSeek-R1 particularmente competitivo e atraente é sua natureza de código aberto. Diferentemente de modelos proprietários, sua natureza de código aberto permite que desenvolvedores e pesquisadores o explorem, modifiquem e implantem dentro de certos limites técnicos, como requisitos de recursos.
Por que o DeepSeek é tão importante?
A IA é uma tecnologia que consome muita energia e é cara — tanto que os líderes tecnológicos mais poderosos dos Estados Unidos estão comprando empresas de energia nuclear para fornecer a eletricidade necessária para seus modelos de IA.
A Meta disse na semana passada que gastaria mais de US$ 65 bilhões este ano no desenvolvimento de IA. Sam Altman, CEO da OpenAI, disse no ano passado que a indústria de IA precisaria de trilhões de dólares em investimentos para dar suporte ao desenvolvimento de chips de alta demanda necessários para alimentar os data centers famintos por eletricidade que executam os modelos complexos do setor.