Elon Musk lança Grok 1.5 Vision: o que é e pode competir com GPT-4, Gemini 1.5 Pro

O empreendimento de IA de Elon Musk, xAI, lançou recentemente uma versão atualizada de seu modelo Grok 1.5 – o Grok 1.5 Vision. Este novo modelo integra capacidades de visão computacional, permitindo interpretar conteúdos visuais e responder a questões sobre imagens. Este desenvolvimento ocorre logo após a OpenAI apresentar seu modelo GPT-4, que também possui recursos de visão computacional.

xAI anunciou esta atualização por meio de sua conta oficial X (anteriormente Twitter), compartilhando insights sobre as capacidades do modelo por meio de uma postagem no blog. Embora os principais recursos do Grok 1.5 permaneçam consistentes com esta versão atualizada, os recursos de visão adicionais prometem abrir novos horizontes na interação da IA ??com o mundo real.

Leia também: Apple dará um grande impulso à IA com a atualização do iOS 18: verifique quais recursos de IA seu iPhone pode obter

Pontuações de referência e desempenho

Os testes de benchmark foram conduzidos pela xAI, mostrando o desempenho do Grok 1.5 Vision em relação a várias métricas, incluindo o benchmark RealWorldQA proprietário da empresa. Este benchmark avalia a “compreensão espacial do mundo real” do modelo. Além disso, o modelo foi avaliado em outros testes como MMMU e ChartQA. Impressionantemente, no RealWorldQA, Grok superou o GPT-4 da OpenAI com Vision e o Gemini 1.5 Pro do Google, embora tenha ficado para trás em outros testes.

Leia também: OpenAI anuncia novo escritório em Tóquio e contrata ex-funcionário da Amazon para liderar o impulso de IA

Compreendendo a visão computacional

A visão computacional é um campo interessante da ciência da computação focado em permitir que computadores, incluindo modelos de IA, reconheçam e interpretem objetos do mundo real por meio de imagens e vídeos. Essencialmente, visa capacitar as máquinas com capacidades de visão semelhantes às humanas.

Várias empresas líderes de tecnologia estão investindo pesadamente no desenvolvimento de modelos de IA centrados na visão. O Gemini 1.5 Pro do Google e o GPT-4 com Vision da OpenAI são concorrentes notáveis ????neste espaço.

As aplicações potenciais da visão computacional são vastas e transformadoras. Por exemplo, Healthify, uma plataforma indiana para monitoramento de calorias e nutrição, integrou recentemente um recurso chamado ‘Snap’. Aqui, os usuários podem fotografar alimentos, e a IA sugere modificações mais saudáveis ??nas receitas e regimes de exercícios para compensar a ingestão de calorias. Além disso, a visão computacional é promissora para diagnósticos médicos, veículos autônomos e muito mais.

Mais uma coisa! Agora estamos nos canais do WhatsApp! Siga-nos lá para nunca perder nenhuma atualização do mundo da tecnologia. ?Para acompanhar o canal HT Tech no WhatsApp, clique aqui para aderir agora!

Patrocinado por Google

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Área Militar
Área Militarhttp://areamilitarof.com
Análises, documentários e geopolíticas destinados à educação e proliferação de informações de alta qualidade.
ARTIGOS RELACIONADOS