O Google anunciou nesta quarta-feira (6/12), o Gemini, o novo modelo de Inteligência Artificial (IA) multimodalidade. A ferramenta, que chega como um dos grandes concorrentes do ChatGPT, tem como principal destaque a capacidade de trabalhar diferentes tipos de conteúdo, como: texto, imagens, vídeos, áudio e código ao mesmo tempo, e por enquanto está disponível somente em inglês.
“A IA tem o potencial de criar oportunidades, do cotidiano ao extraordinário para pessoas em todo o mundo. (O Gemini), trará novas ondas de inovação, e impulsionará o conhecimento, a aprendizagem, a criatividade e a produtividade numa escala nunca vista antes. É isso que me entusiasma: a oportunidade de tornar a IA útil para todos, em qualquer lugar do mundo”, disse o CEO do Google e da Alphabet, Sundar Pichai.
- WhatsApp cria recursos de senhas para proteger conversas; entenda
- Inteligência artificial vai ajudar a identificar violência contra LGBTQIAP+
Apresentado como a IA mais poderosa do Google, o Gemini foi capaz de superar a capacidade humana em testes de habilidades gerais e específicos. Por ser multimodalidade, o novo software do Google promete otimizar o tempo de produção de diversas tarefas. No momento o software conta com três modalidades: Gemini Ultra, Gemini Pro e Gemini Nano, que variam de acordo com o nível de complexidade de tarefas que podem realizar.
Como funciona o Gemini?
A título de exemplo, o ChatGPT é um chat robô que fornece respostas a perguntas feitas pelo usuário. Já o Gemini, de acordo com o Google, representa um avanço significativo na forma como a IA pode ajudar a melhorar a vida cotidiana. Por isso, é capaz de compreender, resumir, operar e combinar diferentes tipos de informação.
Para demonstrar na prática, foi publicado um vídeo de teste da ferramenta no canal de YouTube da empresa, em que um usuário desenhou um pato em uma folha e pediu para que a ferramenta descrevesse o que estava vendo. A ferramenta não só foi capaz de descrever cada passo da atividade que estava sendo desenvolvida, como forneceu informações sobre o animal, a forma de construção do brinquedo e ainda ofereceu três formas de pronuncia da palavra em diversas línguas.
No vídeo, ainda foram mostradas outras capacidades do software, como criar jogos e ensinar a jogá-los, assim como responder desafios de lógica e interpretar culturalmente a cena de um filme. Além disso, o software também pode ser usado em tarefas de alta complexidade, como programação. Veja o vídeo.
*Estagiária sob supervisão de Ronayre Nunes