O mais novo modelo Gemini AI do Google supera a tecnologia GPT-4o da OpenAI

2024/11/15

O novo modelo Gemini-Exp-1114 do Google abala o cenário de benchmarking de IA

O Chatbot Arena surgiu como uma plataforma aberta proeminente dedicada ao benchmarking de IA crowdsourced. Nos últimos dois anos, os modelos da OpenAI dominaram os rankings, alcançando consistentemente as primeiras posições em várias avaliações de IA. Enquanto os modelos Gemini do Google e Claude da Anthropic mostraram resultados impressionantes em certas categorias, a OpenAI manteve em grande parte uma presença inigualável na arena.

Recentemente, o Chatbot Arena revelou um modelo experimental do Google, conhecido como Gemini-Exp-1114. Esta nova adição passou por testes rigorosos, recebendo mais de 6.000 votos da comunidade na semana passada, impulsionando-o para uma classificação conjunta de nº 1 ao lado do modelo mais recente da OpenAI, ChatGPT-4o-latest (em 3 de setembro de 2024). A pontuação para esta iteração do modelo Gemini teve uma escalada notável, subindo de 1301 para 1344, superando até mesmo o modelo o1-preview da OpenAI em desempenho geral.

Principais Conquistas de Gemini-Exp-1114

De acordo com dados do Chatbot Arena, Gemini-Exp-1114 está atualmente liderando a tabela de classificação do Vision e também alcançou a posição nº 1 nas seguintes categorias:

Matemática
Escrita Criativa
Consulta mais longa
Instrução a seguir
Interações multi-turno
Prompts difíceis

No domínio da codificação, este novo modelo garantiu a posição nº 3; no entanto, ele exibe um desempenho impressionante em Hard Prompts com Style Control. Para contextualizar, o modelo o1-preview da OpenAI continua a liderar tanto em eficiência de codificação quanto em métricas de controle de estilo. Analisando o mapa de calor da taxa de vitória, vemos que Gemini-Exp-1114 atinge uma taxa de vitória de 50% contra GPT-4o-latest, 56% contra o1-preview e 62% contra Claude-3.5-Sonnet.

Melhorias recentes e métricas de desempenho

Em setembro, o Google apresentou a série Gemini 1.5, apresentando melhorias como um aumento de aproximadamente 7% nas pontuações do MMLU-Pro e uma melhoria significativa de 20% nos benchmarks MATH e HiddenMath. Os modelos mais novos também refletem melhorias de 2-7% em casos de uso relacionados à visão e ao código. Notavelmente, a utilidade geral das respostas foi aprimorada, com o Google enfatizando que o novo modelo tende a fornecer respostas mais concisas. O comprimento de saída padrão para esses modelos atualizados agora é cerca de 5-20% menor do que seus predecessores.

Para aqueles interessados em explorar os resultados do modelo Gemini-Exp-1114 ou experimentá-lo, informações detalhadas podem ser acessadas aqui . Os desenvolvedores são encorajados a testar este modelo de ponta no Google AI Studio, com planos para disponibilidade via API no horizonte.

Fonte e Imagens

O novo modelo Gemini-Exp-1114 do Google abala o cenário de benchmarking de IA

Principais Conquistas de Gemini-Exp-1114

Melhorias recentes e métricas de desempenho

Deixe um comentário Cancelar resposta