Nova pesquisa: Claude 2.1 LLM da Anthropic permanece inferior ao GPT-4 da OpenAI no Context Recall

Nova pesquisa: Claude 2.1 LLM da Anthropic permanece inferior ao GPT-4 da OpenAI no Context Recall

Este não é um conselho de investimento. O autor não possui posição em nenhuma das ações mencionadas.

A capacidade limitada das iterações atuais de Large Language Models (LLMs) de compreender cargas crescentes de contexto continua sendo um dos maiores impedimentos no momento para alcançar a singularidade da IA – um limiar no qual a inteligência artificial excede comprovadamente a inteligência humana. À primeira vista, a janela de contexto de 200 mil tokens para Claude 2.1 LLM da Anthropic parece impressionante. No entanto, sua proficiência em recuperação de contexto deixa muito a desejar, especialmente quando comparada com as capacidades de recuperação relativamente robustas do GPT-4 da OpenAI.

A Anthropic anunciou ontem que seu mais recente Claude 2.1 LLM agora suporta uma janela de contexto “líder do setor” de 200 mil tokens, ao mesmo tempo em que oferece uma redução de 2x nas alucinações do modelo – uma situação em que um modelo de IA generativo percebe padrões ou objetos inexistentes, muitas vezes como resultado de informações pouco claras ou contraditórias, gerando resultados imprecisos ou sem sentido.

Para o benefício de quem talvez não saiba, um token é uma unidade básica de texto ou código que os LLMs usam para processar e gerar linguagem. Dependendo do método de tokenização empregado, um token pode ser um caractere, uma palavra, uma subpalavra ou um segmento inteiro de texto ou código. A janela de contexto ampliada de Claude 2.1 permite que o LLM compreenda e processe um livro de quase 470 páginas.

Claro, a janela de contexto de 200 mil tokens do Claude 2.1 da Anthropic é bastante impressionante quando comparada com o GPT-4 da OpenAI, que suporta apenas uma janela de 128 mil tokens. No entanto, a aplicação no mundo real desta janela de contexto ampliada perde um pouco do seu brilho quando se considera a capacidade nada impressionante de Claude 2.1 de recordar o contexto.

Recordação de contexto: Claude 2.1 da Anthropic vs. GPT-4 da OpenAI

O especialista em IA Greg Kamradt recentemente colocou Claude 2.1 contra GPT-4 por meio de um teste padronizado que visava determinar com que precisão um modelo específico lembrava um fato específico incorporado em diferentes profundidades de passagem.

Especificamente, Kamradt incorporou o seguinte texto em diferentes profundidades de passagem:

“A melhor coisa a fazer em São Francisco é comer um sanduíche e sentar no Dolores Park em um dia ensolarado.”

O pesquisador dividiu seu texto de entrada em 35 partes iguais e depois colocou o fato acima em cada uma dessas 35 profundidades, pedindo a Claude 2.1 que respondesse a uma pergunta relacionada a cada vez. O pesquisador também variou a janela de contexto, que variou de 1 mil tokens até 200 mil tokens, divididos em 35 incrementos iguais. Acesse esta postagem X para obter mais detalhes sobre a metodologia empregada.

Claude-2.1-Resultados do teste

Acima, você descobrirá com que precisão o Claude 2.1 da Anthropic foi capaz de lembrar o fato incorporado em uma determinada profundidade de documento e comprimento de janela de contexto. Cada bloco vermelho representa uma falha na recuperação. Como fica evidente no trecho acima, a capacidade de recuperação do LLM degrada progressivamente à medida que a janela de contexto aumenta.

Resultados do teste GPT-4

Para comparação, os resultados de um teste semelhante realizado com o GPT-4 da OpenAI são exibidos acima. Aqui, a profundidade em que o fato foi incorporado, bem como a janela de contexto do LLM foram alteradas em 15 incrementos distintos. Acesse esta postagem X para obter mais detalhes.

Observe que o GPT-4 tem significativamente menos falhas de recall de 100 por cento em seu comprimento máximo de janela de contexto de 128 mil tokens.

Observamos em uma postagem anterior que o GPT-4 superou os LLMs Grok da xAI e Claude 2 da Anthropic em um exame de matemática realizado. Resta saber como o Claude 2.1 se sai contra o GPT-4 no mesmo cenário.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *