Aceleradores Intel Gaudi 2 AI capazes de gerar texto com modelos Llama 2 com parâmetros de até 70B
Os aceleradores Gaudi 2 AI da Intel são a alternativa mais viável aos chips da NVIDIA e o Hugging Face demonstrou sua capacidade de geração de texto usando o Llama 2.
Aceleradores Intel Gaudi 2 demonstrados em geração de texto usando LLMs Llama 2 de código aberto com até 70 bilhões de parâmetros
À medida que a Intel expande seu ecossistema de software de IA, a empresa tem como alvo as cargas de trabalho de IA mais populares, que incluem LLMs (Large Language Models). O trabalho é possível usando Habana Optimum , que serve como biblioteca de transformadores e difusores de interface, e os processadores Intel Habana Gaudi, como Gaudi 2. A empresa já demonstrou as capacidades de IA e o desempenho de seus processadores Gaudi 2 contra as GPUs A100 da NVIDIA, que são uma das opções populares no mercado, mas Gaudi 2 faz um trabalho louvável ao oferecer um desempenho mais rápido com um TCO competitivo.
Para a demonstração mais recente, Hugging Face mostra a facilidade de gerar texto com Llama 2 (7b, 13b, 70b) usando o mesmo pipeline Optimum Habana e o acelerador Intel Gaudi 2 AI. O resultado final mostra que o chip Gaudi 2 não só foi capaz de aceitar prompts únicos/múltiplos, mas também foi muito fácil de usar e também pode lidar com plug-ins personalizados dentro de scripts.
Com a revolução da IA Generativa (GenAI) em pleno andamento, a geração de texto com modelos de transformadores de código aberto como o Llama 2 se tornou o assunto da cidade. Os entusiastas da IA, bem como os desenvolvedores, estão procurando aproveitar as habilidades generativas de tais modelos para seus próprios casos de uso e aplicações. Este artigo mostra como é fácil gerar texto com a família de modelos Llama 2 (7b, 13b e 70b) usando Optimum Habana e uma classe de pipeline personalizada – você poderá executar os modelos com apenas algumas linhas de código!
Esta classe de pipeline personalizada foi projetada para oferecer grande flexibilidade e facilidade de uso. Além disso, fornece um alto nível de abstração e realiza geração de texto ponta a ponta que envolve pré-processamento e pós-processamento. Existem várias maneiras de usar o pipeline – você pode executar o
run_pipeline.py
script do repositório Optimum Habana, adicionar a classe do pipeline aos seus próprios scripts python ou inicializar classes LangChain com ele.Apresentamos um pipeline de geração de texto personalizado no acelerador Intel Gaudi 2 AI que aceita prompts únicos ou múltiplos como entrada. Este pipeline oferece grande flexibilidade em termos de tamanho do modelo, bem como parâmetros que afetam a qualidade da geração de texto. Além disso, também é muito fácil de usar e conectar aos seus scripts, além de ser compatível com LangChain.
A Intel está comprometida em acelerar seu segmento de IA nos próximos anos. Este ano, a empresa planeja lançar a terceira iteração de Gaudi, conhecida como Gaudi 3, que deverá utilizar um nó de processo de 5 nm e é supostamente mais rápido que o NVIDIA H100 a um preço significativamente mais baixo. Da mesma forma, a empresa também planeja mudar para um design totalmente interno com a GPU Falcon Shores de próxima geração, prevista para 2025. A empresa também está abrindo recursos de IA, como a interface Llama 2 com PyTorch para seu nível de consumidor. GPUs Arc Série A.
Deixe um comentário