Como transformar sua voz em texto com o Whisper da OpenAI para Windows

2023/02/07

O Whisper da OpenAI é uma nova solução baseada em IA que pode transformar sua voz em texto. O melhor de tudo é que tem custo zero.

No entanto, há um problema: é mais difícil de instalar e usar do que o utilitário médio do Windows. Especialmente se você quiser usar os Tensor Cores da sua GPU Nvidia para dar um bom impulso.

Não se preocupe, no entanto. É por isso que estamos aqui! Continue lendo para descobrir como instalá-lo e usá-lo, mas também, se você possui um, para que o Whisper aproveite sua GPU Nvidia.

O que é o Whisper da OpenAI?

O ChatGPT está na moda hoje em dia, e já vimos como você pode usar o ChatGPT da OpenAI. E, no entanto, não é o único projeto interessante da OpenAI.

Alimentado por aprendizado profundo e redes neurais, o Whisper é um sistema de processamento de linguagem natural que pode “entender” a fala e transcrevê-la em texto. Mas também é algo próprio, ocupando um lugar entre todas as soluções semelhantes:

O Whisper é uma solução de IA “treinada” em linguagem natural. Portanto, é melhor entender a fala humana “normal” do que as soluções mais antigas.
O Whisper não vem com interface, nem grava áudio. Ele só pode levar arquivos de áudio existentes e arquivos de texto de saída.
Como é bom em “dar sentido à linguagem”, o Whisper também tem o superpoder da tradução automática em uma única etapa.
O Whisper não é um serviço online e pode funcionar totalmente offline.
Se você tiver uma GPU Nvidia relativamente moderna (GTX970 ou mais recente), o Whisper pode ser executado no “modo acelerado por hardware” para aumentar sua velocidade.
Não há necessidade de se registrar, comprar uma licença ou comprar uma assinatura.

Por que as GPUs AMD não são suportadas?

Para que as GPUs sejam úteis para mais do que gráficos, elas teriam que atuar como processadores totalmente programáveis. É por isso que a Nvidia criou o CUDA, considerado oficialmente “uma plataforma de computação paralela e modelo de programação”. Para saber mais sobre CUDA e hardware relacionado (“núcleos CUDA”), leia nosso artigo sobre o que são núcleos CUDA e como eles melhoram os jogos de PC.

CUDA é uma tecnologia proprietária da Nvidia, compatível apenas com GPUs da Nvidia. As alternativas mais próximas para o hardware da AMD são OpenCL e Radeon Compute Platform. Para saber mais sobre a comparação entre as soluções de cada empresa, consulte nosso artigo AMD Compute Units vs. Nvidia CUDA Cores.

Comparado com as alternativas, o CUDA é considerado mais maduro, eficiente e fácil de usar. Assim, a maioria dos desenvolvedores visa apenas o CUDA, o que, por sua vez, significa que seu software aproveita apenas os recursos de hardware das GPUs Nvidia. E isso inclui Sussurro.

Como baixar e instalar o Whisper

Infelizmente, o Whisper não é um aplicativo independente que você pode baixar, instalar e executar. Ele depende de outro software, que também deve ser instalado.

Para Windows, para manter este guia simples, usaremos o Chocolatey extensivamente para instalar a maioria das partes de software necessárias. Confira nosso guia sobre a maneira mais rápida de instalar o software Windows para obter mais informações sobre o Chocolatey.

Para Linux e Macs, o processo de instalação (excluindo a variável de caminho do Windows e os arquivos em lote fáceis de usar que criaremos) deve ser semelhante.

Para instalar e usar o Whisper, você deve ter o Python e sua ferramenta PIP instalada e adicionada à variável “Path” do Windows. Para obter informações sobre isso, consulte nosso artigo sobre como instalar o Python PIP no Windows, Mac e Linux.
Instale o FFMPEG através do Chocolatey com este comando: Além disso, instale sua versão Python com: choco install ffmpeg pip3 install python-ffmpeg
Por fim, instale o Whisper em sua página do Github com: pip3 install git+https://github.com/openai/whisper.git

Obtendo a versão habilitada para CUDA do Whisper

Embora o Whisper não use GPUs Nvidia, o pacote de tocha em que ele se baseia oferece uma versão acelerada por CUDA. Usar isso em vez da versão “simples” pode ajudar o Whisper a concluir suas transcrições muito mais rapidamente com a ajuda de sua GPU Nvidia.

Para que o Whisper use os núcleos CUDA da sua GPU Nvidia:

Se você já tiver a versão “vanilla” da tocha instalada, desinstale e elimine os restos dela com: Quando terminar, siga com: pip3 uninstall torch pip cache purge
Instale a versão habilitada para CUDA da tocha com: pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
Para verificar se o Whisper pode usar sua GPU Nvidia, use: Você deve ver (padrão: cuda) em vez de (padrão: cpu) . whisper --help | findstr -i pytorch

O que fazer se a tocha não for instalada

Se você encontrar o erro “nenhuma versão encontrada” ao instalar a tocha, pode ser necessário instalar uma versão mais antiga do Python paralela à atual.

Use este comando para fazer isso:

choco install python --version OLDER_VERSION --side-by-side

Substitua “OLDER_VERSION” por uma versão, como 3.10.

choco instalar versão alternativa do python

Em seguida, use o caminho da versão secundária para todos os comandos “genéricos” do Whisper (por exemplo, “c:\Python310\Scripts\pip.exe” em vez de apenas “pip”).

Como gravar sua voz

Você pode usar qualquer aplicativo de gravação de som para transformar sua voz em um arquivo WAV ou MP3. O Windows inclui esse aplicativo – para obter mais informações sobre isso, consulte como usar o aplicativo Windows 10 Voice Recorder.

Para uma opção mais completa, experimente o Audacity . Aprenda como fazer isso com nosso guia sobre como usar o Audacity para gravar áudio no Windows e Mac.

Como começar a transcrever com sussurro

Embora o Whisper não venha com uma GUI amigável, seu uso é ultra-simples.

Digamos que temos o arquivo LatestNote.mp3 que contém fala em grego, na pasta c:\MyAudioFiles , e queremos traduzi-lo para o inglês e transcrevê-lo em um arquivo de texto.

Começamos executando Prompt de Comando ou PowerShell .
Nós “mudamos o diretório” onde o arquivo de áudio está armazenado com este comando: cd C:\MyAudioFiles
Nós liberamos o Whisper no arquivo com: whisper --model base --language gr --task translate LatestNote.mp3

Depois de processado, o arquivo de texto (denominado “LatestNote.mp3.txt”) aparecerá na mesma pasta. Abra-o em um editor de texto como o Bloco de Notas para visualizar o texto traduzido.

Usamos um exemplo de tradução porque a transcrição em inglês é ainda mais direta: você só precisa “perder” os sinalizadores “–language” e “-task”. Assim, para transcrição simples, o comando acima seria:

whisper --model base LatestNote.mp3

O sinalizador “model” é necessário porque o Whisper usa uma das várias opções. Vamos expandi-los para ajudá-lo a escolher o melhor para suas necessidades.

Qual modelo escolher?

O Whisper oferece vários modelos de linguagem. Quanto maior o modelo, maior a precisão, mas também maiores os requisitos de hardware. Eles são:

Pequeno.
Base.
Pequeno.
Médio.
Grande.

A maioria dos falantes nativos de inglês deve ficar bem com os modelos minúsculos ou básicos . Os falantes não nativos de inglês podem obter melhores resultados com modelos maiores, como pequenos e médios .

Observe, porém, que os modelos médio e grande requerem mais de 8 GB de VRAM (ou seja, “a memória da sua GPU”).

Para selecionar um deles, especifique o modelo após a opção “–model” no comando:

whisper --model tiny/small/medium/large [file]

Por exemplo:

whisper --model small My_Voice_Note.mp3

Como simplificar sua transcrição

Ter que digitar todo o comando Whisper toda vez que você deseja transcrever algum áudio pode se tornar entediante rapidamente. Vamos criar um arquivo em lote acessível globalmente para agilizar o processo.

Execute o Windows Explorer e visite sua unidade C:.
Crie uma pasta para seus scripts e copie seu caminho para a área de transferência.
No menu Iniciar do Windows, procure por “caminho” e selecione Editar as variáveis de ambiente do sistema .
Encontre a variável Path em Variáveis de usuário para YOUR_USERNAME . Clique duas vezes nele para editá-lo. Clique em Novo e cole o caminho para a pasta de scripts. Clique em OK para aceitar as alterações.
Retorne à sua pasta de scripts no Windows Explorer. Crie um novo arquivo em lote chamado “wht.bat”. “Dentro” dele, coloque este comando: whisper --model tiny --language en %1
Crie mais dois arquivos em lote, “whs” e “whm”.
Coloque isso dentro do primeiro script: whisper --model small --language en %1
Coloque isso dentro do segundo: whisper --model medium --language en %1

Parabéns, agora você tem três scripts para usar facilmente os modelos minúsculo, pequeno e médio do Whisper com seus arquivos de áudio! Para transcrever qualquer arquivo de áudio para texto:

Localize o arquivo com o Windows File Explorer .
Clique com o botão direito do mouse em um local vazio e escolha Abrir no Terminal .
Digite este comando, substituindo “wht” por “whs” ou “whm” para usar os modelos de linguagem pequena ou média: wht YOUR_AUDIO_FILE.mp3

Digitando na velocidade do som com sussurro

Mesmo os digitadores mais rápidos não conseguem igualar a velocidade com que falamos. No entanto, até recentemente, falar em vez de digitar não era o ideal para a criação de documentos.

A maioria das soluções de voz para texto produziu resultados medíocres. Você pode encontrar algumas soluções que valem a pena tentar, mas elas são complicadas de usar ou caras. Felizmente, Whisper mudou tudo isso.

Após as etapas acima, você deve estar pronto para transcrever ou traduzir sua voz com alta precisão, usando apenas um único comando.