Speech Note transcreve voz para texto no Linux

07-10-2023

#Linux #App #OpenAI #Flatpack #TTS #Voz #Texto #AI

Speech Note transcreve voz para texto no Linux

Hoje, é com imenso prazer que tenho a honra de apresentar a vocês uma aplicação notável que abre as portas da transcrição de voz para texto no sistema operacional Linux. O nome dessa notável inovação é "Speech Note", um projeto de código aberto que incorpora a sofisticada inteligência artificial desenvolvida pela OpenAI para reconhecer e transformar sua fala em palavras escritas. O Speech Note opera tanto em ambiente online quanto offline e oferece suporte a diversos idiomas, incluindo o nosso apreciado português brasileiro. Esse aplicativo se mostra indispensável para aqueles que necessitam realizar anotações rápidas, redigir artigos, enviar mensagens ou mesmo criar legendas para conteúdos audiovisuais. Nesta exposição, compartilharei com vocês como instalar e aproveitar o Speech Note no ambiente Linux. Além disso, discutiremos uma pesquisa recente da OpenAI que promete elevar ainda mais a excelência das transcrições.

A instalação do Speech Note em seu sistema Linux é descomplicada, através do uso da plataforma Flathub, que facilita a distribuição de aplicativos Flatpak. O Flatpak é um formato de empacotamento que garante a compatibilidade com diferentes distribuições Linux, independentemente de versões ou bibliotecas específicas. Caso necessite de orientação quanto à instalação do Flatpak em seu sistema, recomendo consultar o seguinte guia.

Uma vez que o Flatpak esteja devidamente configurado, você pode acessar o Flathub pelo seu navegador e buscar pelo Speech Note. Alternativamente, você pode utilizar o seguinte link direto. Na página do aplicativo, você encontrará um botão verde intitulado "Instalar". Simplesmente clique nele e siga as instruções que surgirem na tela. Para uma alternativa, é possível instalar o Speech Note também através do terminal, executando o seguinte comando:

flatpak install flathub net.mkiol.SpeechNote

Feito isso, o Speech Note já estará devidamente instalado em seu sistema Linux. Para executá-lo, busque pelo ícone correspondente em seu menu de aplicativos ou introduza o seguinte comando em seu terminal:

flatpak run net.mkiol.SpeechNote

Ao abrir o Speech Note pela primeira vez, você se deparará com uma interface elegante e intuitiva. No canto superior esquerdo, é possível selecionar o idioma para a transcrição. No canto superior direito, você tem controle sobre o volume do microfone e pode monitorar o nível de sinal. O botão vermelho central na tela possibilita o início e a interrupção da gravação, enquanto na parte inferior, há uma área destinada à exibição do texto transcrito.

Iniciar a transcrição de voz para texto com o Speech Note é tão fácil quanto clicar no botão vermelho e expressar seus pensamentos. O Speech Note reconhece com rapidez e precisão suas palavras, convertendo-as instantaneamente em texto visível em sua tela. Se preferir, você pode falar frases completas ou pausar entre as palavras, pois o Speech Note concatenará tudo de maneira automática. Além disso, caso deseje, é possível efetuar edições manuais no texto, possibilitando correções de eventuais erros ou inclusões de pontuação.

Uma característica notável do Speech Note é sua capacidade de operar tanto online quanto offline. Quando conectado à internet, o aplicativo faz uso da API da OpenAI para realizar a transcrição. A OpenAI é uma renomada empresa de pesquisa em inteligência artificial, responsável por desenvolver modelos avançados de processamento de linguagem natural, a exemplo do GPT-3 e Codex. A API da OpenAI proporciona acesso a esses modelos por meio da web, utilizando-se de chaves de acesso, que podem ser gratuitas ou pagas.

No ambiente offline, o Speech Note recorre a um modelo local baseado no Mozilla DeepSpeech, um projeto de código aberto que emprega redes neurais para o reconhecimento de voz. Embora o modelo local apresente algumas limitações em termos de qualidade e idiomas suportados em comparação com o modo online, ele continua a ser uma opção valiosa e funcional para a maioria dos cenários.

Outra vantagem que o Speech Note oferece é a possibilidade de exportar o texto resultante para uma variedade de formatos, como TXT, PDF, DOCX ou HTML. Você também pode copiar o texto para a área de transferência ou compartilhá-lo por e-mail ou através de redes sociais. Além disso, o aplicativo permite o salvamento das gravações de áudio em formatos WAV ou MP3.

O Speech Note, portanto, representa uma ferramenta inestimável para todos aqueles que necessitam transcrever voz em texto no ambiente Linux. Sua instalação e uso descomplicados, aliados à qualidade de reconhecimento, atestam sua utilidade incontestável. O aplicativo destaca-se como um exemplo do potencial da inteligência artificial para simplificar nossas vidas e elevar nossa produtividade.

Entretanto, se o Speech Note já lhe parece impressionante, permita-me antecipar uma revelação verdadeiramente notável. Em um artigo publicado em setembro de 2021, a OpenAI apresentou o "Whisper", um sistema de transcrição de voz que emprega o GPT-3 para transformar áudio em texto. O Whisper transcende a mera capacidade de reconhecimento de voz, adentrando o campo da geração de texto. Esse sistema é capaz de compreender o contexto e o significado da fala, resultando em textos mais naturais, fluidos e coesos.

O Whisper opera de maneira distinta dos sistemas tradicionais de transcrição de voz, que habitualmente se apoiam em dois modelos independentes: um para identificar as palavras do áudio e outro para gerar o texto correspondente. O Whisper, por sua vez, se vale apenas do GPT-3, que recebe o áudio como entrada e produz o texto como saída. O GPT-3 é um colosso no campo do processamento de linguagem natural, contando com 175 bilhões de parâmetros e sendo treinado com uma vasta quantidade de dados textuais provenientes da internet.

O Whisper emprega uma técnica denominada "speech denoising", que consiste na eliminação de ruídos do áudio e sua conversão em uma série de símbolos fonéticos. Estes símbolos são então concatenados a um token especial que sinaliza o início do áudio e são utilizados como entrada para o GPT-3. O GPT-3, por sua vez, baseia-se em seu conhecimento prévio da linguagem e do contexto para gerar o texto correspondente ao áudio.

O resultado é um texto que transcende a simples transcrição das palavras faladas, reformulando-as e expressando-as de maneira mais clara e elegante. Por exemplo, se o áudio contiver a frase "Estou com fome, que tal pedirmos uma pizza?", o Whisper poderá gerar um texto como "Sinto-me faminto, que achas de encomendarmos uma pizza?". O Whisper também é capaz de corrigir erros gramaticais, pontuar de maneira adequada, eliminar repetições e preencher lacunas.

É importante salientar que o Whisper, atualmente, é um sistema experimental que não se encontra disponível ao público em geral. Entretanto, os pesquisadores da OpenAI asseguram que ele detém um potencial extraordinário para aprimorar significativamente a qualidade das transcrições de voz, bem como para viabilizar novas aplicações, como a geração de legendas para vídeos, resumos de podcasts e até mesmo a tradução de áudio para diferentes idiomas.

O Speech Note e o Whisper são duas manifestações inspiradoras do modo como a inteligência artificial tem a capacidade de revolucionar a maneira como lidamos com a transcrição de voz para texto. Ambos os projetos demonstram que a tecnologia avança em ritmo acelerado e que em breve poderemos contar com sistemas capazes de compreender e gerar texto com a mesma destreza que os seres humanos.

Com a esperança de que este artigo tenha sido de seu apreço, convido vocês a explorarem mais sobre o Speech Note e o Whisper por meio dos links fornecidos abaixo:

OpenAI Whisper: https://openai.com/research/whisper
Flathub para Speech Note: https://flathub.org/apps/net.mkiol.SpeechNote

Para aqueles que desejam experimentar o Speech Note em seus sistemas Linux, lembrem-se de que a instalação pode ser facilmente realizada por meio do Flathub, bastando clicar no botão verde disponível na página do aplicativo.

Até nossa próxima interação, desejo a todos uma experiência enriquecedora e produtiva com essas inovações tecnológicas.

Cordialmente, Erik Perin