★ Na Boca do Sol

Sobre o Projeto

Como nasce cada episódio


O que é

Na Boca do Sol é um podcast automatizado que transforma textos marxistas de domínio público em episódios de áudio com voz sintetizada por IA. Todo o conteúdo vem do Marxists Internet Archive (MIA), e o projeto é inteiramente código aberto, livre e gratuito.

O nome do projeto vem da canção "Na Boca do Sol", de Arthur Verocai. "Na minha cidade do interior / Tudo que chegou, chegou de trem" — e esse podcast é o trem. Traz a teoria revolucionária mais avançada para a realidade concreta de quem vive no Brasil profundo, porque "pra quem mora lá, o céu é lá". Com inteligência artificial e código aberto, perto da manhã, na boca do sol, vamos construir a revolução brasileira.

Pipeline: do texto ao episódio

Cada episódio passa por uma pipeline automatizada com as seguintes etapas:

1
Extração

O texto é extraído da página do MIA, limpo de HTML e formatado para leitura natural em português.

2
Síntese de voz (TTS)

O texto é convertido em áudio usando Kokoro TTS, um modelo de síntese de voz open-source. Usamos a voz "Alex" com o modelo em português. O processo roda em Docker com GPU NVIDIA para performance.

3
Timestamps

Durante a síntese, o sistema calcula automaticamente os timestamps de cada trecho do texto a partir do tamanho dos arrays de áudio gerados (24000 Hz sample rate).

4
Conversão e upload

O áudio WAV é convertido para MP3 via ffmpeg e enviado para Amazon S3. Os timestamps são embutidos no frontmatter do episódio.

5
Site estático

O site é gerado com Astro e publicado no GitHub Pages. Zero dependências JavaScript além do Astro — todo o JS do player e da transcrição é inline, otimizado para conexões lentas.

Stack técnica

  • Kokoro TTS — síntese de voz open-source, modelo português, voz "Alex"
  • Python — extração de texto, limpeza HTML, geração de timestamps
  • Docker + NVIDIA GPU — ambiente isolado para geração de áudio
  • ffmpeg — conversão WAV → MP3
  • Amazon S3 — hospedagem dos arquivos de áudio
  • Astro — gerador de site estático, zero JS runtime
  • GitHub Pages — hospedagem do site

Código aberto

Todo o código está disponível no GitHub. Contribuições, sugestões e issues são bem-vindas.