Documentação

Quando um usuário envia um áudio ou vídeo, o Z1 BOT processa a mídia e extrai métricas objetivas em três camadas: texto, áudio e vídeo.

Texto

Transcrição da fala e análise linguística

  • Transcrição completa — texto literal do que foi falado
  • Velocidade — palavras por minuto (lento / normal / apressado)
  • Muletas verbais — contagem de "né", "tipo", "então", "aí"…
  • Diversidade lexical — proporção de palavras únicas no total
  • Sentenças — quantidade e comprimento médio

Áudio

Características sonoras da fala

  • Duração — tempo total do áudio ou vídeo
  • Energia — volume médio da voz (projeção)
  • Tempo de fala — segundos com voz ativa
  • Tempo de silêncio — pausas e silêncios totais
  • Pausas longas — silêncios acima de 1,5 segundo
  • Variação de pitch — expressividade (monótono vs. variado)

Vídeo

Análise visual a partir de frames

  • Enquadramento — close-up, plano médio, geral
  • Iluminação — qualidade e direção da luz
  • Fundo — cenário visível atrás da pessoa
  • Postura — linguagem corporal
  • Expressão facial — emoção predominante
  • Contato visual — atenção à câmera
  • Vestimenta — adequação ao contexto

Limites e comportamento