Visão de Tela
IA com visão que assiste seu jogo em tempo real
A visão de tela do Sidekick AI lê seu jogo frame a frame. O companheiro já conhece o chefe, a fase e o loot — então o coaching por voz acompanha o momento em vez de esperar você descrever.
Adicionar à Wishlist na SteamComo funciona
Lê sua tela frame a frame
O companheiro vê o que você vê na cadência nativa de frames. Barra de vida do chefe, sua posição, o cursor sobre um baú, o ícone da magia que acabou de aparecer — tudo isso.
Identifica o estado do jogo, não só pixels
A IA de visão transforma frames brutos em entendimento estruturado: qual jogo, qual encontro, qual fase, qual mecânica tá sendo carregada. O companheiro fala da situação, não da tela.
Age no momento, não na descrição
Como o companheiro já vê a cena, você pula todo o ciclo descreva-e-responda. Você reage à voz do Sidekick; o Sidekick reage ao seu jogo.
Gate leve no seu PC, análise no servidor
Um detector de mudanças roda na sua máquina pra decidir quais frames valem a pena analisar — a maioria dos frames em uma sessão não muda o suficiente pra importar. Os frames que passam pelo gate vão pro modelo de visão do Sidekick pra análise.
Por que a visão de tela é o recurso principal
Todo companheiro de IA pra jogos diz que ajuda em tempo real. O teste honesto é se o companheiro consegue agir no momento sem você descrever. Um chatbot que precisa que você digite “tô com metade da vida e a Malenia acabou de começar a Waterfowl Dance” antes de dar conselho já perdeu o momento. Quando você termina de digitar, a luta acabou.
A visão de tela colapsa esse loop. O companheiro vê a barra de vida do chefe, vê a animação de carregamento da Waterfowl, vê sua estamina e chama o timing da esquiva por voz antes de você conseguir articular o que tá acontecendo. Esse é o pitch inteiro do coaching de IA em tempo real, e a visão de tela é o que torna isso real em vez de marketing.
O que “lê sua tela” significa na prática
A IA de visão não joga pixels num modelo de linguagem. O pipeline transforma cada frame capturado em sinais estruturados: qual jogo tá rodando, qual cena tá na tela, quais elementos de UI tão visíveis, o que o avatar do jogador tá fazendo, quais inimigos tão presentes, qual o estado do jogador e dos inimigos. Esses sinais são sobre o que a camada de coaching realmente raciocina.
Essa estrutura é por que o Sidekick consegue fazer chamadas precisas em vez de observações vagas. O companheiro consegue dizer “você tá com 30% de HP, sai e bebe uma Estus” porque a camada de visão extraiu sua HP e sua contagem de frasco — não porque o modelo chutou.
Como o Sidekick difere de Character.AI, ChatGPT e Replika
A maioria dos assistentes de IA e chatbots é cega pro seu jogo. Character.AI, ChatGPT, Replika — nenhum deles consegue ver o que você vê. Conseguem conversar sobre um jogo que você descreve, mas não conseguem orientar durante a jogatina porque o loop é lento demais.
A categoria de companheiro de IA pra jogos existe porque a visão de tela mudou o que era possível. O Sidekick AI é construído em cima dessa mudança. O avatar 3D, a camada de voz e o workflow de highlights do HypeReel todos ficam em cima da camada de visão ser boa o suficiente pra que o companheiro já saiba o que tá acontecendo quando fala.
Como o pipeline de visão funciona de verdade
A captura de frame acontece no nível do sistema operacional — as mesmas APIs de captura de janela Windows.Graphics.Capture e Core Graphics que o OBS e outras ferramentas de captura usam. Não tem DLL injection, não tem hook na memória do jogo, não tem instrumentação de nível de driver. O companheiro nunca se conecta ao processo do seu jogo, então anti-cheat trata o Sidekick como qualquer outra ferramenta de captura. O custo desse design é que o Sidekick só vê o que é renderizado na sua tela; o lado bom é que funciona com qualquer jogo de PC sem integração por título.
Depois que um frame é capturado, um detector de mudanças leve roda na sua máquina decidindo se o frame vale a pena enviar — a maioria dos frames consecutivos em uma sessão é visualmente similar o suficiente pra que o modelo não tenha nada novo pra dizer. Os frames que passam pelo gate são enviados pro modelo de visão-linguagem do Sidekick com um prompt de coaching consciente do jogo. O modelo retorna uma resposta estruturada (qual jogo, qual cena, qual UI tá visível, quais entidades tão no frame, o que o jogador tá fazendo). A camada de coaching raciocina sobre essa resposta estruturada, não sobre os pixels brutos, quando decide o que falar no seu headset. Esse formato de pipeline é o por que o coaching consegue combinar com o momento — o companheiro já conhece a situação antes de falar.
O que ele vê durante a jogatina
A parte do entendimento estruturado é abstrata. A versão concreta é o que o companheiro consegue chamar durante uma sessão nos gêneros pros quais o Sidekick é tunado. O modelo de visão é de propósito geral; ele reconhece os elementos abaixo porque grandes modelos multimodais viram esses jogos nos dados de treinamento, não porque o Sidekick entrega extratores por jogo.
Em uma luta de chefe Souls — a barra de vida e o medidor de postura do chefe, sua HP e barras de estamina, a animação de carregamento que sinaliza um ataque chegando, sua contagem de frasco, seus cooldowns de habilidade, as transições de fase do chefe. É assim que o Sidekick consegue dizer “você tá com 30%, frasco agora” ou “Waterfowl tá carregando, corre na primeira rajada” em vez de conselho genérico de esquiva.
Em um metroidvania — o estado do mini-mapa (salas visitadas, salas não exploradas), suas habilidades de movimento, o ícone do charme ou relíquia que você acabou de pegar, as portas com fechadura e chave do andar atual. É assim que o Sidekick consegue te empurrar pra sala não explorada duas telas a noroeste sem entregar o mapa inteiro.
Em um turno de RPG— a ordem de turno, cooldowns de habilidade e contagens de recursos, as escolhas de diálogo na tela, perigos ambientais no encontro, os ícones de condição em cada combatente. É assim que o companheiro pode sinalizar “a superfície elemental pega fogo se você lançar essa bola de fogo, seu aliado tá em cima” antes de você clicar.
Em um survival horror — sua contagem de munição, pilha de ervas ou itens de cura, a disponibilidade da máquina de escrever de save, posições de inimigo no radar, o estado de condição das suas armas. É assim que o Sidekick consegue dizer “quatro tiros de pistola e uma erva verde sobrando, o próximo mercador é depois da igreja” em vez de conselho genérico de escassez.
Privacidade e controle — o que o companheiro vê e não vê
O Sidekick lê a superfície pra qual você aponta. Em setups com múltiplos monitores você seleciona qual janela ou display o companheiro vê; um segundo monitor rodando Discord, OBS, uma aba de wiki ou seu email fica privado. A camada de visão nunca chega em janelas que você não selecionou.
Pausar a visão é um clique. Quando pausada, o companheiro continua conversando mas para de capturar ou analisar a tela — útil pra cutscenes que você quer experimentar sem comentários adjacentes a spoiler, momentos de história onde coaching pareceria intrusivo ou só vezes em que você quer companhia sem análise. Pause é um controle por sessão; o próximo lançamento começa no seu estado padrão.
Os clipes do HypeReel são um workflow opt-in separado. Esses clipes existem porque você os acionou — um highlight que valeu salvar — e são seus pra manter, editar, compartilhar ou deletar da sua conta. O pipeline de clipe usa a mesma camada de visão pra detecção de highlight, mas o vídeo resultante tá sob seu controle, não da camada de visão.
Perguntas frequentes
Como a visão de tela do Sidekick AI funciona de verdade?
Com quais jogos a visão de tela funciona?
A visão de tela deixa meu jogo mais lento?
O Sidekick consegue ver elementos do HUD, menus e tela de inventário?
E quanto a spoilers? O Sidekick vai revelar conteúdo de fim de jogo?
A visão de tela é diferente de streaming ou gravação de tela?
A visão de tela funciona em setups com múltiplos monitores?
Posso desligar a visão de tela temporariamente?
O Sidekick captura frames via DLL injection ou algo que anti-cheat sinalizaria?
Posso rodar o Sidekick junto com um setup de streaming tipo OBS?
Related Resources
Pronto pra jogar mais esperto?
Sidekick AI usa visão por IA pra olhar sua tela e te orientar em tempo real. Teste a demo grátis na Steam.
Adicionar à Wishlist na Steam