Visão de Tela

IA com visão que assiste seu jogo em tempo real

A visão de tela do Sidekick AI lê seu jogo frame a frame. O companheiro já conhece o chefe, a fase e o loot — então o coaching por voz acompanha o momento em vez de esperar você descrever.

Adicionar à Wishlist na Steam

Como funciona

Lê sua tela frame a frame

O companheiro vê o que você vê na cadência nativa de frames. Barra de vida do chefe, sua posição, o cursor sobre um baú, o ícone da magia que acabou de aparecer — tudo isso.

Identifica o estado do jogo, não só pixels

A IA de visão transforma frames brutos em entendimento estruturado: qual jogo, qual encontro, qual fase, qual mecânica tá sendo carregada. O companheiro fala da situação, não da tela.

Age no momento, não na descrição

Como o companheiro já vê a cena, você pula todo o ciclo descreva-e-responda. Você reage à voz do Sidekick; o Sidekick reage ao seu jogo.

Gate leve no seu PC, análise no servidor

Um detector de mudanças roda na sua máquina pra decidir quais frames valem a pena analisar — a maioria dos frames em uma sessão não muda o suficiente pra importar. Os frames que passam pelo gate vão pro modelo de visão do Sidekick pra análise.

Por que a visão de tela é o recurso principal

Todo companheiro de IA pra jogos diz que ajuda em tempo real. O teste honesto é se o companheiro consegue agir no momento sem você descrever. Um chatbot que precisa que você digite “tô com metade da vida e a Malenia acabou de começar a Waterfowl Dance” antes de dar conselho já perdeu o momento. Quando você termina de digitar, a luta acabou.

A visão de tela colapsa esse loop. O companheiro vê a barra de vida do chefe, vê a animação de carregamento da Waterfowl, vê sua estamina e chama o timing da esquiva por voz antes de você conseguir articular o que tá acontecendo. Esse é o pitch inteiro do coaching de IA em tempo real, e a visão de tela é o que torna isso real em vez de marketing.

O que “lê sua tela” significa na prática

A IA de visão não joga pixels num modelo de linguagem. O pipeline transforma cada frame capturado em sinais estruturados: qual jogo tá rodando, qual cena tá na tela, quais elementos de UI tão visíveis, o que o avatar do jogador tá fazendo, quais inimigos tão presentes, qual o estado do jogador e dos inimigos. Esses sinais são sobre o que a camada de coaching realmente raciocina.

Essa estrutura é por que o Sidekick consegue fazer chamadas precisas em vez de observações vagas. O companheiro consegue dizer “você tá com 30% de HP, sai e bebe uma Estus” porque a camada de visão extraiu sua HP e sua contagem de frasco — não porque o modelo chutou.

Como o Sidekick difere de Character.AI, ChatGPT e Replika

A maioria dos assistentes de IA e chatbots é cega pro seu jogo. Character.AI, ChatGPT, Replika — nenhum deles consegue ver o que você vê. Conseguem conversar sobre um jogo que você descreve, mas não conseguem orientar durante a jogatina porque o loop é lento demais.

A categoria de companheiro de IA pra jogos existe porque a visão de tela mudou o que era possível. O Sidekick AI é construído em cima dessa mudança. O avatar 3D, a camada de voz e o workflow de highlights do HypeReel todos ficam em cima da camada de visão ser boa o suficiente pra que o companheiro já saiba o que tá acontecendo quando fala.

Como o pipeline de visão funciona de verdade

A captura de frame acontece no nível do sistema operacional — as mesmas APIs de captura de janela Windows.Graphics.Capture e Core Graphics que o OBS e outras ferramentas de captura usam. Não tem DLL injection, não tem hook na memória do jogo, não tem instrumentação de nível de driver. O companheiro nunca se conecta ao processo do seu jogo, então anti-cheat trata o Sidekick como qualquer outra ferramenta de captura. O custo desse design é que o Sidekick só vê o que é renderizado na sua tela; o lado bom é que funciona com qualquer jogo de PC sem integração por título.

Depois que um frame é capturado, um detector de mudanças leve roda na sua máquina decidindo se o frame vale a pena enviar — a maioria dos frames consecutivos em uma sessão é visualmente similar o suficiente pra que o modelo não tenha nada novo pra dizer. Os frames que passam pelo gate são enviados pro modelo de visão-linguagem do Sidekick com um prompt de coaching consciente do jogo. O modelo retorna uma resposta estruturada (qual jogo, qual cena, qual UI tá visível, quais entidades tão no frame, o que o jogador tá fazendo). A camada de coaching raciocina sobre essa resposta estruturada, não sobre os pixels brutos, quando decide o que falar no seu headset. Esse formato de pipeline é o por que o coaching consegue combinar com o momento — o companheiro já conhece a situação antes de falar.

O que ele vê durante a jogatina

A parte do entendimento estruturado é abstrata. A versão concreta é o que o companheiro consegue chamar durante uma sessão nos gêneros pros quais o Sidekick é tunado. O modelo de visão é de propósito geral; ele reconhece os elementos abaixo porque grandes modelos multimodais viram esses jogos nos dados de treinamento, não porque o Sidekick entrega extratores por jogo.

Em uma luta de chefe Souls — a barra de vida e o medidor de postura do chefe, sua HP e barras de estamina, a animação de carregamento que sinaliza um ataque chegando, sua contagem de frasco, seus cooldowns de habilidade, as transições de fase do chefe. É assim que o Sidekick consegue dizer “você tá com 30%, frasco agora” ou “Waterfowl tá carregando, corre na primeira rajada” em vez de conselho genérico de esquiva.

Em um metroidvania — o estado do mini-mapa (salas visitadas, salas não exploradas), suas habilidades de movimento, o ícone do charme ou relíquia que você acabou de pegar, as portas com fechadura e chave do andar atual. É assim que o Sidekick consegue te empurrar pra sala não explorada duas telas a noroeste sem entregar o mapa inteiro.

Em um turno de RPG— a ordem de turno, cooldowns de habilidade e contagens de recursos, as escolhas de diálogo na tela, perigos ambientais no encontro, os ícones de condição em cada combatente. É assim que o companheiro pode sinalizar “a superfície elemental pega fogo se você lançar essa bola de fogo, seu aliado tá em cima” antes de você clicar.

Em um survival horror — sua contagem de munição, pilha de ervas ou itens de cura, a disponibilidade da máquina de escrever de save, posições de inimigo no radar, o estado de condição das suas armas. É assim que o Sidekick consegue dizer “quatro tiros de pistola e uma erva verde sobrando, o próximo mercador é depois da igreja” em vez de conselho genérico de escassez.

Privacidade e controle — o que o companheiro vê e não vê

O Sidekick lê a superfície pra qual você aponta. Em setups com múltiplos monitores você seleciona qual janela ou display o companheiro vê; um segundo monitor rodando Discord, OBS, uma aba de wiki ou seu email fica privado. A camada de visão nunca chega em janelas que você não selecionou.

Pausar a visão é um clique. Quando pausada, o companheiro continua conversando mas para de capturar ou analisar a tela — útil pra cutscenes que você quer experimentar sem comentários adjacentes a spoiler, momentos de história onde coaching pareceria intrusivo ou só vezes em que você quer companhia sem análise. Pause é um controle por sessão; o próximo lançamento começa no seu estado padrão.

Os clipes do HypeReel são um workflow opt-in separado. Esses clipes existem porque você os acionou — um highlight que valeu salvar — e são seus pra manter, editar, compartilhar ou deletar da sua conta. O pipeline de clipe usa a mesma camada de visão pra detecção de highlight, mas o vídeo resultante tá sob seu controle, não da camada de visão.

Perguntas frequentes

Como a visão de tela do Sidekick AI funciona de verdade?
O Sidekick captura frames da sua janela de jogo numa cadência regular e roda eles num modelo de visão-linguagem com um prompt de coaching consciente do jogo. O modelo identifica o que tá na tela — o jogo, a cena, a mecânica ativa, o estado do jogador — e passa esse entendimento estruturado pra camada de coaching. A camada de coaching decide o que (se algo) falar. O resultado são dicas de voz que combinam com o que tá realmente acontecendo, não conselhos genéricos.
Com quais jogos a visão de tela funciona?
Qualquer jogo de PC que rode em uma janela padrão. Não precisa de integração por jogo porque a camada de visão lê a tela renderizada em vez do estado interno do jogo. Títulos single-player e co-op são onde a experiência fica mais afiada porque o conteúdo de coaching é tunado pra eles — Elden Ring, Baldur's Gate 3, Hollow Knight, Dark Souls 3, Resident Evil 4, Silent Hill 2, Lethal Company, Phasmophobia, Minecraft e outros.
A visão de tela deixa meu jogo mais lento?
Sem impacto mensurável na maioria das configurações. A captura de frames é leve e acontece fora do loop de renderização do jogo. A análise de visão roda em uma thread ou dispositivo separado. O Sidekick é desenhado pra que seu frame rate e latência de input fiquem onde estão — coaching é o valor, não o gargalo.
O Sidekick consegue ver elementos do HUD, menus e tela de inventário?
Consegue. A camada de visão lê todo o frame renderizado, incluindo elementos da UI como barras de vida, mini-mapas, grades de inventário e caixas de diálogo. É por isso que o Sidekick consegue dizer coisas como "você tá com 30% de vida, recua" ou "esse pergaminho de magia no loot vale a pena pegar".
E quanto a spoilers? O Sidekick vai revelar conteúdo de fim de jogo?
A camada de coaching é tunada pra falar do que tá na tela agora, não pra dar informação sobre conteúdo que você ainda não alcançou. Se uma cena da história tá prestes a disparar, o Sidekick não vai antecipar. Se você ativamente pedir ajuda em um puzzle cuja solução envolve conteúdo posterior, o companheiro pode avisar e deixar você decidir.
A visão de tela é diferente de streaming ou gravação de tela?
É. Ferramentas de streaming capturam e transmitem sua tela pra um público público. Gravação de tela salva sua tela em um arquivo local. A visão de tela do Sidekick captura frames em tempo real pra que a camada de coaching possa agir no momento — o objetivo é dicas de voz no seu headset, não uma transmissão ou um vídeo salvo. O Sidekick é construído pra coexistir com sua configuração de streaming existente, não pra substituí-la.
A visão de tela funciona em setups com múltiplos monitores?
Funciona. Você seleciona qual janela ou display o Sidekick lê. O companheiro só vê a superfície pra qual você aponta, então um segundo monitor com Discord, OBS ou uma aba de wiki fica privado.
Posso desligar a visão de tela temporariamente?
Pode. Tem um toggle claro pra pausar a captura de visão. Quando a visão tá pausada, o companheiro ainda fala mas para de referenciar a tela — útil pra cutscenes, momentos de história ou quando você quer só companhia sem coaching.
O Sidekick captura frames via DLL injection ou algo que anti-cheat sinalizaria?
Não. O Sidekick lê a janela do jogo do mesmo jeito que o OBS ou qualquer ferramenta de captura de tela faz — usando as APIs padrão de captura de janela do sistema operacional. Não tem DLL injection, não tem hook na memória do jogo, não tem instrumentação de nível de driver. Sistemas anti-cheat veem o Sidekick como um aplicativo desktop comum, porque é isso que ele é. O companheiro nunca toca no processo do jogo.
Posso rodar o Sidekick junto com um setup de streaming tipo OBS?
Pode. O Sidekick captura da janela do jogo; o OBS captura da cena que você configurou. Eles não competem pela mesma superfície, e os dois podem rodar simultaneamente sem um quebrar o outro. A janela do avatar e a saída de voz do Sidekick são roteáveis pro OBS como fonte de janela e fonte de áudio se você quiser o companheiro na transmissão.

Pronto pra jogar mais esperto?

Sidekick AI usa visão por IA pra olhar sua tela e te orientar em tempo real. Teste a demo grátis na Steam.

Adicionar à Wishlist na Steam