O Figure 01 é um robô humanoide da startup Figure que, em demonstração, entende pedidos por voz, identifica objetos pela câmera e executa tarefas domésticas simples, como entregar comida e recolher lixo, usando uma combinação de visão, transcrição de fala e um modelo de linguagem da OpenAI.
O que o robô realmente consegue enxergar
Na demonstração, o Figure 01 responde quando perguntado sobre o que está vendo. Ele descreve itens comuns em uma bancada, como uma maçã vermelha e louça em um escorredor, além de reconhecer a presença da pessoa que interage com ele.
Esse tipo de reconhecimento visual já existe em outros produtos de IA, inclusive em recursos de análise de imagem. O ponto relevante aqui é a transição do “eu vejo” para o “eu faço” em um corpo físico.
Quando entendimento vira movimento útil
O salto do Figure 01 está na interação com o ambiente. Ao ouvir um pedido relacionado a comida, ele seleciona o item comestível disponível, a maçã, e a entrega com movimentos suaves, sem aparentes trancos ou pausas longas.
Em robótica, esse tipo de fluidez importa porque a casa é um cenário cheio de variáveis, objetos mudam de lugar, a iluminação muda, e a interação humana exige timing. A demo sugere um comportamento mais “assistente” do que “máquina programada para um único gesto”.
Exemplo prático de como isso seria útil em casa, se a confiabilidade se mantiver fora do vídeo:
- Após uma refeição: recolher embalagens, levar ao lixo e devolver itens à pia.
- Rotina rápida: buscar um item específico na bancada e entregar sem derrubar outros objetos.
- Organização guiada: separar itens por categoria, por exemplo, lixo versus utensílios.

O que se sabe sobre o “cérebro” do sistema
Segundo a Figure, o robô combina o que suas câmeras capturam com o que o usuário fala. A fala é transcrita, os dados visuais entram no sistema, e um modelo de linguagem da OpenAI ajuda a interpretar contexto e escolher a resposta, além de acionar as habilidades motoras necessárias.
Ao mesmo tempo, a empresa não detalhou a engenharia por trás da demonstração. Sem informações técnicas, ficam perguntas abertas, por exemplo, quanto é generalização real, quanto depende de cenário controlado, e se houve algum nível de preparação específica para os passos mostrados.
Multitarefas e fala enquanto trabalha
Outro trecho do vídeo reforça a ideia de coordenação: o Figure 01 continua executando uma tarefa física, como recolher lixo e depositar na lixeira, enquanto explica o que está fazendo e por que tomou uma decisão anterior.
Esse “fazer e explicar” é uma métrica interessante porque exige sincronizar percepção, planejamento e controle motor em tempo real, sem interromper a conversa. O robô ainda faz uma autoavaliação do resultado, em tom confiante, como se estivesse relatando a conclusão de uma tarefa.
Hype, dinheiro e o que avaliar com frieza
A Figure posiciona o Figure 01 como um assistente geral, capaz de atuar tanto em fábrica quanto em casa, com a promessa de reduzir tarefas repetitivas para liberar pessoas para atividades mais complexas. A empresa também atraiu aportes grandes, citando uma captação recente de mais de US$ 675 milhões com nomes como Jeff Bezos, Amazon, Microsoft e Nvidia.
Mini modelo para entender o momento: em robôs humanoides, o gargalo costuma ser o “PPP”, Percepção para entender a cena, Planejamento para decidir o que fazer, Pegada para manipular sem falhar. A demo indica progresso nos três, mas ainda em condições altamente favoráveis.
Regra de decisão para não cair em vídeo bonito: só vale tratar como avanço concreto quando houver demonstrações longas, com poucas interrupções, em ambientes diferentes, e com recuperação de erro, por exemplo, o robô derruba algo e corrige, ou recebe um comando ambíguo e pede esclarecimento. Sem isso, a leitura mais prudente é “promissor, porém ainda cedo”.
