ReALM da Apple e o futuro da Siri - ChatGPT Português (Brasil)

O ReALM é uma linha de pesquisa da Apple para fazer modelos de linguagem entenderem referências como “isso”, “aquele botão” ou “a mensagem na tela”, algo crucial para uma Siri realmente contextual. Os resultados divulgados sugerem desempenho muito competitivo em tarefas específicas de resolução de referências, mas isso não equivale a “superar o ChatGPT” de forma geral, nem indica um lançamento imediato para o público. arxiv.org

O que é o ReALM e por que importa

ReALM vem de Reference Resolution as Language Modeling, uma proposta para transformar “resolver referências” em um problema tratável por modelos de linguagem. Em vez de o assistente depender só do texto do diálogo, a ideia é também levar em conta o contexto disponível, inclusive elementos exibidos na interface, para desambiguar o que o usuário quis dizer. arxiv.org

Na prática, isso ataca um ponto fraco clássico de assistentes: o usuário fala como fala com outra pessoa, cheia de atalhos e “apontamentos” implícitos, e o sistema precisa entender a que exatamente aquilo se refere. machinelearning.apple.com

Resolução de referência: identificar a entidade correta quando o usuário usa termos vagos como “isso” ou “o de cima”. arxiv.org
Contexto de tela: textos, botões, listas e outros itens que estão visíveis no momento da solicitação. machinelearning.apple.com
Contexto conversacional: o que foi dito antes, incluindo preferências e histórico imediato do diálogo. arxiv.org

O que os tamanhos e benchmarks mostram

O trabalho descreve quatro tamanhos de modelo, sugerindo usos que vão de cenários mais leves até configurações mais robustas: ReALM-80M, ReALM-250M, ReALM-1B e ReALM-3B, onde o sufixo indica a ordem de grandeza do número de parâmetros. arxiv.org

Na cobertura da época, a Apple foi posicionada como tendo um sistema que, em certos testes, chegaria a igualar ou ultrapassar referências como GPT-4, mas é essencial ler isso como comparação de desempenho em tarefas bem delimitadas, não como uma vitória ampla em qualquer conversa ou geração de texto. macrumors.com

Regra de decisão: se o problema é “entender a intenção dentro do app e do que está na tela”, a abordagem do ReALM faz sentido; se o objetivo é “criar conteúdo longo e aberto, com conhecimento amplo”, a comparação com chatbots generalistas vira menos direta e mais dependente do produto final e de integrações. machinelearning.apple.com

O salto prático de entender o que está na tela

Chatbots como o ChatGPT normalmente só conseguem agir sobre o que o usuário fornece explicitamente, por exemplo texto colado, arquivos ou imagens enviadas. O ReALM, por outro lado, foi pensado para resolver a lacuna de “o usuário está vendo algo na tela e quer agir sobre aquilo”, sem transformar cada ação em um passo manual de anexar ou descrever. arxiv.org

Exemplo rápido do dia a dia

Imagine a pessoa lendo uma conversa no Mensagens e dizendo “manda isso para o Pedro e marca para amanhã cedo”. Para funcionar de verdade, o assistente precisa identificar o que é “isso” no contexto da tela e qual “Pedro” é o alvo, além de inferir o formato da ação, compartilhar, encaminhar, criar lembrete ou evento. Esse tipo de resolução é o foco central do ReALM. arxiv.org

Um jeito útil de enquadrar o movimento da Apple é o mini-modelo Contexto, Latência, Privacidade: quanto mais o assistente entende do “aqui e agora” da interface, mais ele parece inteligente; quanto menor a latência, mais natural fica; e quanto mais processamento local, maior a percepção de privacidade, embora isso dependa da implementação. machinelearning.apple.com

O que dá para esperar depois de 2024

O paper do ReALM apareceu no arXiv em 29 de março de 2024, e a própria Apple também publicou a pesquisa em seu portal de Machine Learning Research. arxiv.org

No texto original que circulou na época, havia expectativa de que a WWDC de junho trouxesse mais pistas. A WWDC 2024, porém, já aconteceu entre 10 e 14 de junho de 2024, então hoje o ponto não é “quando vai ser a WWDC”, e sim quais partes dessas pesquisas viraram produto e em que ritmo aparecem no ecossistema. apple.com

Para quem quer se aprofundar, vale ler o resumo oficial da Apple e a versão no arXiv, além da cobertura que ajudou a popularizar o tema: página da Apple Machine Learning Research, artigo no arXiv e a reportagem do Digital Trends. machinelearning.apple.com