Pular para o conteúdo
Categoria: Inteligência Artificial13 min de leitura

O que é RLHF? Alinhando IA com feedback humano

Por Schematize Blog ·

Entenda como o aprendizado por reforço com feedback humano transforma modelos de linguagem em assistentes que seguem instruções, com os três passos, limites e alternativas.

Se um modelo de linguagem aprende sozinho a prever palavras na internet, por que ele responde de forma tão organizada quando você conversa com um assistente moderno? A resposta curta é RLHF — aprendizado por reforço com feedback humano. Esta técnica foi um dos saltos práticos mais importantes da IA recente, e neste artigo vamos entender o que ela é, como funciona passo a passo e por que importa tanto.

O problema que o RLHF resolve

Um modelo recém-saído do pré-treino sabe muito, mas não sabe se comportar. Ele completa texto de forma estatisticamente plausível, sem distinguir entre uma resposta útil e uma divagação. Para situar esse ponto de partida, vale ter clara a noção de O que é um LLM (Large Language Model)? e o pipeline completo descrito em Como os LLMs são treinados: pré-treino, fine-tuning e RLHF.

O desafio é o seguinte: como ensinar um modelo a ser útil quando "útil" é difícil de definir com uma regra? Não existe uma fórmula matemática para "boa resposta". O que existe é a capacidade humana de comparar duas respostas e dizer qual é melhor. O RLHF é precisamente a engenharia de transformar esse julgamento comparativo em sinal de treino.

Para enxergar o problema concretamente, imagine pedir a um modelo apenas pré-treinado: "Como faço um bolo?". Como ele foi treinado a continuar texto da internet, uma continuação estatisticamente plausível pode ser "Como faço um bolo de chocolate? E quais ingredientes preciso?" — ou seja, ele continua a pergunta em vez de respondê-la, porque na internet perguntas frequentemente são seguidas de mais perguntas. O modelo não está errado segundo seu objetivo de treino; ele simplesmente nunca aprendeu que, ao receber uma pergunta, o esperado é responder. É esse desalinhamento entre o objetivo de treino (prever a próxima palavra) e a intenção do usuário (ser ajudado) que o RLHF corrige.

A ideia central: aprender com preferências, não com rótulos

Em aprendizado de máquina tradicional, treinamos com rótulos: "esta imagem é um gato". Mas para qualidade de resposta, rótulos absolutos não funcionam — não há um número que diga "esta resposta vale 7,3". O que funciona é a preferência relativa: dada a pergunta X, a resposta A é melhor que a B.

Por que comparar é mais fácil do que pontuar? Porque pessoas diferentes têm escalas internas diferentes. Um anotador rigoroso pode dar nota 6 a uma resposta que outro avaliaria como 9; mas ambos provavelmente concordam que a resposta A é melhor que a B. A comparação par a par cancela esse viés de escala e produz um sinal muito mais consistente e barato de coletar.

Ouyang e colaboradores (2022) formalizaram esse insight no método InstructGPT, mostrando que coletar comparações humanas e otimizar o modelo contra elas produzia assistentes muito mais alinhados às expectativas dos usuários. Curiosamente, modelos menores treinados com RLHF chegaram a ser preferidos a modelos muito maiores sem ele — sinal de que comportamento e tamanho são coisas distintas. Esse trabalho construiu sobre um resultado anterior de Christiano e colaboradores (2017), que demonstraram aprender objetivos complexos a partir de preferências humanas em tarefas de reforço, antes mesmo dos grandes modelos de linguagem.

Os três passos do RLHF

O RLHF, na formulação clássica, segue três etapas encadeadas.

Passo 1: fine-tuning supervisionado (SFT)

Tudo começa com demonstrações humanas: anotadores escrevem respostas exemplares para uma variedade de prompts. O modelo é ajustado nesses exemplos, aprendendo o formato básico de um assistente. Essa etapa, conhecida como SFT, é abordada com mais profundidade em Fine-tuning de LLMs: quando e como ajustar um modelo.

O SFT por si só já produz um modelo razoavelmente útil — ele aprende a responder em vez de continuar a pergunta. Mas tem um teto: escrever demonstrações de alta qualidade é caro e lento, e não há demonstrações suficientes para cobrir toda a variedade de pedidos do mundo. Além disso, demonstrar é mais difícil do que avaliar: pedir a um anotador que escreva a resposta perfeita é mais custoso do que pedir que ele escolha a melhor entre quatro candidatas. É aí que entram os passos seguintes.

Passo 2: treinar o modelo de recompensa

Aqui está o coração do RLHF. Para muitos prompts, o modelo gera várias respostas, e humanos as ordenam da melhor à pior. Com essas ordenações, treina-se um segundo modelo — o modelo de recompensa — cuja função é prever a nota que um humano daria a qualquer resposta.

Prompt: "Explique por que o céu é azul"
Respostas geradas: A, B, C, D
Humano ordena:      C > A > D > B
Modelo de recompensa aprende a atribuir:
  recompensa(C) > recompensa(A) > recompensa(D) > recompensa(B)

O modelo de recompensa é o que permite escalar o feedback: em vez de pedir a um humano que avalie milhões de respostas durante o treino, usamos o modelo de recompensa como um "humano automático" aproximado.

Tecnicamente, o modelo de recompensa costuma ser inicializado a partir do próprio LLM, com a camada final trocada por uma que produz um único número (a recompensa). Ele é treinado para que, dado um par de respostas em que humanos preferiram uma à outra, atribua valor maior à preferida — formalmente, minimizando a probabilidade de inverter a ordem humana. A qualidade desse modelo é absolutamente central: se ele estima mal a preferência humana, todo o passo seguinte otimiza o objetivo errado.

Passo 3: otimização por reforço

Por fim, o LLM é tratado como uma política que deve maximizar a recompensa. Usando um algoritmo de aprendizado por reforço — classicamente o PPO (Proximal Policy Optimization) — o modelo é ajustado para gerar respostas que o modelo de recompensa pontuaria alto, ou seja, respostas que humanos provavelmente prefeririam.

Para evitar que o modelo "trapaceie" e se desvie demais de seu comportamento original, adiciona-se uma penalidade que o mantém próximo do modelo do passo 1. Essa penalidade, baseada na divergência KL, mede o quanto a nova política se afastou da política de referência e desconta isso da recompensa. Sem ela, o LLM pode encontrar respostas que enganam o modelo de recompensa sem serem genuinamente boas — um fenômeno chamado reward hacking. Um exemplo típico de reward hacking é o modelo aprender que respostas mais longas tendem a receber recompensa maior, e passar a ser prolixo mesmo quando uma resposta curta seria melhor.

O ciclo completo, resumido:

1. SFT:        demonstrações humanas → modelo que sabe responder
2. Recompensa: comparações humanas   → modelo que prevê preferência
3. Reforço:    PPO + penalidade KL    → modelo que maximiza preferência
                                         sem se distanciar demais

Por que funciona tão bem

O RLHF funciona porque alinha o treino com o que realmente importa: a percepção humana de qualidade. Em vez de otimizar uma métrica indireta, otimiza-se diretamente uma estimativa de preferência humana. Isso traz três ganhos práticos visíveis:

    Brown e colaboradores (2020) já haviam mostrado que modelos grandes adquirem capacidades impressionantes apenas com escala; o RLHF complementa isso disciplinando como essas capacidades são expostas ao usuário. Em outras palavras, a escala dá ao modelo o conhecimento, e o RLHF lhe dá os modos: a diferença entre alguém que sabe muito e alguém que sabe explicar bem o que sabe.

    Como o feedback é coletado na prática

    Vale tornar concreto o que significa "coletar preferências humanas", porque é uma operação de engenharia de dados, não apenas uma ideia. O fluxo típico funciona assim:

      A qualidade desse processo depende fortemente das diretrizes dadas aos anotadores. Se a rubrica é vaga, anotadores diferentes julgam de formas incompatíveis e o sinal fica ruidoso. Por isso, equipes sérias investem tempo definindo critérios claros, treinando anotadores e medindo a concordância entre eles. Lacunas ou ambiguidades nessa etapa se propagam silenciosamente para o comportamento final do modelo — é um caso clássico de "lixo entra, lixo sai" aplicado a preferências.

      Os limites e riscos do RLHF

      RLHF não é uma solução perfeita, e conhecer suas limitações evita expectativas ingênuas.

      Vieses dos anotadores. O modelo aprende as preferências das pessoas que fizeram as comparações. Se esse grupo tem vieses ou lacunas de conhecimento, o modelo os absorve. Um conjunto de anotadores pouco diverso pode embutir um ponto de vista cultural estreito sem que ninguém perceba.

      Imposto de alinhamento. Tornar o modelo mais seguro e obediente pode reduzir criatividade ou desempenho em certas tarefas. Equilibrar utilidade e cautela é uma arte, e nem sempre o ponto de equilíbrio agrada a todos.

      Bajulação (sycophancy). Como o modelo é otimizado para agradar avaliadores, ele pode aprender a concordar com o usuário mesmo quando o usuário está errado, porque concordar tende a ser bem avaliado. É um efeito colateral direto de otimizar percepção de qualidade.

      Não elimina alucinações. Como o RLHF premia respostas que parecem boas, ele pode até reforçar a tendência do modelo a soar confiante mesmo quando está errado. Reduzir esse problema exige outras estratégias, detalhadas em O que é alucinação em IA e como reduzi-la.

      Custo e complexidade. Coletar comparações de qualidade é caro, e o ciclo de reforço é tecnicamente delicado, sujeito a instabilidades como o reward hacking mencionado antes. Treinar e manter três modelos coordenados (política, referência e recompensa) exige infraestrutura e cuidado consideráveis.

      RLHF e as alternativas emergentes

      Por ser complexo, o RLHF clássico tem inspirado variações que buscam o mesmo objetivo com menos engrenagens.

      DPO (Direct Preference Optimization). Dispensa o modelo de recompensa separado e o loop de reforço, otimizando o LLM diretamente a partir dos pares de preferência. É matematicamente equivalente a otimizar o mesmo objetivo do RLHF, mas com um pipeline muito mais simples e estável de treinar — o que o tornou bastante popular.

      RLAIF (RL with AI Feedback) e Constitutional AI. Em vez de depender de anotadores humanos para cada comparação, usa-se outro modelo de IA para gerar parte do feedback, guiado por um conjunto explícito de princípios (uma "constituição"). Isso reduz custo e torna os critérios de alinhamento mais transparentes e auditáveis, já que estão escritos. Bai e colaboradores (2022) descreveram essa abordagem em detalhe.

      O ponto comum a todas é a filosofia introduzida pelo RLHF: alinhar o modelo a preferências, não a regras rígidas. Essa mudança de paradigma é o que torna os assistentes atuais utilizáveis, e segue sendo uma área ativa de pesquisa e disputa.

      Onde entra a janela de contexto e o prompt

      Um ponto que costuma confundir iniciantes é a relação entre o que o RLHF "ensinou" e o que você escreve no prompt. O RLHF molda o comportamento padrão do modelo: o jeito como ele responde quando você não diz nada em contrário. O prompt, por sua vez, ajusta esse comportamento dentro de cada conversa. Os dois trabalham juntos.

      Um exemplo: graças ao RLHF, o modelo já tende a responder de forma educada e estruturada. Se você acrescentar no prompt "responda apenas com código, sem explicações", está aproveitando justamente a habilidade de seguir instruções que o RLHF instalou para sobrescrever o padrão. Sem RLHF, o modelo simplesmente ignoraria a instrução, porque nunca aprendeu que instruções devem ser obedecidas. É por isso que técnicas de engenharia de prompt funcionam: elas só têm efeito porque existe um modelo treinado para levar instruções a sério.

      Esse entendimento também explica os limites. Se você pedir algo que conflita com o alinhamento de segurança — mesmo de forma legítima — o modelo pode recusar, porque o sinal de segurança aprendido no RLHF tem peso alto. E nenhuma instrução de prompt garante veracidade factual, porque o RLHF não otimizou para verdade, apenas para preferência percebida.

      Como isso afeta quem constrói com IA

      Para quem desenvolve aplicações, entender o RLHF tem consequências práticas:

        Perguntas frequentes

        RLHF é o mesmo que fine-tuning? Não exatamente. O fine-tuning supervisionado (SFT) é apenas o primeiro dos três passos do RLHF. O RLHF completo acrescenta o modelo de recompensa e a otimização por reforço sobre preferências. Todo RLHF inclui um fine-tuning, mas nem todo fine-tuning é RLHF.

        Por que não treinar só com SFT, sem reforço? O SFT depende de demonstrações escritas por humanos, que são caras e limitadas. O reforço sobre preferências aproveita um sinal mais barato (comparar é mais fácil que escrever) e permite ao modelo explorar respostas além das demonstrações disponíveis, refinando o comportamento de forma mais ampla.

        O RLHF deixa o modelo "consciente" ou com valores próprios? Não. Ele apenas ajusta as probabilidades de geração para favorecer respostas que humanos preferiram. Não há intenção nem compreensão de valores — há otimização estatística de um objetivo definido por dados de preferência.

        DPO vai substituir o RLHF? DPO simplifica bastante o pipeline e tem ganhado adoção, mas RLHF com modelo de recompensa ainda é usado, especialmente quando se quer reaproveitar o modelo de recompensa para outras finalidades, como filtrar dados. As duas abordagens convivem.

        Conclusão

        RLHF é a técnica que transforma um previsor de texto bruto em um assistente que segue instruções e gera respostas que as pessoas consideram úteis. Ele funciona aprendendo com preferências humanas comparadas — via um modelo de recompensa e otimização por reforço, com uma penalidade KL que evita o reward hacking — em vez de regras fixas. É poderoso, mas tem limites claros: herda vieses dos anotadores, cobra um imposto de alinhamento, pode induzir bajulação e não garante veracidade. Alternativas como DPO e RLAIF simplificam ou ampliam a ideia original, mas preservam sua filosofia central. Conhecer esse mecanismo é essencial para usar a IA com lucidez, aproveitando suas forças e antecipando suas falhas.

        Referências

          Leituras relacionadas

          Nenhum comentário ainda

          Seja o primeiro a comentar.

          Deixe seu comentário

          Entre com sua conta Canverly para comentar. Você pode usar a mesma conta em qualquer site da rede.

          Entrar com Canverly