09 de setembro de 2024Inteligência Artificial13 min de leitura

O que é LoRA? Fine-tuning eficiente de modelos

Por Schematize Blog · 09 de setembro de 2024

Entenda como a adaptacao de baixo posto (LoRA) permite ajustar modelos gigantes treinando uma fracao minima dos pesos, com pouca memoria e baixo custo — e quando usar.

Ajustar um modelo grande costumava exigir GPUs caríssimas e dezenas de gigabytes de memória só para guardar uma cópia treinável dos pesos. O LoRA mudou esse jogo: ele permite especializar modelos enormes treinando uma fração ínfima dos parâmetros, com uma fração da memória. Entender como isso funciona ajuda a tomar decisões melhores sobre quando e como ajustar um modelo — e a evitar gastar caro com fine-tuning quando uma solução mais simples resolveria.

O problema que o LoRA resolve

Um modelo de linguagem moderno tem bilhões de parâmetros. O fine-tuning tradicional — chamado de full fine-tuning — ajusta todos eles. Isso traz três dores:

A pergunta que Hu, Shen, Wallis, Allen-Zhu, Li, Wang, Wang e Chen (2022) fizeram foi simples: será que precisamos mesmo ajustar todos os pesos para especializar um modelo? A resposta foi não — e o LoRA nasceu dessa constatação.

Para dar uma noção concreta da escala do problema: ajustar integralmente um modelo de 7 bilhões de parâmetros em precisão padrão pode exigir bem mais de 60 GB de memória de GPU quando você soma pesos, gradientes e estados do otimizador. Isso já te empurra para GPUs de datacenter caras ou para múltiplas placas. O LoRA derruba esse número a ponto de o mesmo ajuste caber em uma única GPU acessível — e é essa diferença que democratizou o fine-tuning.

A ideia central: adaptação de baixo posto

LoRA significa Low-Rank Adaptation (adaptação de baixo posto). A intuição parte de uma observação: quando você ajusta um modelo para uma tarefa, a mudança necessária nos pesos é, na prática, "pequena" em um sentido matemático — ela tem baixo posto (low rank).

Posto, de forma intuitiva, mede quanta informação independente uma matriz carrega. Uma matriz de baixo posto pode ser reconstruída a partir de poucos componentes. A descoberta foi que o delta de adaptação — o quanto os pesos precisam mudar — cabe muito bem nessa categoria.

Em vez de modificar uma matriz de pesos enorme W diretamente, o LoRA a congela e aprende uma pequena correção representada por duas matrizes finas, A e B:

W_ajustado = W (congelado)  +  B · A   (treináveis, pequenas)

Se W tem dimensão  d × d   (ex.: 4096 × 4096)
então A tem        r × d
e B tem            d × r
com r minúsculo (ex.: r = 8)

O número r é o rank: tipicamente algo entre 4 e 64. Como r é minúsculo perto de d, as matrizes A e B somadas têm pouquíssimos parâmetros comparadas a W. Treina-se só elas; o modelo original permanece intacto.

Um detalhe de inicialização importa para a estabilidade do treino: A costuma ser inicializada com valores aleatórios pequenos e B com zeros. Assim, no início do treino, B · A = 0, ou seja, o adaptador começa neutro — o modelo se comporta exatamente como o original e vai sendo "empurrado" gradualmente. Há ainda um fator de escala alpha/r aplicado à correção, que controla a intensidade do efeito do adaptador; ajustar alpha junto com r é parte da afinação prática.

Por que isso economiza tanto

A matemática do baixo posto é o que torna o LoRA tão eficiente. Em vez de d × d parâmetros treináveis, você treina 2 × r × d. Com d = 4096 e r = 8, isso é uma redução de várias ordens de grandeza nos parâmetros que precisam de gradiente e estado de otimizador.

Os ganhos práticos:

Esse último ponto distingue o LoRA de outras técnicas: a adaptação não pesa em produção.

Vale fazer a conta para sentir a magnitude. Numa matriz 4096 × 4096, o full fine-tuning mexe em cerca de 16,7 milhões de parâmetros. Com LoRA e r = 8, são 2 × 8 × 4096 ≈ 65.500 parâmetros — algo em torno de 0,4% do original, naquela camada. Some isso por todas as camadas atendidas e ainda assim você treina uma fração diminuta do modelo. É por isso que os adaptadores cabem em poucos megabytes e o treino fica leve.

Onde o LoRA atua no Transformer

O LoRA não é aplicado em qualquer lugar do modelo, e sim em matrizes específicas dentro da arquitetura Transformer. Na prática, ele costuma ser inserido nas matrizes de projeção do mecanismo de atenção — as projeções de query, key e value, e às vezes nas camadas densas.

A razão é que essas matrizes concentram boa parte da capacidade do modelo de adaptar comportamento. Ajustar a atenção com adaptadores de baixo posto se mostrou suficiente para grande parte das tarefas, sem mexer no resto do modelo — que continua sendo o mesmo LLM (Large Language Model) pré-treinado, agora com pequenas correções aprendidas.

Quanto mais matrizes você cobre com adaptadores, mais expressivo (e mais pesado) fica o ajuste. Uma decisão de afinação comum é começar só pelas projeções de atenção e, se a qualidade não bastar, estender para as camadas densas — sempre observando o trade-off entre capacidade de adaptação e número de parâmetros treináveis.

Como fica na prática

Bibliotecas como a peft da Hugging Face deixam o uso de LoRA quase declarativo: você descreve a configuração e ela injeta os adaptadores nas camadas certas. O esqueleto abaixo dá a ideia:

from peft import LoraConfig, get_peft_model

config = LoraConfig(
    r=8,                 # rank: o "tamanho" do adaptador
    lora_alpha=16,       # fator de escala da correção
    target_modules=["q_proj", "v_proj"],  # onde injetar (atenção)
    lora_dropout=0.05,
    task_type="CAUSAL_LM",
)

modelo_lora = get_peft_model(modelo_base, config)
modelo_lora.print_trainable_parameters()
# Ex.: trainable params: 4.7M || all params: 7.0B || trainable%: 0.06%

Repare na última linha: você acaba treinando uma fração diminuta dos parâmetros. Depois do treino, você salva apenas o adaptador (poucos MB) e, em produção, pode carregá-lo sobre o modelo base ou fundir os pesos para zerar a latência extra.

Por que cabe na lógica das leis de escala

A eficiência do LoRA conversa com o que Kaplan, McCandlish, Henighan, Brown et al. (2020) observaram sobre leis de escala: desempenho, dados e computação se relacionam de forma previsível, e grande parte da "inteligência" do modelo já está estabelecida no pré-treino em larga escala. Se o conhecimento fundamental já vive nos pesos congelados, faz sentido que a adaptação a uma tarefa específica exija ajustes pequenos — exatamente a aposta do baixo posto.

Em outras palavras: você não precisa reescrever o que o modelo já sabe; precisa só "empurrá-lo" levemente na direção da sua tarefa. E esse empurrão cabe em poucas matrizes finas.

LoRA e a família PEFT

LoRA é o representante mais conhecido de uma categoria chamada PEFT — Parameter-Efficient Fine-Tuning, ou ajuste fino eficiente em parâmetros. A ideia geral da PEFT é a mesma: congelar a maior parte do modelo e treinar só um pequeno conjunto de parâmetros novos.

Dentro dessa família, há variações úteis de conhecer:

Essa modularidade é uma das grandes vantagens operacionais: um modelo base, muitos adaptadores leves.

Vale entender melhor o QLoRA, porque é hoje uma das formas mais populares de ajustar modelos grandes barato. A ideia é carregar o modelo base em 4 bits (quantizado), o que reduz drasticamente a memória só para mantê-lo na GPU, e treinar os adaptadores LoRA por cima desse modelo congelado e quantizado. O resultado é conseguir ajustar modelos de dezenas de bilhões de parâmetros em uma única placa que, de outra forma, nem comportaria o modelo. O trade-off é alguma perda de precisão numérica do base, em geral aceitável para o ganho de viabilidade.

A capacidade de trocar adaptadores abre um padrão arquitetural interessante para produtos multi-tenant: você mantém um único modelo base carregado em memória e serve dezenas de clientes, cada um com seu adaptador específico, carregado sob demanda. Em vez de uma cópia gigante por cliente, você tem um modelo grande compartilhado e adaptadores de poucos megabytes — uma economia enorme de armazenamento e de memória.

Os hiperparâmetros que importam

Ao configurar um treino com LoRA, alguns botões definem o resultado. Conhecê-los evita tentativa e erro às cegas:

A afinação prática geralmente envolve fixar a maioria desses e varrer r e a taxa de aprendizado, medindo num conjunto de avaliação. Resista à tentação de mexer em tudo ao mesmo tempo: você perde a noção de causa e efeito.

LoRA na geração de imagens

Embora a fama de LoRA venha dos LLMs, ele virou padrão também na geração de imagens. Em modelos de difusão, treinar um LoRA com algumas dezenas de imagens de um estilo, personagem ou objeto específico permite que o modelo passe a gerá-lo de forma consistente — sem retreinar o modelo gigante por trás. O arquivo resultante tem poucos megabytes e pode ser compartilhado e combinado com outros adaptadores.

Esse uso popularizou a ideia de "ensinar um conceito novo" a um modelo grande com pouquíssimos exemplos e hardware modesto. É a mesma mecânica do baixo posto: o modelo base já sabe desenhar; o adaptador só o empurra na direção do estilo desejado. A possibilidade de empilhar adaptadores (um de estilo, outro de personagem) mostra na prática a modularidade que torna a técnica tão atraente.

Quando usar (e quando não)

LoRA é uma escolha excelente, mas dentro de um contexto. Vale lembrar a ordem de decisão discutida em Fine-tuning de LLMs: quando e como ajustar um modelo: primeiro prompting, depois RAG, e só então ajuste fino. Quando você chega à conclusão de que precisa ajustar, o LoRA costuma ser a forma padrão e recomendada de fazê-lo, por ser barata e reversível.

Bons casos para LoRA:

Quando LoRA não é a resposta:

A regra de bolso é distinguir conhecimento de comportamento. Se a questão é "o modelo não sabe os fatos da minha empresa", isso é conhecimento — resolva com RAG, que injeta os fatos no contexto e se mantém sempre atualizado. Se a questão é "o modelo sabe responder, mas não no formato, tom ou estilo que eu preciso, mesmo depois de muito prompt", isso é comportamento — e aí o ajuste fino com LoRA brilha. Tentar ensinar fatos via fine-tuning costuma ser caro, frágil (fica desatualizado no dia seguinte) e ainda sujeito a alucinação.

Erros comuns ao usar LoRA

Alguns tropeços aparecem com frequência em quem está começando:

Perguntas frequentes

LoRA muda a velocidade da inferência? Não, se você fundir os adaptadores de volta nos pesos do base após o treino. O modelo resultante roda na mesma velocidade do original. Se mantiver o adaptador separado para poder trocá-lo, há um pequeno custo, geralmente desprezível.

Posso aplicar LoRA fora de LLMs? Sim. A ideia é geral e é muito usada também em modelos de geração de imagem, por exemplo para ensinar um estilo visual específico com poucos exemplos.

Qual a diferença entre LoRA e QLoRA? QLoRA é LoRA aplicado sobre um modelo base quantizado (em geral 4 bits). Isso reduz ainda mais a memória necessária, ao custo de alguma precisão do base. Use QLoRA quando o modelo nem caberia na GPU de outra forma.

Quantos exemplos preciso para ajustar com LoRA? Depende da tarefa, mas qualidade vence quantidade. Centenas a alguns milhares de exemplos bem curados costumam ser suficientes para especializar estilo ou formato.

Conclusão

LoRA tornou o fine-tuning acessível ao democratizar uma ideia elegante: a adaptação de um modelo para uma tarefa tem baixo posto, então basta aprender uma pequena correção em vez de retreinar bilhões de pesos. O resultado são adaptadores minúsculos, treino que cabe em uma GPU, nenhum custo extra de inferência e a possibilidade de manter muitos ajustes sobre um único modelo base. Para quem constrói com IA, LoRA — e a família PEFT em volta dele — é hoje a forma padrão de especializar modelos quando prompting e RAG não bastam, transformando o ajuste fino de um luxo de poucos em uma ferramenta prática para qualquer dev. A chave é usá-lo para moldar comportamento, deixar conhecimento para a busca, e medir sempre o antes e o depois.

O que é LoRA? Fine-tuning eficiente de modelos

O problema que o LoRA resolve

A ideia central: adaptação de baixo posto

Por que isso economiza tanto

Onde o LoRA atua no Transformer

Como fica na prática

Por que cabe na lógica das leis de escala

LoRA e a família PEFT

Os hiperparâmetros que importam

LoRA na geração de imagens

Quando usar (e quando não)

Erros comuns ao usar LoRA

Perguntas frequentes

Conclusão

Referências

Leituras relacionadas

O que é alucinação em IA e como reduzi-la

O que são tokens em IA? Tokenização explicada

"Modelos de difusão: como a IA gera imagens"

Nenhum comentário ainda

Deixe seu comentário