03 de julho de 2024Inteligência Artificial13 min de leitura

O que é Machine Learning? Aprendizado de máquina sem jargão

Por Schematize Blog · 03 de julho de 2024

Entenda o que é Machine Learning, os tipos de aprendizado e como máquinas aprendem padrões a partir de dados, a base da inteligência artificial moderna.

No software tradicional, um programador escreve regras explícitas: "se isto, faça aquilo". O Machine Learning vira essa lógica do avesso — em vez de programar as regras, você mostra exemplos e deixa a máquina descobrir os padrões sozinha. Essa mudança de paradigma é o que torna possível desde filtros de spam até os modelos de linguagem que conversam com você. Neste artigo, vamos desmistificar o aprendizado de máquina sem jargão.

A virada de chave: dados no lugar de regras

Imagine programar um detector de spam à mão. Você começaria com regras como "se contém a palavra 'promoção', marque como spam". Logo perceberia que é impossível: a quantidade de exceções e combinações é infinita, e os spammers mudam de tática toda semana.

O Machine Learning (ML), ou aprendizado de máquina, propõe outro caminho. Em vez de escrever as regras, você fornece milhares de exemplos rotulados ("este é spam", "este não é") e um algoritmo aprende, a partir deles, os padrões que separam uma classe da outra. O resultado desse aprendizado é um modelo.

Em resumo, a definição prática de ML é: sistemas que melhoram seu desempenho em uma tarefa a partir de dados, sem serem explicitamente programados para cada caso.

Vale situar o ML no mapa maior. Inteligência artificial é o campo amplo de fazer máquinas exibirem comportamento inteligente. Machine learning é a abordagem dominante dentro da IA hoje: alcançar esse comportamento aprendendo de dados, em vez de codificar regras à mão. E o deep learning, que veremos adiante, é um subconjunto do ML baseado em redes neurais profundas. Sempre que alguém usa esses termos de forma intercambiável, vale ter esse encaixe em mente: um contém o outro.

Os três grandes tipos de aprendizado

O Machine Learning se organiza em três grandes famílias, cada uma adequada a um tipo de problema.

1. Aprendizado supervisionado. Você treina com dados rotulados: cada exemplo vem com a resposta certa. O modelo aprende a mapear entradas em saídas. É o tipo mais comum e se divide em:

2. Aprendizado não supervisionado. Aqui não há rótulos. O modelo busca estrutura escondida nos dados, como agrupar clientes parecidos (clustering) ou reduzir a complexidade de um conjunto de dados.

3. Aprendizado por reforço. Um agente aprende por tentativa e erro, recebendo recompensas ou punições ao interagir com um ambiente. É a abordagem usada para ensinar máquinas a jogar ou a controlar robôs.

Como escolher entre eles? A pergunta-guia é sobre os dados que você tem. Se cada exemplo já vem com a resposta certa, é supervisionado. Se você só tem dados crus e quer descobrir agrupamentos ou anomalias, é não supervisionado. Se o problema envolve uma sequência de decisões com consequências ao longo do tempo — um jogo, um robô, uma política de recomendação que se otimiza com o uso —, é reforço. Há ainda combinações, como o aprendizado auto-supervisionado, em que o próprio dado gera os rótulos (prever a próxima palavra de um texto, por exemplo) — a base do treino dos grandes modelos de linguagem.

Como uma máquina realmente "aprende"

O coração de quase todo modelo de ML é um processo de otimização. A intuição:

Em redes neurais, esse ajuste é feito por gradiente descendente com retropropagação: o erro é propagado de volta pela rede, indicando como cada parâmetro deve mudar. A cada passada pelos dados (uma época), o modelo erra um pouco menos.

Um esqueleto de treino, em pseudocódigo, deixa o ciclo claro:

modelo = inicializar_parametros_aleatorios()

for epoca in range(num_epocas):
    for entrada, resposta_certa in dados_treino:
        previsao = modelo(entrada)
        erro = funcao_de_perda(previsao, resposta_certa)
        ajustar_parametros(modelo, erro)  # gradiente descendente

O objetivo final não é decorar os exemplos de treino, e sim generalizar: acertar em dados que o modelo nunca viu.

Vale desmistificar dois termos que assustam. A função de perda é só um número que diz "o quão errado você está": quanto maior, pior. Para regressão, costuma ser algo como o erro quadrático médio; para classificação, a cross-entropy. O gradiente é a direção em que mexer cada parâmetro aumenta o erro — então o algoritmo anda no sentido oposto, descendo a "ladeira" do erro. A taxa de aprendizado controla o tamanho de cada passo: grande demais, o treino oscila e diverge; pequena demais, o treino fica lento e pode empacar. Esse trio — perda, gradiente, taxa de aprendizado — é o motor de quase todo modelo moderno.

Um exemplo concreto na prática

Para sair da abstração, veja como um classificador supervisionado típico é treinado com uma biblioteca como o scikit-learn. O padrão é quase sempre o mesmo: separar os dados, treinar (fit), prever (predict) e avaliar.

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# X = atributos (features), y = rótulos
X_treino, X_teste, y_treino, y_teste = train_test_split(
    X, y, test_size=0.2, random_state=42
)

modelo = RandomForestClassifier()
modelo.fit(X_treino, y_treino)         # aprende padrões nos dados de treino

previsoes = modelo.predict(X_teste)    # prevê em dados nunca vistos
print(accuracy_score(y_teste, previsoes))  # mede a generalização

Repare que a medição de qualidade acontece sobre dados que o modelo não viu no treino (X_teste). Esse cuidado é o que separa uma avaliação honesta de uma ilusão de competência — e nos leva direto ao próximo tema.

Treino, validação e o fantasma do overfitting

Para saber se um modelo realmente generaliza, dividimos os dados em conjuntos:

O grande inimigo é o overfitting (sobreajuste): o modelo "decora" o conjunto de treino, incluindo seus ruídos, e vai mal em dados novos. O oposto é o underfitting, quando o modelo é simples demais para capturar o padrão. Bons projetos de ML vivem no equilíbrio entre os dois, usando técnicas de regularização e mais dados.

Como você reconhece overfitting na prática? O sinal clássico é uma lacuna entre treino e teste: o modelo acerta quase tudo no treino, mas tropeça no teste. É como um aluno que decorou as respostas da lista de exercícios e trava na prova com perguntas novas. As ferramentas para combater isso incluem:

Há também o conceito de trade-off viés-variância: modelos muito simples têm alto viés (erram sistematicamente, underfitting), modelos muito complexos têm alta variância (instáveis, overfitting). A arte do ML é encontrar o ponto entre os dois.

A importância dos dados — e das suas representações

Em ML, vale o ditado: dados ruins, modelo ruim ("garbage in, garbage out"). A qualidade, a quantidade e a representatividade dos dados muitas vezes importam mais do que o algoritmo escolhido.

Um ponto-chave é como os dados são representados numericamente. Imagens viram matrizes de pixels; texto precisa virar números de forma que preserve significado. É aqui que entram os embeddings, representações vetoriais que capturam relações semânticas e alimentam modelos modernos de linguagem e visão. Boas representações são, frequentemente, o que separa um modelo medíocre de um excelente.

Há ainda armadilhas sutis nos dados que sabotam projetos mesmo quando o algoritmo está correto:

Do ML clássico ao Deep Learning

Por muito tempo, o ML dependia de engenharia de atributos manual: especialistas decidiam quais características extrair dos dados. O Deep Learning — ML com redes neurais profundas — mudou isso ao aprender as próprias representações diretamente dos dados brutos.

Esse salto foi impulsionado por uma arquitetura específica. A arquitetura Transformer revolucionou o processamento de linguagem ao permitir que modelos captassem relações de longo alcance no texto com eficiência. Foi a base para os modelos gigantes que vieram depois.

Mas Deep Learning não é sempre a melhor escolha. Em dados tabulares (planilhas, registros de banco), métodos clássicos como árvores de decisão e gradient boosting frequentemente vencem redes neurais, treinam mais rápido e são mais fáceis de interpretar. Deep learning brilha quando os dados são brutos e de alta dimensão — imagens, áudio, texto livre —, onde aprender representações automaticamente faz toda a diferença. A lição prática: escolha a ferramenta pelo problema, não pela moda.

Medindo o desempenho: além da acurácia

Dizer que um modelo "acerta 95%" parece ótimo, mas pode esconder problemas graves. A escolha da métrica certa depende do que está em jogo, e algumas merecem destaque:

Há quase sempre um trade-off entre precisão e recall: apertar o modelo para errar menos falsos positivos costuma fazê-lo perder positivos verdadeiros, e vice-versa. Onde colocar esse limiar é uma decisão de negócio, não puramente técnica. Em regressão, o raciocínio muda: olha-se erro médio (como o RMSE) e o quanto o modelo explica da variação dos dados. A lição geral é a mesma: escolher a métrica errada leva a otimizar a coisa errada.

Escala: mais dados e mais parâmetros

Uma descoberta marcante da última década foi o papel da escala. Kaplan et al. (2020) documentaram as chamadas leis de escala: o desempenho dos modelos de linguagem melhora de forma previsível à medida que aumentam os dados, os parâmetros e o poder computacional de treino.

Levando essa ideia ao extremo, Brown et al. (2020) mostraram, com o GPT-3, que modelos suficientemente grandes passam a aprender novas tarefas a partir de pouquíssimos exemplos no próprio prompt — o chamado few-shot learning — sem nenhum re-treinamento. Foi um marco que reposicionou o que se esperava de modelos de aprendizado.

Esses avanços levaram diretamente aos sistemas que você usa hoje, como o LLM (Large Language Model), e à explosão da IA generativa, capaz de produzir texto, código e muito mais.

ML além do texto

Embora a linguagem tenha dominado as manchetes, o Machine Learning vai muito além. Na geração de imagens, por exemplo, os modelos de difusão aprenderam a criar figuras realistas partindo de ruído, refinando-o passo a passo. É a mesma base — aprender padrões a partir de dados — aplicada a um problema visual.

Esse é o ponto a guardar: ML não é uma única técnica, e sim um paradigma. Classificação, agrupamento, geração de imagens e conversação compartilham a mesma ideia central de aprender com exemplos.

O ciclo de vida de um projeto de ML

Treinar o modelo é só uma etapa. Um projeto real de Machine Learning costuma seguir um ciclo que vale conhecer antes de começar:

Esse último ponto é frequentemente esquecido por iniciantes: um modelo não é um artefato pronto para sempre. Os padrões dos dados mudam (novos tipos de spam, novos comportamentos de cliente), e o desempenho cai silenciosamente se ninguém estiver olhando.

Perguntas frequentes

Preciso saber matemática avançada para começar? Para usar ML com bibliotecas modernas, uma noção intuitiva de erro, otimização e estatística básica já leva longe. Matemática mais profunda (álgebra linear, cálculo) ajuda a entender o que acontece por dentro e é importante para quem quer pesquisar ou criar modelos do zero.

Qual a diferença entre ML e IA? IA é o campo amplo de máquinas inteligentes; ML é a abordagem de alcançar isso aprendendo de dados. Quase toda IA prática hoje é, na verdade, machine learning.

Quantos dados eu preciso? Depende da complexidade do problema e do modelo. Tarefas simples com bons atributos podem precisar de poucos milhares de exemplos; deep learning costuma exigir muito mais. Qualidade e representatividade quase sempre importam mais que volume bruto.

Por que meu modelo vai bem no teste e mal na vida real? Causas comuns: vazamento de dados durante o treino, dados de teste que não representam a produção, ou data drift (o mundo mudou desde a coleta). Vale revisar como os dados foram separados e se a distribuição de produção bate com a de treino.

ML sempre é a melhor solução? Não. Se um conjunto de regras simples resolve com precisão e é fácil de manter, ele pode ser preferível. ML compensa quando os padrões são complexos demais para escrever à mão e há dados suficientes para aprendê-los.

Conclusão

Machine Learning é o paradigma de ensinar máquinas a encontrar padrões a partir de dados, em vez de programá-las com regras fixas. Vimos seus três tipos de aprendizado, o ciclo de treino guiado pela redução de erro, o cuidado contra o overfitting, o papel central dos dados e das suas representações, e o ciclo de vida completo de um projeto — incluindo o monitoramento que tanta gente esquece. Da engenharia de atributos ao Deep Learning, e das leis de escala de Kaplan et al. (2020) ao few-shot learning de Brown et al. (2020), o ML é a fundação concreta sobre a qual toda a IA moderna foi construída — e um excelente ponto de partida para quem quer criar com inteligência artificial.

O que é Machine Learning? Aprendizado de máquina sem jargão

A virada de chave: dados no lugar de regras

Os três grandes tipos de aprendizado

Como uma máquina realmente "aprende"

Um exemplo concreto na prática

Treino, validação e o fantasma do overfitting

A importância dos dados — e das suas representações

Do ML clássico ao Deep Learning

Medindo o desempenho: além da acurácia

Escala: mais dados e mais parâmetros

ML além do texto

O ciclo de vida de um projeto de ML

Perguntas frequentes

Conclusão

Referências

Leituras relacionadas

O que é alucinação em IA e como reduzi-la

O que são tokens em IA? Tokenização explicada

"Modelos de difusão: como a IA gera imagens"

Nenhum comentário ainda

Deixe seu comentário