25 de junho de 2025Inteligência Artificial15 min de leitura

"Busca semântica: encontrando significado, não palavras"

Por Schematize Blog · 25 de junho de 2025

Entenda como a busca semântica usa embeddings e similaridade vetorial para encontrar resultados por significado, por que ela supera a busca léxica e como combiná-las em uma busca híbrida.

A busca tradicional encontra documentos que contêm exatamente as palavras que você digitou. Mas e quando o usuário pergunta "como faço meu app rodar mais rápido?" e o melhor artigo se chama "Otimizando o desempenho da sua aplicação"? Nenhuma palavra em comum, mesmo significado. A busca semântica resolve esse problema buscando por sentido, não por texto literal. Neste artigo você vai entender como ela funciona por dentro, por que virou peça central da IA moderna e como aplicá-la na prática sem cair nas armadilhas mais comuns.

O limite da busca por palavras-chave

A busca clássica, usada por décadas, é léxica: ela casa termos. Algoritmos como o BM25 são excelentes em rankear documentos pela frequência e raridade das palavras da consulta. Funcionam muito bem quando o usuário usa exatamente os termos certos.

O problema aparece nas situações reais do dia a dia:

A busca léxica é cega para o significado. Ela não sabe que duas frases distintas querem dizer a mesma coisa. É aí que a busca semântica muda o jogo.

Por que sinônimos quebram a busca léxica

Imagine uma base de ajuda em que o artigo certo usa a palavra "fatura", mas o usuário sempre digita "boleto". Para o BM25, "fatura" e "boleto" são tokens completamente diferentes — não há sobreposição, então o documento relevante simplesmente não aparece no topo. Soluções tradicionais tentam remendar isso com listas de sinônimos mantidas à mão, mas essas listas são frágeis, incompletas e impossíveis de manter em escala. A busca semântica resolve o problema na raiz: ela aprende, a partir de dados, que "fatura" e "boleto" ocupam regiões próximas no espaço de significado.

A ideia central: comparar significados

Em vez de comparar palavras, a busca semântica compara representações de significado. Cada texto é convertido em um vetor de números que captura o seu sentido, e a busca passa a procurar os textos cujos vetores estão mais próximos do vetor da consulta.

Pense em um mapa: frases sobre o mesmo assunto ficam na mesma "região", mesmo que usem palavras diferentes. Buscar deixa de ser "quais documentos contêm estas palavras?" e passa a ser "quais documentos estão perto desta ideia?".

Essas representações são os embeddings, o coração de toda busca semântica. Sem eles, não há como medir proximidade de significado.

Como os embeddings capturam sentido

A descoberta de que o significado pode ser representado por posições em um espaço vetorial ganhou força com Mikolov et al. (2013). Eles mostraram que, ao treinar modelos sobre grandes volumes de texto, palavras com usos parecidos acabam com vetores parecidos — e que até relações semânticas (como gênero ou país-capital) aparecem como direções consistentes nesse espaço.

A intuição prática:

Modelos modernos vão além de palavras isoladas e geram embeddings de frases e parágrafos inteiros, levando em conta o contexto. É isso que permite comparar uma pergunta com um documento de forma robusta.

De palavras a frases: o salto do contexto

Os primeiros embeddings, como o word2vec de Mikolov, davam um vetor fixo para cada palavra — "banco" tinha sempre o mesmo vetor, independentemente da frase. Modelos baseados em Transformers mudaram isso: o vetor de "banco" passa a depender das palavras ao redor, distinguindo o assento da instituição financeira. Para a busca semântica, o avanço mais útil foi gerar um único vetor que resume uma sentença ou um trecho inteiro, capturando não só as palavras, mas como elas se combinam. É esse vetor de sentença que comparamos na hora da busca.

As dimensões de um embedding

Um embedding moderno costuma ter de algumas centenas a alguns milhares de dimensões (por exemplo, 384, 768 ou 1536). Cada dimensão não corresponde a um conceito legível por humanos — não existe a "dimensão da realeza" — mas o conjunto delas, em combinação, codifica nuances de significado. Mais dimensões podem capturar mais sutilezas, ao custo de mais memória e cálculo. Na prática, escolher o modelo de embedding é escolher também esse compromisso entre qualidade e custo.

Medindo similaridade

Para encontrar os resultados mais relevantes, a busca semântica calcula a similaridade entre o vetor da consulta e os vetores dos documentos. A medida mais comum é a similaridade do cosseno, que avalia o ângulo entre dois vetores:

Em pseudocódigo, o fluxo de uma busca semântica fica assim:

# Indexação (uma vez)
for doc in documentos:
    doc.vetor = embed(doc.texto)

# Consulta (em tempo real)
consulta_vetor = embed("como deixo meu app mais rápido")

resultados = sorted(
    documentos,
    key=lambda d: cosseno(consulta_vetor, d.vetor),
    reverse=True
)[:5]

Repare que o documento "Otimizando o desempenho da sua aplicação" seria recuperado mesmo sem compartilhar palavras com a consulta, porque seus vetores estão próximos.

Cosseno na prática

A similaridade do cosseno mede o ângulo entre dois vetores, ignorando o comprimento deles. Isso é desejável: queremos saber se dois textos apontam na mesma direção de significado, não se um é mais "longo" que o outro. Veja uma implementação direta:

import numpy as np

def cosseno(a, b):
    a = np.array(a)
    b = np.array(b)
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

Uma otimização comum é normalizar todos os vetores para comprimento 1 no momento da indexação. Com vetores normalizados, a similaridade do cosseno vira simplesmente o produto escalar (np.dot), que é muito mais rápido de calcular em escala. Vários bancos vetoriais fazem isso internamente.

Distância euclidiana e produto escalar

O cosseno não é a única métrica. Há também a distância euclidiana (a distância "em linha reta" entre dois pontos) e o produto escalar (dot product). Para vetores normalizados, as três produzem ordenações equivalentes; para vetores não normalizados, podem divergir. A regra prática: use a métrica recomendada pelo modelo de embedding que você escolheu, pois ele foi treinado com uma delas em mente.

Por que isso supera a busca léxica

A força da abordagem semântica não é teórica. Karpukhin et al. (2020), com o Dense Passage Retrieval, demonstraram empiricamente que recuperar passagens comparando vetores densos supera métodos tradicionais baseados em palavras-chave em tarefas de perguntas e respostas de domínio aberto.

A lição é clara: quando o usuário não sabe os termos exatos do documento — algo extremamente comum — a recuperação densa encontra o conteúdo certo onde a busca léxica falha.

Onde a busca léxica ainda ganha

Seria um erro concluir que a busca semântica vence sempre. Há casos em que o casamento exato de termos é justamente o que importa:

Reconhecer essas limitações é o que motiva a abordagem híbrida, mais adiante.

Escalando: a busca por vizinhos

Comparar a consulta com todos os documentos funciona para coleções pequenas, mas não para milhões de itens. Para escalar, a busca semântica se apoia em um banco de dados vetorial, que armazena os embeddings e usa índices especializados (como o HNSW) para encontrar os vizinhos mais próximos com altíssima velocidade.

Esses índices fazem uma busca aproximada: trocam uma fração mínima de precisão por ganhos enormes de desempenho. Na prática, é o que viabiliza busca semântica em tempo real sobre bases gigantescas.

Busca exata vs. aproximada (ANN)

A busca exata de vizinhos mais próximos (k-NN) compara a consulta com cada vetor da base — preciso, porém lento, com custo que cresce linearmente com o número de documentos. A busca aproximada (ANN, de Approximate Nearest Neighbors) organiza os vetores em estruturas que permitem pular a maior parte das comparações. O HNSW (Hierarchical Navigable Small World) constrói um grafo em camadas em que a busca "desce" rapidamente até a vizinhança certa. O resultado pode deixar passar um vizinho ocasionalmente, mas a perda de qualidade é mínima diante do ganho de velocidade — geralmente milissegundos mesmo com milhões de vetores.

O custo da indexação

Vale lembrar que gerar embeddings tem custo: cada documento precisa passar pelo modelo uma vez (e re-passar se você trocar de modelo). Em bases grandes, isso significa tempo de processamento e, com APIs pagas, custo financeiro. Por isso a indexação é feita uma vez e reaproveitada; só a consulta acontece em tempo real. Planejar a re-indexação ao trocar de modelo é parte importante do projeto.

Busca híbrida: o melhor dos dois mundos

A busca semântica não precisa substituir a busca por palavras-chave; muitas vezes o melhor é combiná-las. A busca híbrida une:

Os resultados das duas abordagens são combinados em um único ranking. Assim, uma consulta como "erro 500 no checkout" aproveita tanto o casamento exato de "500" e "checkout" quanto o entendimento semântico de "erro no pagamento".

Como combinar os rankings

A técnica mais usada para fundir os dois rankings é o Reciprocal Rank Fusion (RRF). Em vez de tentar comparar pontuações em escalas diferentes (o BM25 e o cosseno produzem números incomparáveis), o RRF olha apenas a posição de cada documento em cada lista e soma o inverso dessas posições:

def rrf(rank_lexico, rank_semantico, k=60):
    score = {}
    for r, doc in enumerate(rank_lexico):
        score[doc] = score.get(doc, 0) + 1 / (k + r)
    for r, doc in enumerate(rank_semantico):
        score[doc] = score.get(doc, 0) + 1 / (k + r)
    return sorted(score, key=score.get, reverse=True)

Documentos que aparecem bem colocados em ambas as listas sobem ao topo. O parâmetro k suaviza o peso das primeiras posições. O RRF é simples, robusto e não exige calibrar escalas — por isso virou padrão em muitos motores de busca modernos.

Metadados e filtragem

Significado nem sempre basta. Muitas buscas precisam combinar proximidade semântica com filtros estruturados: só documentos publicados nos últimos 30 dias, só de um determinado idioma, só de um autor específico. Por isso, ao indexar cada vetor, você guarda também metadados (data, categoria, permissões). Na consulta, o banco vetorial aplica esses filtros junto da busca por vizinhos — recurso conhecido como metadata filtering. Um detalhe de implementação importa: filtrar antes ou depois da busca aproximada afeta tanto a precisão quanto o desempenho, e bons bancos vetoriais oferecem estratégias para equilibrar os dois. Sem filtros, é fácil devolver resultados semanticamente perfeitos, porém inválidos para o contexto do usuário (um artigo arquivado, um produto fora de estoque, um documento que aquele usuário não pode ver).

Onde a busca semântica brilha

As aplicações são amplas e crescentes:

Esta última é, hoje, a mais importante. A busca semântica é o motor de recuperação por trás do RAG (Retrieval-Augmented Generation): antes de um LLM responder, a busca semântica encontra os trechos relevantes da sua base e os entrega como contexto. Para ver isso montado de ponta a ponta, vale acompanhar um guia de RAG na prática, em que a busca semântica dá ao modelo acesso ao conhecimento certo no momento certo.

O papel do chunking

Um detalhe prático decisivo: você raramente gera um embedding por documento inteiro. Documentos longos são quebrados em chunks (trechos), e cada chunk recebe seu próprio vetor. Por quê? Porque o embedding de um texto muito longo "dilui" o significado — uma página inteira vira um vetor genérico que não casa bem com perguntas específicas. Quebrar em parágrafos ou seções deixa cada vetor focado, melhorando a recuperação. Definir o tamanho do chunk (e a sobreposição entre eles) é uma das decisões mais influentes na qualidade de um sistema de busca semântica.

Avaliando a qualidade da busca

Não basta montar a busca semântica e confiar que "parece funcionar". Você precisa medir. As métricas clássicas de recuperação de informação ajudam a quantificar a qualidade:

Na prática, monte um pequeno conjunto de avaliação com consultas reais e os documentos que deveriam aparecer para cada uma. Ao trocar de modelo de embedding, ajustar o chunking ou ligar a busca híbrida, rode esse conjunto e compare as métricas. Sem essa disciplina, "melhorar" a busca vira chute. Mesmo um conjunto modesto de 30 a 50 consultas anotadas já revela regressões e ganhos com clareza.

O problema do "drift" e da re-indexação

Sua base de conhecimento muda: documentos são adicionados, editados, removidos. Cada alteração exige atualizar o índice — gerar o embedding do novo conteúdo e substituir o antigo. Ignorar isso causa drift: a busca devolve trechos que não existem mais ou ignora conteúdo recém-publicado. Planeje desde o início como manter o índice em sincronia com a fonte da verdade, seja por reprocessamento periódico, seja por atualização incremental a cada mudança.

Re-ranking: refinando o topo do ranking

Há uma técnica que costuma elevar bastante a qualidade percebida: o re-ranking em duas etapas. Primeiro, a busca vetorial (ou híbrida) recupera rapidamente um conjunto amplo de candidatos — digamos, os 50 mais próximos. Depois, um modelo mais caro e mais preciso, chamado cross-encoder, reavalia esses 50 olhando a consulta e cada documento juntos, e reordena para escolher os melhores 5.

Por que isso ajuda? O embedding comum (um bi-encoder) gera o vetor da consulta e o do documento de forma independente, o que é rápido, mas perde nuances da interação entre os dois. O cross-encoder analisa o par completo e captura relações finas — ao custo de ser lento demais para rodar sobre a base inteira. A combinação resolve o dilema: o vetor filtra a base toda em milissegundos, o cross-encoder refina só os finalistas. É um padrão comum em sistemas de busca e de RAG que buscam alta precisão.

Erros comuns ao implementar

Perguntas frequentes

Busca semântica substitui o BM25? Não necessariamente. Para muitos casos, a busca híbrida — semântica + léxica — entrega o melhor resultado, aproveitando os pontos fortes de cada uma.

Preciso de um banco vetorial para começar? Para protótipos com poucos milhares de documentos, uma busca exata em memória (com NumPy, por exemplo) basta. O banco vetorial vira necessário quando a escala e a latência exigem busca aproximada eficiente.

Qual modelo de embedding usar? Depende do idioma, do domínio e do orçamento. Modelos multilíngues funcionam bem para português; benchmarks públicos ajudam a comparar qualidade. Teste com os seus dados reais — desempenho em benchmark nem sempre se traduz no seu caso.

A busca semântica entende qualquer idioma? Apenas modelos treinados para isso. Modelos multilíngues conseguem até casar uma pergunta em português com um documento em inglês, mas modelos monolíngues não. Escolha conforme a sua base.

Conclusão

A busca semântica troca a correspondência de palavras pela comparação de significados, usando embeddings e medidas como a similaridade do cosseno. Fundamentada em ideias de Mikolov et al. (2013) e validada por Karpukhin et al. (2020), ela encontra o que o usuário quer dizer, não apenas o que ele digitou. Combinada com bancos vetoriais, com chunking bem dimensionado e com a abordagem híbrida via RRF, tornou-se a base de buscas inteligentes e de sistemas de IA modernos — uma ferramenta essencial para quem constrói aplicações que realmente entendem as pessoas.