Existe um arquivo no seu site que a maioria das pessoas que cuida de comunicação e marketing nunca abriu. Ele tem poucas linhas, não tem formatação, não tem imagem, não tem nada visualmente sofisticado. E, mesmo assim, ele é uma das primeiras coisas que o Google lê quando visita o seu site.
Esse arquivo se chama robots.txt. Ele funciona como um conjunto de instruções para os robôs de busca: diz ao Google quais partes do site podem ser exploradas e quais devem ser ignoradas. Quando está bem configurado, ninguém percebe, pois ele simplesmente faz o seu trabalho em silêncio. Quando está errado, pode estar prejudicando o SEO do site inteiro sem que nenhum alerta apareça em lugar nenhum.
Robots.txt não é um assunto exclusivo de desenvolvedores. Qualquer profissional que cuida de um site precisa saber o que é, para que serve e quando ele pode ser um problema.
Robots.txt é um arquivo de texto simples que fica na raiz do site. Para acessá-lo, basta digitar o endereço do site no navegador seguido de /robots.txt — algo como seusite.com.br/robots.txt — e o conteúdo aparece diretamente na tela, sem login, sem senha, sem nenhum acesso especial.
Quando o Google visita um site pela primeira vez, ou quando retorna para verificar se houve atualizações, o primeiro lugar que ele consulta é esse arquivo. O Google usa robôs automatizados para fazer esse trabalho, que são chamados de crawlers ou spiders, e percorrem a internet continuamente, seguindo links e registrando o conteúdo de páginas para que o algoritmo possa indexá-las e apresentá-las nos resultados de busca.
O robots.txt é o protocolo que orienta esses robôs. Ele indica quais áreas do site estão liberadas para rastreamento, quais devem ser ignoradas e, em alguns casos, com qual frequência o robô pode fazer visitas. É, em essência, a primeira conversa entre o seu site e o Google.
Um ponto importante de entender desde o início: o robots.txt não é um mecanismo de segurança. Ele instrui os robôs de boa conduta, como o Googlebot, mas não tem nenhum efeito sobre robôs maliciosos, que simplesmente ignoram as instruções. Para proteger conteúdo sensível ou restrito, existem outras ferramentas mais adequadas. O robots.txt cuida da relação com os mecanismos de busca, não da segurança do site.
A lógica do arquivo é simples. Ele funciona com um sistema de permissões e bloqueios aplicados a diferentes agentes, que é como o arquivo se refere aos diferentes tipos de robôs que podem visitar o site.
É possível configurar o arquivo para permitir que o Google acesse tudo livremente, para bloquear seções inteiras do site, para criar regras diferentes para robôs diferentes, ou para uma combinação dessas instruções.
Na prática, o robots.txt é usado para situações concretas que qualquer organização com um site pode enfrentar. Páginas administrativas e de login não precisam aparecer nos resultados do Google e o robots.txt pode instruir o Googlebot a não rastreá-las. Páginas de resultados de busca interna do site, que existem para o usuário navegar mas não têm valor para quem chega pelo Google, também costumam ser bloqueadas. Páginas de rascunho, de teste ou de conteúdo duplicado são outros casos em que o bloqueio faz sentido, para evitar que o Google indexe conteúdo que não está pronto ou que repete o que já existe em outra URL.
O robots.txt também é o lugar onde se indica ao Google onde está o sitemap do site, que é o mapa com todas as páginas que devem ser indexadas. Ter essa indicação no arquivo facilita o trabalho do Googlebot e garante que as páginas importantes sejam encontradas com mais eficiência.
Esse é o ponto que mais importa para quem cuida de um site sem ser desenvolvedor: os erros no robots.txt são silenciosos. Eles não aparecem como mensagem de erro na tela, não geram alertas automáticos, não fazem nenhuma página parar de carregar. O site continua funcionando normalmente para quem visita. O problema está acontecendo em uma camada que o visitante não vê.
O primeiro cenário de problema é o bloqueio involuntário. O arquivo está configurado para bloquear partes do site que deveriam ser indexadas pelo Google. Isso acontece com mais frequência do que parece: durante uma migração de site, quando um CMS é atualizado e sobrescreve configurações anteriores, ou quando alguém edita o arquivo sem entender completamente o que cada instrução faz. O resultado é que o Google para de rastrear páginas importantes. O tráfego orgânico cai. E como não há nenhum erro visível, a equipe leva tempo para identificar a causa.
O segundo cenário é a ausência de instruções adequadas. Quando o robots.txt não existe ou não está configurado para orientar o Google de forma estratégica, o Googlebot rastreia tudo, incluindo páginas que não deveriam aparecer nos resultados de busca. Páginas de teste, páginas administrativas, URLs duplicadas geradas automaticamente pelo sistema, páginas de busca interna sem conteúdo editorial. Quando essas páginas são indexadas, elas diluem a autoridade do domínio e podem prejudicar o posicionamento das páginas que realmente importam para o negócio.
Os dois cenários têm em comum o mesmo problema: o impacto não aparece onde o erro foi cometido. Aparece nos resultados de SEO, semanas ou meses depois, quando a causa já está difícil de rastrear.
A verificação básica está ao alcance de qualquer pessoa, sem nenhum conhecimento técnico.
O primeiro passo é acessar o arquivo diretamente pelo navegador, digitando o endereço do site seguido de /robots.txt. Se a página retornar um erro 404, o arquivo não existe. Se retornar conteúdo em texto, ele está presente.
Com o arquivo na tela, vale verificar algumas coisas. Se existe alguma instrução que bloqueia seções amplas do site sem uma razão clara. Se as páginas mais importantes,como as de produto, de serviço e de conteúdo estratégico, não estão inadvertidamente incluídas em algum bloqueio. E se o endereço do sitemap está indicado no arquivo.
Para uma análise mais completa, o Google Search Console é a ferramenta certa. Ele é gratuito, e deveria estar configurado em qualquer site que se preocupa com SEO. Dentro dele, é possível ver como o Googlebot está rastreando o site, quais páginas estão sendo indexadas, quais estão sendo bloqueadas e se há algum problema identificado com o robots.txt. O Search Console tem até uma ferramenta específica para testar se uma URL está sendo bloqueada pelo arquivo antes de fazer qualquer alteração.
O robots.txt é um elemento do SEO técnico, que é a camada da otimização para mecanismos de busca que cuida da infraestrutura do site. Ele trabalha junto com outros componentes como o sitemap, a estrutura de URLs, a velocidade de carregamento e a organização interna das páginas.
Essa camada técnica é o que permite que todo o trabalho de SEO on-page e off-page funcione. O conteúdo pode estar excelente, os títulos e headings podem estar perfeitos, a organização pode ser impecável, mas, se o Google não consegue rastrear as páginas corretamente, esse trabalho todo não chega ao destino.
O robots.txt sozinho não melhora o posicionamento de nenhuma página. Ele é um pré-requisito, não um diferencial. Quando está funcionando bem, é invisível. Quando está errado, sabota silenciosamente tudo o que está sendo construído nas outras frentes de SEO.
O robots.txt é um arquivo pequeno com um impacto desproporcional ao seu tamanho. Ele não exige conhecimento técnico avançado para ser verificado, está acessível para qualquer pessoa que cuida de um site e pode ser a causa de problemas de SEO que parecem inexplicáveis.
Não é necessário dominar o tema em profundidade para cuidar bem dessa parte do site. É necessário saber que o arquivo existe, entender o que ele faz e saber reconhecer quando algo pode estar errado.
Verificar o robots.txt leva menos de cinco minutos. E em alguns casos, esses cinco minutos podem explicar meses de tráfego orgânico estagnado.
SEO Off-page: o que é e como o que acontece fora do seu site influencia onde você aparece no Google
SEO off-page é o que o Google vê fora do seu site. Entenda o que são backlinks, por que autoridade externa importa e como construí-la de forma orgânica.
SEO On-page: o que é, por que importa e o que você pode fazer agora mesmo no seu site
SEO on-page é o que ajuda o Google a entender o seu site. Saiba quais elementos realmente importam e como aplicá-los sem depender de desenvolvedor.
Como definir o público-alvo ideal para o seu negócio (e parar de falar com todo mundo ao mesmo tempo)
Falar com todo mundo é não falar com ninguém. Aprenda a definir o público-alvo ideal da sua organização e transforme esforço de comunicação em resultado real.
Boleto
Reportar erro!
Comunique-nos sobre qualquer erro de digitação, língua portuguesa, ou de uma informação equivocada que você possa ter encontrado nesta página:
Os comentários e avaliações são de responsabilidade exclusiva de seus autores e não representam a opinião do site.