SEO pode parecer simples quando estudado superficialmente, mas não é incomum as pessoas se perderem em termos como Crawling, Index, Noindex e outros.
A parte técnica do trabalho é importante e indispensável quando se trata de maximizar eficiência e cliques.
É importante entender como o Google funciona e como guiar seus bots por seu site de uma forma que ele veja o que precisa ver, afim de acabar pro expor mais o que você quer.
Mais que importante, tal capacidade é completamente necessária para um profissional de SEO.
Muitas coisas parecem extremamente complexas até começarmos a entendê-las. Não é nem um pouco diferente com o comportamento dos mecanismos de busca. Uma vez que nos acostumamos com a termologia, fica cada vez mais fácil entender e prever o comportamento de tais mecanismos.
Comecemos pelo básico.
Crawling & Indexação
Se você lida com SEO, inevitavelmente vai acabar ouvindo estes termos. Crawling e Index são o básico do funcionamento padrão do Google.
Crawling
Esta palavra é usada para descrever a navegação do Google por um site. Afim de encontrar o que querem, bots de mecanismos de busca vão entrar em uma homepage e seguir seus links.
Isso significa que o bot entra no site e checa todas as páginas, incluindo as que você esqueceu que existiam.
Há um limite de até onde o Googlebot vai vasculhar o seu site baseado em uma série de variáveis, daí a importância do SEO.
Indexação ou Indexing
Simplificando, este é o processo de adicionar páginas à pesquisa no mecanismo de busca.
O Google, após fazer a varredura de seu site pelo processo acima, atribui um valor a esse e o coloca em suas páginas de busca. Páginas de valor muito baixo não são indexadas, daí a importância de otimizar o processo de Crawling pelo seu site.
Com SEO aplicado da melhor maneira possível, o Google vai esconder e mostrar páginas do jeito que você achar melhor.
NoIndex
Este é um termo que definitivamente causa muita confusão no meio do SEO. É muito comum você ver profissionais da área que ainda não compreendem completamente o uso do noindex.
No WordPress, todas as páginas são indexadas por padrão. Usando a tag, você não impede o Crawl, mas impede a indexação daquela página.
Há muita discussão sobre a utilidade e correta utilização da tag noindex. Em geral, ela evita que uma página seja exibida por buscadores, mas não impede que ela seja encontrada pelos mesmos.
No entanto, cogita-se que uma página que não está sendo indexada seja cada vez menos acessada pelo Google após o tempo. Suspeita-se que após alguns meses, o GoogleBot acesse cada vez menos ou até mesmo pare de acessar aquela página.
Index ou Noindex?
Então uma vez que tenha sido entendido o que é a tag e como o Google funciona, de forma geral, chegamos à pergunta:
“Categorias e arquivos de postagens devem ser indexadas no SEO?”
Em geral não há motivo para você se preocupar se o Google vai ou não indexar a página. Isso dificilmente vai influenciar no ranking ou no crawl do google pelo seu site.
Se o Google entrar no seu site, ele vai avaliar cada uma das páginas. Vendo valor nela, ele indexa, não vendo ele não indexa.
Outra possibilidade é que, mesmo que a página de pouco valor seja indexada, ela terá um ranking muito baixo. Isso dificilmente afeta a indexação ou a percepção do Google sobre o resto da sua página.
No entanto, isso pode se tornar um problema em uma página de E-Commerce, por exemplo, com milhares de produtos.
Robots.txt
Este arquivo é desconhecido por muitos, mesmo sendo fundamental no SEO.
O arquivo robots.txt é o protocolo ou padrão de exclusão de robôs. Ele determina o comportamento do Googlebot no site. Ou seja, é com este arquivo que você determina o caminho que o bot toma durante o crawl.
A partir deste arquivo, você pode bloquear completamente o acesso do bot a uma página.
Cuidado, no entanto, pois o Google também não será capaz de acessar links que só se encontram na página bloqueada. Isso significa que o Google fica cego para tudo que é encontrado na página e depois e para updates delas.
É válido usar este recurso para páginas bloqueadas por senha, carrinhos de compra, áreas reservadas para o admin e etc.
Erro 404
Uma vez que o Googlebot se depare com o erro 404, ele o respeitará e a página não vai ser indexada. Vale notar que o Googlebot continuará a checar a página vez ou outra para se certificar de se algo mudou.
Existe um status curioso que é conhecido como “Soft 404”. É um estado não oficial de uma página que existe, mas que não tem nenhum conteúdo.
O Googlebot vai tratar tal página exatamente como trata um erro 404, não indexando mas voltando eventualmente, procurando mudanças no status.
Robôs e Tags
É importante não tratar Robots.txt e a tag Noindex como se fossem a mesma coisa. Este é um erro comum.
Usando NoIndex, o Googlebot pode perder interesse em vasculhar a sua página, mas isso ainda não o impede de fazê-lo. Lembre-se que o Noindex funciona meramente para inibir os resultados em buscas. O Google ainda determinará um valor à página.
Conclusões
Mas afinal de contas, devo ou não indexar categorias e arquivos de postagem?
No fim, a resposta se resume a: você quer que o Google as exponha se ele atribuir valor a elas?
Indexar ou não a página não impede o Crawling e se o motivo da indexação da página é mais exposição, não vai fazer diferença se a página não tiver valor atribuído a ela.
Se você tiver páginas de baixo valor que são absolutamente necessárias para a navegação, talvez seja melhor não indexar. Outra solução, talvez mais adequada, é reorganizar os caminhos pelo seu site, diminuindo a quantidade de páginas de baixo valor.
A importância de indexar ou não estas páginas vem da quantidade de páginas do tipo que tem no seu site.