Web Crawler: Varrendo e Cadastrando as Páginas da WEB

Publicado Por: João KzamData de Publicação: 20/02/2015 às 7:00 AMEm: Mecanismos de busca

“Era triste para Page pensar que muitos inventores morreram sem ver os resultados de seus trabalhos”

(do livro GOOGLE, de David A Vise e Mark Mlseed).

O crawler (esteira rolante) ou spider (aranha) ou robot (robô) é uma aplicação que percorre as páginas existentes na web, recolhendo informações sobre as mesmas, informações essas que podem ser usadas, por exemplo, quando queremos procurar uma página através de um motor de busca. Quando se preenche no Google uma Expressão de Requisição esse programinha verifica se o termo, ou combinações deles, já foi indexado, conforme a requisição. Se existir o robot montará uma lista de resultados, que são os links que aparecem nas páginas de resultado do Google, caso contrário é automaticamente disparado um robot para buscar os termos na net.

Quando o crawler varre uma página ele contabiliza os termos da mesma com base na finalidade do site. Por exemplo: num site sobre datas comemorativas a palavra data tem peso significativo, o que tornará palavra um termo indexador da mesma. Assim acontecendo com todos os termos relacionados, tais como: comemoração, comemorativa, comemorar, dia, data, mês, ano, janeiro, fevereiro, março, etc… Concluindo, todos os termos que têm relação semântica (o que algo significa) entre si. Outras informações são capturadas no momento da varredura: os links que saem da página varrida, os links que chegam, o título da página, a URL (localizador uniforme de recurso) , etc… Após toda a varredura da página o crawler cria um resumo e incide sobre esse resumos regras de classificação, em seguida manda para os servidor do Google um índice da página varrida para ser disponibilizado para os searchers (usuários buscadores).

“Depois nos acertamos e nos tornamos bons amigos. Isso aconteceu há uns oito anos. Foi quando começamos a trabalhar duro nisso… a inspiração ainda precisa de muita transpiração.”

Quando carregamos o Google, que aparece aquela tela branca de carinha simples , digitamos naquela caixinha os termos a serem buscados, imediatamente o Google faz uma busca dos termos nos índices criados. Na verdade é isso o que acontece: o usuário está fazendo uma consulta nos índices de recursos da internet que se encontram nos servidores do Google. Acontece a mesma coisa quando consultamos um livro. Buscamos o assunto num índice e de posse do número da página nos deslocamos para a página onde se encontra o conteúdo.

Entre a consulta no Google e no livro só existe uma diferença. No livro temos no mesmo local índice (resumo do conteúdo) e conteúdo (páginas de conteúdo do livro), mas no Google essas duas coisas (índice e conteúdo) estão em locais diferentes: O índice está nos servidores do Google e o conteúdo que o índice identifica está nos computadores que formam a internet no mundo inteiro, no servidor de uma instituição do Governo, no servidor de um provedor de acesso (UOL, Bol, CorreioWeb, etc…).

Relacionado

Yotaphone 2: duas telas e uma bateria poderosa

Vine Kids: a “Galinha Pintadinha” inteligente

Qual é a sua opinião?Cancelar resposta

NOSSOS PODCASTS

PODCAST MAIS RECENTE

Tecnopod – A vacina contra Covid-19 e um futuro melhor

Publicidade