domingo, 8 de abril de 2012

Como funciona um motor de busca


Um motor de busca associa palavras que os utilizadores inserem numa janela de texto a um índice, apresentando assim sumários de conteúdo numa página de resultados (ou SERP – Search Engine Results Page).

Imagem do Spider/Crawler

Um motor de busca tem basicamente quatro componentes: O crawler (ou spider), o índice – a base de dados massiva criada pelo crawler, funciona de forma parecida ao índice dos livros – e o sistema runtime – que faz a ligação entre a consulta e o software de busca, tornando os dados constantes no índice inteligíveis para o utilizador, e ainda a apresentação dos resultados provenientes das três etapas anteriores.

O crawler (ou spider) é associado a um robot que salta de página em página, devorando links e texto. Na realidade este engenho nada tem de tangível. Com efeito, trata-se “apenas” dum poderoso programa informático que corre nos servidores Google e cuja tarefa é vasculhar e arquivar toda a web.


Uma vez indexadas as páginas há que encontrar critérios para as apresentar aos utilizadores. O software em que assenta a tecnologia de pesquisa Google processa cálculos simultâneos em fracções de segundo. O Google bot consegue neste momento, ler como um ser humano, mas fá-lo de forma muito mais rápida. Através de mais de 200 algoritmos, cujo primeiro é o PageRank, é examinada toda a estrutura de hiperligações da web, de forma a determinar quais as páginas mais importantes.

As probabilidades de indexação de um website aumentam significativamente, com as mudanças efectuadas ao conteúdo do mesmo.

Realiza em seguida uma análise de correspondência de hipertexto para estabelecer quais as páginas relevantes para uma determinada pesquisa a ser efectuada. Ao combinar a importância geral e a relevância específica para a consulta, o Google consegue colocar em primeiro lugar os resultados mais relevantes e fiáveis.

Abaixo podemos ver uma iconografia, desde o processo de crawling e de indexação até ao processo de apresentação de resultados (query).
Processo do Google

  
Importa referir que, apesar de o Google ter neste momento o domínio da pesquisa na internet, existem outros motores de pesquisa como o Bling. 

Sem comentários: