Educação, Computação e Web
Dr. José Palazzo Moreira de Oliveira

Professor Titular do Instituto de Informática da UFRGS

Home ] Acima ] Recursos para buscas na Web ] [ Sistemas de Informação e Web ] Aperfeiçoando a busca ] Buscando imagens e fotos ] Busca avançada ] Busca em portais ] 

Módulo I - A Internet: uma biblioteca mundial

Conceitos

A Internet oferece um volume muito grande de informação. A quantidade de máquinas servidoras ligadas na rede aumenta de forma muito rápida. Hoje podemos considerar a Internet como a grande biblioteca pública do mundo. Em muitas áreas do conhecimento encontramos uma quantidade enorme de informação, notem que esta disponibilidade de informação ocorre em áreas específicas. Por exemplo, em Computação a quantidade de material disponível é enorme, isto não ocorre em todas as áreas do conhecimento, se bem que cada vez mais conteúdos de todas as áreas do conhecimento estão sendo disponibilizados. A Internet oferece uma série de serviços para o armazenamento e para a recuperação de informações tais como a transferência de arquivos (FTP) e o acesso á páginas através da Web.

A Internet

Caso você deseje ter uma visão detalhada sobre o número de hosts (computadores que podem ser acessados remotamente) bem como sobre a arquitetura da Internet os seguintes sites, em inglês, são de interesse:

Para obter estatísticas de seu site este link oferece várias ferramentas.


A grande pergunta que iremos responder neste tutorial é:

  • Como realizar uma pesquisa de qualidade sobre os dados distribuídos em inúmeros serviços disponíveis na Internet?

Em particular vamos dar atenção à Web. A busca manual de uma página sobre um tópico específico na Web é praticamente impossível pois implica no conhecimento do conteúdo dos inúmeros servidores. Isto quer dizer que para acessar um determinado conteúdo você deve conhecer o endereço do servidor e da página desejada (URL) que mantém aquela informação. Por exemplo, para saber as novidades sobre o instituto de Informática da UFRGS você precisa saber o endereço do servidor Web que mantém as páginas do Instituto; neste caso o endereço é http://www.inf.ufrgs.br.

Como o número de servidores Web é imenso e está crescendo cada vez mais e é impossível:

  • Criar manualmente um índice global com todos os sites disponíveis na Web.

Assim é necessário:

  • Identificar de forma automatizada os endereços na Web essenciais para atender as necessidades de informação dos usuários.


A Web como fonte de informações

Como fazer isto? Utilizando os serviços de busca. Serviços de busca são mecanismos de recuperação e indexação de páginas Web. Estes mecanismos geram grandes bancos de dados sobre os quais podem ser executadas as consultas.

Se você utiliza o MS Internet Explorer pode realizar uma busca diretamente da barra de endereços. Imagine que você deseja se informar sobre os sanduíches com pão e uma fatia de carne assada denominados "hamburgers". Como você procederia? Uma solução imediata é digitar "hamburger" na linha de endereço do MS Internet Explorer e rápidamente serão encontradas as páginas que contém esta palavra. Abaixo está a cópia da tela com o comando que produz esta consulta.

Como isto é possivel? É simples, o MS Internet Explorer não reconhece a expressão "hamburger" como uma instrução para acessar uma página Web, em conseqüência envia a palavra ou as palavras digitadas para o serviço de busca MSN Web Search. O serviço de busca retorna as páginas que contém a palavra ou frase da consulta. Tentem, agora, a expressão de busca "cachorro quente".

A consulta acima retornará as páginas que contenham a expressão "cachorro quente" e não as páginas que contenham as palavras "cachorro" e "quente" em diferentes locais do texto.

Explicando o funcionamento: o serviço de busca, neste caso o MSN Web Search, coleta páginas na Web (documentos), e as indexa, isto é, seleciona as palavras existentes na página para a geração de um índice e guarda os resultados. O usuário escolhe uma ou mais palavras e escreve uma consulta que satisfaça os requisitos (necessidades) de sua busca. No nosso caso as consultas geradas foram: "hamburger" e "cachorro quente". O serviço de busca procura as similaridades, isto é, as páginas indexadas que contenham a ou as palavras utilizadas na consulta. Finalmente o serviço de busca oferece uma lista com os apontadores para as páginas que satisfizeram a consulta. Esta lista é classificada com as páginas mais similares a consulta em primeiro lugar. Observe: hamburger em inglês e hambúrguer em português, faz toda a diferença!

Resumo:

  1. O serviço de busca coleta páginas na Web e gera um índice com as palavras contidas nestas páginas;
  2. Um usuário escreve uma consulta com as palavras que julga serem adequadas para achar a página desejada;
  3. O usuário envia estas palavras para o sistema de busca;
  4. O sistema de busca compara estas palavras (consulta) com o índice das páginas Web catalogadas;
  5. As páginas mais semelhantes com a consulta (as que tem mais palavras comuns com o texto enviado na consulta) são escolhidas e enviadas ao usuário;
  6. O usuário verifica a qualidade da resposta e escolhe as páginas recuperadas de atendam a sua consulta.

No caso inicial, apresentado acima, foi utilizado o serviço MSN Web Search pois o mesmo vá vem associado com o MS Internet Explorer. Mas se você não utilizar este sistema operacional ou se preferir outro navegador (Web browser) existem inúmeros outros sistemas de busca que podem ser acessados. Entre outros podemos citar o Google, o AltaVista e o Yahoo! No caso do navegador Firebird, da Mozilla.org, o mecanismo de busca associado é o Google. Neste caso ao digitar "cachorro quente" na linha de endereço o Google é acionado na opção "estou com sorte" e o site mais provável é acessado.

E o resultado será:

Note que neste caso a seleção do site mais adequado é feita pelo Google. Este tipo de consulta é apropriado pra os casos onde a consulta deve gerar um único site. Este tipo consulta ocorre quando você está procurando pela página principal (homepage), por exemplo, a consulta "Barco Cisne Branco" resultará na página a seguir, com informações sobre um barco de turismo no Lago Guaíba, em Porto Alegre.

Dica:

Procure definir uma expressão de consulta com duas ou três palavras que caracterizem bem o assunto que está sendo pesquisado.


A qualidade da busca

Para que você consiga atingir os resultados desejados em sua pesquisa deve considerar os dois pontos:

1) qual serviço de busca utilizar, e
2) como escrever uma boa consulta.

Qual o motivo de escolhermos um entre os diversos sistemas de busca? Todos estes serviços de busca são iguais? A resposta é:

  • Nao, cada serviço de busca possui suas características específicas e, mais importante, cobrem conjuntos muito diferentes de páginas na Web.

Nenhum serviço de busca consegue recuperar todas as páginas existentes. A figura abaixo ilustra esta idéia. Cada serviço de busca recupera um conjunto de páginas, algumas são recuperadas por mais de um serviço mas nenhum indexa todas as páginas da Web. Se você utilizar apenas um serviço de busca não conseguirá recuperar muitas das páginas que podem ser interessantes para sua consulta. Na figura a seguir procuro mostrar que a cobertura de cada serviço de busca é diferente. Nenhum serviço de busca cobre todas as páginas existentes na Web. Para você ter uma idéia do número de páginas indexadas realize uma consulta sobre a palavra "a" que existe em praticamente todas as páginas. Hoje (08-Jul-2006) o Google indexa cerca de 24.000.000.000 páginas!

A segunda questão é, também, muito importante: Todas as buscas realizadas tem a mesma qualidade? A resposta é, novamente: não, a qualidade da busca depende:
(i) da quantidade de páginas recolhidas pelo serviço de busca;
(ii) da qualidade da consulta.

A recuperação consiste em selecionar as palavras utilizadas na consulta e localizar cada ocorrência destas palavras nas páginas Web coletadas pelo serviço de busca. A consulta (você já sabe que uma consulta é uma palavra ou seqüência de palavras) representa os requisitos (as necessidades) de informação do usuário. O serviço de busca tenta encontrar as páginas Web mais semelhantes a uma consulta. Esta atividade é denominada "Processo de identificação de similaridades". No caso mais simples a similaridade é identificada pela contagem das palavras utilizadas na consulta e existentes nas páginas. As páginas mais similares em relação a consulta são aquelas que contém o maior número de palavras utilizadas na formulação da consulta. É essencial que você consiga escrever uma consulta que tenha o conteúdo mais próximo possível ao conteúdo do documento procurado.

Dica:

As páginas na Web são coletadas pelas ferramentas de busca e indexadas. Ao ser feita uma consulta um mecanismo de identificação de similaridades escolhe, entre os milhões de páginas armazenadas pelo serviço de busca, aquelas que mais se aproximam da consulta. Portanto procure colocar-se na posição de quem quer divulgar uma informação na Web, o web designer, se você conseguir fazer isto suas consultas serão muito mais eficientes.


Dica:

Veja como é interessante ter a barra de ferramentas Google instalada. Uma das vantagens das ferramentas é o indicador de PageRank™ da Barra de ferramentas para saber como os algoritmos do Google avaliam a importância da página que está sendo exibida.

Realize os seguintes exercícios:

1.1 Você deseja comprar sanduíches do tipo hambúrgueres, realize uma busca nos serviços listados, se quiser e conhecer outros utilize-os. Para realizar estas busca utilize a palavra "hamburguer". Complete a tabela a seguir com os resultados obtidos e escreva um pequeno texto resumindo sua avaliação sobre esta pesquisa.

Serviço de busca

Sua nota para
o serviço de
busca

Número de páginas
encontradas
As primeiras páginas encontradas
resolveram a sua necessidade de
informação?

1a

2a

3a

4a

Google            
Altavista            
HotBot            
Todo BR            
Netscape            
MSN            
Ask.com            

Sapo

           
Entre os inúmeros serviços de busca na Web encontramos os seguintes:

1.2 As cinco primeiras páginas recuperadas em cada serviço de busca foram as mesmas? Faça uma tabela com os resultados das buscas. Preencha o modelo a seguir. Este exercício permite compreender as diferenças nos sistemas de ordenação por relevância das páginas dos diferentes serviços de busca.

Páginas

Google

Yahoo!

Todo Br

MSN

Netscape

Lycos

Ask.com

Sapo

http://www.xxx.yyy.com

S

N

S

S

N

N

S

S

                 
                 

1.3 Preste muita atenção nas páginas de resultado dos diferentes serviços de busca, veja se há algo interessante a ser relatado sobre estas páginas ou sobre o conjunto de páginas recuperadas.


1.4 Descreva as diferenças percebidas entre cada um dos serviços de busca utilizados.


1.5 Procure realizar esta busca: "descobrir onde é possível comprar hambúrgueres", isto é, escolha palavras ou grupos de palavras para aperfeiçoar a busca. Explique o que você fez e os resultados desta nova consulta.


 

Blog. do Prof. Palazzo