Módulo I -
A Internet: uma biblioteca mundial
Conceitos
A Internet oferece um volume muito
grande de informação. A quantidade de máquinas
servidoras
ligadas na rede aumenta de forma muito rápida. Hoje
podemos considerar a Internet como a grande biblioteca
pública do mundo. Em muitas áreas do conhecimento
encontramos uma quantidade enorme de informação, notem
que esta disponibilidade de informação ocorre em áreas
específicas. Por exemplo, em Computação a quantidade
de material disponível é enorme, isto não ocorre em
todas as áreas do conhecimento, se bem que cada vez mais
conteúdos de todas as áreas do conhecimento estão
sendo disponibilizados. A Internet oferece uma série de
serviços para o armazenamento e para a recuperação de
informações tais como a transferência de arquivos (FTP) e o acesso á páginas
através da Web.
A
Internet
Caso você
deseje ter uma visão detalhada sobre o número
de hosts (computadores que podem ser
acessados remotamente) bem como sobre a
arquitetura da Internet os seguintes sites, em
inglês, são de interesse:
Para obter estatísticas de
seu site este link oferece várias ferramentas.
A grande
pergunta que iremos responder neste tutorial é:
- Como
realizar uma pesquisa de qualidade sobre
os dados distribuídos em inúmeros
serviços disponíveis na Internet?
Em
particular vamos dar atenção à Web. A busca
manual de uma página sobre um tópico
específico na Web é praticamente impossível
pois implica no conhecimento do conteúdo dos
inúmeros servidores. Isto quer dizer que para
acessar um determinado conteúdo você deve
conhecer o endereço do servidor e da página
desejada (URL) que mantém aquela informação.
Por exemplo, para saber as novidades sobre o
instituto de Informática da UFRGS você precisa
saber o endereço do servidor Web que mantém as
páginas do Instituto; neste caso o endereço é http://www.inf.ufrgs.br.
Como o
número de servidores Web é imenso e está
crescendo cada vez mais e é impossível:
Criar
manualmente um índice global com todos
os sites
disponíveis na Web.
Assim é
necessário:
Identificar
de forma automatizada os endereços na
Web essenciais para atender as
necessidades de informação dos
usuários.
|
|
A
Web como fonte de informações
Como fazer
isto? Utilizando os serviços
de busca.
Serviços de busca são mecanismos de recuperação e
indexação de páginas Web. Estes mecanismos geram
grandes bancos de dados sobre os quais podem ser
executadas as consultas.
Se você utiliza o
MS Internet Explorer pode realizar uma busca diretamente
da barra de endereços. Imagine que você deseja se
informar sobre os sanduíches com pão e uma fatia de
carne assada denominados "hamburgers". Como
você procederia? Uma solução imediata é digitar
"hamburger" na linha de endereço
do MS Internet Explorer e rápidamente serão encontradas
as páginas que contém esta palavra. Abaixo está a
cópia da tela com o comando que produz esta consulta.

Como isto é
possivel? É simples, o MS Internet Explorer
não reconhece a expressão "hamburger" como
uma instrução para acessar uma página Web, em
conseqüência envia a palavra ou as palavras digitadas
para o serviço de busca MSN Web Search. O
serviço de busca retorna as páginas que contém a
palavra ou frase da consulta. Tentem, agora, a expressão
de busca "cachorro quente".

A
consulta acima retornará as páginas que contenham a
expressão "cachorro quente" e
não as páginas que contenham as palavras "cachorro"
e "quente" em diferentes
locais do texto.
Explicando o
funcionamento:
o serviço de busca, neste caso o MSN Web Search,
coleta páginas na Web (documentos), e as indexa, isto
é, seleciona as palavras existentes na página para a
geração de um índice e guarda os resultados. O
usuário escolhe uma ou mais palavras e escreve uma
consulta que satisfaça os requisitos (necessidades) de
sua busca. No nosso caso as consultas geradas foram:
"hamburger" e "cachorro
quente". O serviço de busca procura as
similaridades, isto é, as páginas indexadas que
contenham a ou as palavras utilizadas na consulta.
Finalmente o serviço de busca oferece uma lista com os
apontadores para as páginas que satisfizeram a consulta.
Esta lista é classificada com as páginas mais similares
a consulta em primeiro lugar. Observe: hamburger em
inglês e hambúrguer em português, faz toda a diferença!
Resumo:
- O serviço
de busca coleta páginas na Web e gera um
índice com as palavras contidas nestas
páginas;
- Um
usuário escreve uma consulta com as palavras
que julga serem adequadas para achar a
página desejada;
- O usuário
envia estas palavras para o sistema de busca;
- O sistema
de busca compara estas palavras (consulta)
com o índice das páginas Web catalogadas;
- As
páginas mais semelhantes com a consulta (as
que tem mais palavras comuns com o texto
enviado na consulta) são escolhidas e
enviadas ao usuário;
- O usuário
verifica a qualidade da resposta e escolhe as
páginas recuperadas de atendam a sua
consulta.
No caso inicial,
apresentado acima, foi utilizado o serviço MSN Web
Search pois o mesmo vá vem associado com o MS Internet
Explorer. Mas se você não utilizar este sistema
operacional ou se preferir outro navegador (Web
browser) existem inúmeros outros sistemas de busca
que podem ser acessados. Entre outros podemos citar o Google,
o AltaVista e o Yahoo! No caso do
navegador Firebird, da Mozilla.org, o mecanismo de busca
associado é o Google. Neste caso ao digitar
"cachorro quente" na linha de endereço o
Google é acionado na opção "estou com sorte" e o site mais provável é acessado.

E o
resultado será:

Note
que neste caso a seleção do site mais adequado é feita
pelo Google. Este tipo de consulta é apropriado pra os
casos onde a consulta deve gerar um único site.
Este tipo consulta ocorre quando você está procurando
pela página principal (homepage), por exemplo,
a consulta "Barco Cisne Branco"
resultará na página a seguir, com informações sobre
um barco de turismo no Lago Guaíba, em Porto Alegre.

Dica:
Procure definir uma
expressão de consulta com duas ou três palavras
que caracterizem bem o assunto que está sendo
pesquisado.
|
|
|
A qualidade da busca
Para que
você consiga atingir os resultados desejados em
sua pesquisa deve considerar os dois pontos:
1) qual
serviço de busca utilizar, e
2) como escrever uma boa consulta.
Qual o
motivo de escolhermos um entre os diversos
sistemas de busca? Todos estes serviços de busca
são iguais? A resposta é:
- Nao,
cada serviço de busca possui suas
características específicas e, mais
importante, cobrem conjuntos muito
diferentes de páginas na Web.
Nenhum
serviço de busca consegue recuperar todas as
páginas existentes. A figura abaixo ilustra esta
idéia. Cada serviço de busca recupera um
conjunto de páginas, algumas são recuperadas
por mais de um serviço mas nenhum indexa todas
as páginas da Web. Se você utilizar apenas
um serviço de busca não conseguirá recuperar
muitas das páginas que podem ser interessantes
para sua consulta. Na figura a seguir procuro
mostrar que a cobertura de cada serviço de busca
é diferente. Nenhum serviço de busca cobre todas
as páginas existentes na Web. Para você ter uma
idéia do número de páginas indexadas realize
uma consulta sobre a palavra "a" que
existe em praticamente todas as páginas. Hoje
(08-Jul-2006) o Google indexa cerca de
24.000.000.000 páginas!

A segunda questão é, também,
muito importante: Todas as buscas realizadas tem
a mesma qualidade? A resposta é, novamente: não,
a qualidade da busca depende:
(i) da quantidade de páginas recolhidas pelo
serviço de busca;
(ii) da qualidade da consulta.
|
A
recuperação consiste em selecionar as palavras
utilizadas na consulta e localizar cada ocorrência destas
palavras nas páginas Web coletadas pelo serviço de
busca. A consulta (você já sabe que uma consulta é uma
palavra ou seqüência de palavras) representa os
requisitos (as necessidades) de informação do usuário.
O serviço de busca tenta encontrar as páginas Web mais
semelhantes a uma consulta. Esta atividade é denominada
"Processo de identificação de similaridades".
No caso mais simples a similaridade é identificada pela
contagem das palavras utilizadas na consulta e existentes
nas páginas. As páginas mais similares em relação a
consulta são aquelas que contém o maior número de
palavras utilizadas na formulação da consulta. É
essencial que você consiga escrever uma consulta que
tenha o conteúdo mais próximo possível ao conteúdo do
documento procurado.

Dica:
As páginas na Web
são coletadas pelas ferramentas de busca e
indexadas. Ao ser feita uma consulta um mecanismo
de identificação de similaridades escolhe,
entre os milhões de páginas armazenadas pelo
serviço de busca, aquelas que mais se aproximam
da consulta. Portanto procure colocar-se na
posição de quem quer divulgar uma informação
na Web, o web designer, se você
conseguir fazer isto suas consultas serão muito
mais eficientes.
|
Dica:
Veja como é interessante ter a barra de ferramentas Google
instalada. Uma das vantagens das ferramentas é o
indicador de PageRank™ da Barra de
ferramentas para saber como os algoritmos do
Google avaliam a importância da página que
está sendo exibida.
|
Realize os
seguintes exercícios:
1.1 Você
deseja comprar sanduíches do tipo hambúrgueres, realize
uma busca nos serviços listados, se quiser e
conhecer outros utilize-os. Para realizar estas busca
utilize a palavra "hamburguer". Complete a
tabela a seguir com os resultados obtidos e escreva
um pequeno texto resumindo sua avaliação sobre esta
pesquisa.
| Serviço de
busca |
Sua nota para
o serviço de
busca
|
Número de
páginas
encontradas |
As primeiras
páginas encontradas
resolveram a sua necessidade de
informação? |
1a
|
2a
|
3a
|
4a
|
| Google |
|
|
|
|
|
|
| Altavista |
|
|
|
|
|
|
| HotBot |
|
|
|
|
|
|
| Todo BR |
|
|
|
|
|
|
| Netscape |
|
|
|
|
|
|
| MSN |
|
|
|
|
|
|
| Ask.com |
|
|
|
|
|
|
Sapo
|
|
|
|
|
|
|
| Entre os inúmeros serviços de
busca na Web encontramos os seguintes:
|
1.2 As cinco
primeiras páginas recuperadas em cada serviço de
busca foram as mesmas? Faça uma tabela com os
resultados das buscas. Preencha o modelo a seguir.
Este exercício permite compreender as diferenças
nos sistemas de ordenação por relevância das
páginas dos diferentes serviços de busca.
Páginas
|
Google
|
Yahoo!
|
Todo Br
|
MSN
|
Netscape
|
Lycos
|
Ask.com
|
Sapo
|
http://www.xxx.yyy.com
|
S
|
N
|
S
|
S
|
N
|
N
|
S
|
S
|
| |
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
1.3 Preste
muita atenção nas páginas de resultado dos
diferentes serviços de busca, veja se há algo
interessante a ser relatado sobre estas páginas ou
sobre o conjunto de páginas recuperadas.
1.4 Descreva as
diferenças percebidas entre cada um dos serviços de
busca utilizados.
1.5 Procure
realizar esta busca: "descobrir onde é
possível comprar hambúrgueres", isto é, escolha
palavras ou grupos de palavras para aperfeiçoar a
busca. Explique o que você fez e os resultados desta
nova consulta.
|