quarta-feira, 31 de outubro de 2007

Meebo abre plataforma. Demorou hein?

Foi lançado anteontem (29/10) a plataforma de desenvolvimento de aplicativos para o Meebo. Um dos serviços queridinhos dos furadores de bloqueio de MSN. Agora empresas parceiras poderão desenvolver aplicações que rodem dentro do site, acrescentando uma gama maior de utilidades ao serviço que acaba de completar dois anos.

Quem conhece o serviço de mensagens instantâneas do Meebo ou apenas gosta de dar uma olhada no que seus companheiros de escola ou trabalho estão fazendo, sabe que muita gente passa muito tempo olhando pra aquela janelinhas características do site. Até estes dias, a única coisa que estas pessoas podiam fazer é conversar fiado. Depois de começar a mostrar publicidade (bem tímida), o Meebo e seus parceiros vão disponibilizar aplicações das mais diversas utilidades que estarão integradas a interface de chat do site. Enquanto você joga conversa fora com aquele seu amigo de trabalho, você vai poder jogar PAC-MAN, jogo de fazer baliza (tem algum nome pra isso?) e obviamente coisas mais sérias. No primeiro pacote de aplicativos devem figurar serviços de conferências, vídeo-chat e VOIP. Em teoria, todos irão usufruir da interação com seus amigos online.

As empresas que desenvolverem estas aplicações vão poder gerar renda com as mesmas, mas o Meebo não sai de mãos vazias. 50/50 é a divisão de rendimentos. Este modelo de negócios já vem sendo planejado a um bom tempo. O site de chat online tem a vantagem de não precisar manter o usuário usando o serviço, ele já faz isso sozinho. Logo, a idéia de anúncios e novas formas de interação entre usuários se tornam bem interessante e rentáveis.

A idéia pode ser parecida com as páginas customizáveis (iGoogle, Netvibes e afins) o usuário encara aquele site quase como uma aplicação offline olhando-a constantemente várias e várias vezes. Não dá pra não aproveitar o potencial né? O Meebo tá começando a aproveitar!

Fonte: TechCrunch
INFO Online

Vamos arranjar outra foto do gPhone?



Quem nunca viu esta imagem? Sério! Nos últimos meses acho que vimos uns 20 posts com essa imagenzinha. Uma criação artística especulando como poderia ser o suposto gPhone. Isso faz alguns bons meses e continuamos presos a esta mísera imagem pra representar as investidas do Google no ramo de telefonia celular.

Ow Google, solta umas imagens pro pessoal. Ou alguém com dons artísticos cria outro modelo que não seja iPhone-like.

Ah, e o gPhone ou algo fica mais real a cada dia:

Googlephone: rumores, fofocas e bla bla bla...

Google deverá anunciar a estratégia para o gPhone em 15 dias

segunda-feira, 29 de outubro de 2007

Aprender a fazer site é dose!

Ultimamente estou apanhando "tentando fazer um site". Como alguns já sabem, eu e alguns amigos estamos desenvolvendo um site que talvez seja interessante para muita gente (relaxem que ainda vou falar muito do site aqui no blog =P).

A questão não é programar. PHP é relativamente fácil. Como eu sempre brinco: "PHP é C/C++ com um tipo de variável apenas" (o que facilita e muito). Mas como muitos devem ter aprendido, e agora eu estou aprendendo, desenvolver um site (ou qualquer sistema computacional em geral) não se resume apenas a "programar".

Tem muita coisa além disso. Você não faz o site pra você, faz para os outros verem e GOSTAREM. Os outros tem que gostar. Será se o Menu tá no lugar certo? Será se ele vai achar o conteúdo fácil? A área para publicidades enxe o saco do visitante? Cores, layouts, onde vai ficar cada informação, qual a ordem? Precisamos advinhar o que o usuário vai querer fazer no site e como. Quais funcionalidades ele gostaria de usufruir. Infelizmente, saber estas coisas todas não é tão simples quanto usar o site. A melhor maneira ainda é se "fingir" de usuário.

Estas são algumas das dificuldades. Algumas delas somos nós mesmos que criamos. Queremos fazer algo de qualidade, e tirar o máximo de nós. Não adianta perder tempo fazendo um site "meia-boca". Acho que todos deveriam pensar assim (quem nunca viu site mal acabado por aí?)

Existem outra infinidade de dificuldades na área de projeto do site, planejamento e organização que não se encontra buscando no Google. Só se consegue tendo experiência e batendo cabeça. E é isso que estamos fazendo. Esperem pras próximas semanas novidades sobre o projeto que estamos trabalhando espero que ano que vem já possa estar aqui anunciando projetos mais ousados. Fiquem atentos!

sexta-feira, 26 de outubro de 2007

Nossa Via. Um caminho para popularização dos Blogs

Estou aqui pra falar do Nossa Via, um projeto do Via6 em conjunto com o Boombust. Vão reunir vários editores dos mais diversos assuntos e juntá-los num só lugar, num só "blog" (se é que podemos chamá-lo de blog). Eu gostaria de ser um destes editores na área de Tecnologia. Tenho computador desde criança e "mexo" na internet desde bem antes o auge do "Cadê" (quem nunca usou ?). Outro incentivo para eu gostar de escrever sobre este assunto é que estou indo para o último ano da faculdade de Ciência da Computação na UFAM (Federal do Amazonas).

A intenção desta iniciativa é criar um site que possa atingir e atrair um público além da atual "blogosfera". Fazendo com que pessoas que não tem contato com blogs passem a conhecer, gostar e lê-los. É uma meta e tanto. Será preciso organização pra criar um portal acessivo a pessoas diferentes do público tradicional dos blogs. Acho que um dos maiores desafios seja a forma com que os blogs costumam passar a informação. Consideravelmente diferente dos veículos tradicionais (jornais, revistas e afins).

Estou apoiando a iniciativa e me dispondo a participar. Espero que a coisa vá pra frente!

PS: Depois de ler este meu título pensei em algo tipo "Inclusão Digital Versão Blogs". Só pensei!!

Não vai haver uma Bolha 2.0!

Ultimamente, todo mundo anda falando de uma nova "Bolha 2.0" que poderia estourar assim como a bolha do pontocom nos idos de 2000. O renomado jornalista John Dvorak neste artigo disse com todas as palavras que está sendo formada uma nova bolha na Web e que ela VAI ESTOURAR.

Eu não acredito nisso. E tem gente que concorda comigo. Já estava com este post para ser escrito faz um tempo, ao ler este post do Alexandre Fugita resolvi terminá-lo.

Mas por que não concordo com o senhor Dvorak? Primeiro de tudo, provavelmente foi este mesmo senhor que consolidou de vez essa nova onda de achismos em relação a uma nova Bolha das pontocom. Como o cara é macaco velho da indústria, o pessoal foi na corda dele!

Qual é o argumento deles?

Quem acredita no novo "estouro" diz que o mercado está novamente saturado. Cheio de novas empresas (lotado!) conseguindo dinheiro de fundos de investimentos. O problema que muitos alegam é que estas chamadas startups não têm, de fato, um plano de negócios sólido, que possa trazer retorno financeiro pra ela própria e obviamente para seus investidores. Esta foi a característica marcante que decretou o estouro da bolha "1.0" anos atrás. Um monte de Websites eram criados e recebiam enormes quantias de dinheiro mas não tinham a mínima idéia de como faturar este dinheiro "de volta". As formas de um site sobreviver naquela época eram escassas. O comércio eletrônico ainda engatinhava. Não existia AdSenses e afins. Gerar dinheiro com um serviço eletrônico era uma tarefa árdua.

Outro argumento/exemplo a favor da bolha 2.0 são as compras bilionárias (Youtube, FeedBurner, DoubleClick... só citando as do Google :P) de sites e serviços que parecem não valer mais tantos milhões de dólares. Ou será que podem, sim, valer tudo isso?

Qual é o meu argumento?

Os que sobreviveram aquela tormenta entenderam que precisavam mudar sua forma de encarar a Web. Ninguém mais achava que "fazê site na internét" era o Eldorado do mundo digital e pra chegar lá era só inventar um serviço aleatório (venda de fraldas Online, por exemplo). De lá pra cá vimos as coisas se profissionalizarem muito, especialmente aqui no Brasil onde a coisa eram bem devagar em 2000. Os grandes grupos de investimento já estão bem acordados para os riscos e agora olham com muito cuidado o plano de negócios dos candidatos a futuros milionários da Web.

Hoje é MUITO difícil entrarmos em algum site/serviço online que não tenha uma forma bem visível de ganhar dinheiro. Dois jeitos bem fáceis de enxergar: anúncios (AdSenses da vida...) ou pagamento do serviço especial PRO, PLUS, PREMIUM, vocês sabem. Se estas formas realmente dão lucro para o serviço já é outra história e cabe ao investidor ter o feeling para saber isso. Além de que o próprio mercado se encarrega de eliminar empresas incompetentes/ruins/sem graça.

E o YouTube? Vale os 1,6 bilhões que o Google pagou por ele? O FeedBurner valia 100 milhões? (A lista poderia continuar, mas sei que vocês já entenderam a idéia). Muita gente só consegue enxergar a compra de um grande Website como uma forma de faturar em cima dele depois e recuperar este dinheiro através dele e somente. Ou seja, o YouTube teria que gerar mais de 1 bilhão em receita para o Google para fazer valer a pena a compra. Não é assim que a coisa funciona.

O YouTube é de longe o mais usado serviço de vídeos da Web. O Google é o done dele, e pôs o seu logotipo em alguns pontos do site. Dá pra entender o quanto isso fortalece a marca? O Google não vai faturar só diretamente com o YouTube, vai faturar também (e muito) indiretamente também. O FeedBurner é um serviço extremamente consolidado com uma base de usuários muito grande. Não preciso explicitar como o Google pode tomar vantagem disto né? =P

Vai ou não vai ter?

É impossível ter 100% de certeza (como quase tudo na vida) mas estou tendendo a achar que isso tudo não passa de um "hype". O mercado da Web já está bem consolidado e ao contrário do que o John Dvorak fala, não creio que vá ter várias outras bolhas de tempos em tempos. O homem é burro, e costuma insistir no erro, mas em um mercado com negócios que podem valer bilhões de dólares esta afirmação pode simplesmente deixar ,milagrosamente, de ser verdade.

domingo, 21 de outubro de 2007

3 sites que valem a pena dar uma olhada!

Nas minhas andanças pela Web nesta última semana deixei anotado os 3 sites a seguir. Não vou detalhá-los muito até por que eu não os explorei tanto e este post é também uma maneira de eu me auto-lembrar de dar uma olhada neles.

GameOZ - Blog com vários joguinhos em flash. Hospedados em servidor próprio, ou seja, nada de propagandas, cadastros ou qualquer outra chatice. Muito bom quando a gente está sem saco e quer só matar uns monstros aleatórios num joguinho em 2D!

Microsoft PopFly - Criador de Mashups da Microsoft. Ele parece ser mais "bonitinho" e mais intuitivo que o Pipes do Yahoo. Tentei dar uma brincada, mas acho que precisa saber o que se quer fazer antes de começar. Um exemplo bem simples pra exemplificar o que pode ser feito com o serviço é um álbum com fotos do Flickr de várias pessoas de acordo com um critério, as possibilidades são infinitas. Se alguém tiver feito algo interessante, fique a vontade para mostrar! Ah, vale lembrar que o serviço usa o Silverlight (inimigozinho do Flash).

DivShare - Site para compartilhamento de arquivos, além disso você pode mandar seus vídeos pra lá (ao invés do Youtube, só pra variar) e usar o player flash video deles. O site parece oferecer espaço ilimitado, mas ainda estou procurando algum "porém". O site oferece uma API para quem quiser brincar e tem também um plugin para o WordPress para fazer upload de imagens, vídeos e documentos direto do Wordpress para o DivShare.

Quem souber outros sites interessantes e novos, deixa as dicas nos comentários!

Como funciona a Indexação em uma máquina de busca?

Veja as primeiras partes da série:

Primeira parte: Como funciona uma Máquina de Busca?
Segunda parte: Como funciona uma máquina de busca? - Crawlers/Spiders/Robôs/Coletores
Quarta parte: Como funciona uma Máquina de Busca? - Processador de Consultas

Neste terceiro artigo da série, vou explicar o funcionamento da parte de um motor de busca que nos permite procurar poucas palavras em bilhões de páginas na Web em um tempo aceitável. Sem o processo de indexação seria impossível encontrar todas as ocorrências de uma palavra e mostrá-las na tela de resultados para o usuário. Mas como isso tudo funciona?

Indexação

Esta etapa consiste basicamente em varrer toda a coleção de documentos (páginas, arquivos de texto, slides, pdfs...) coletados pelo Crawler e "indexar" todas as palavras e suas ocorrências. Mas o que isso significa?

Indexar uma palavra significa procurar todas as ocorrências da mesma e guardar essa informação de alguma forma. De forma análoga, indexar um texto é o mesmo que pegar todas as palavras que ocorrem nele e quantas vezes cada uma aparece. Muitas vezes é interessante também guardar a posição da ocorrência dos termos em relação ao documento. Veja o exemplo:

Palavras: Lista de ocorrências da palavra :
casa -> (B, 3) (C, 12)
carro -> (A, 10) (B, 6) (C, 12)
web -> (A, 2) (B, 3)
blog -> (A, 3)

Neste exemplo, a palavra casa aparece no documento B 3 vezes e no documento C 12 vezes. Já a palavra blog aparece apenas no documento A.

A forma com que a ocorrência de um termo vai ser especificada no índice invertido (visto acima) é chamada de granularidade. As formas mais comuns são dizer em qual documento aquela palavra aparece (caso acima e mais básico), dizer em qual parágrafo, bloco, ou guardar até a posição exata dentro do documento. Com certeza as máquinas de busca atuais usam uma granularidade no mínimo por parágrafo. Só dessa forma pode-se achar rapidamente a parte da página onde ocorre os termos da consulta e então gerar aquela prévia que aparece em baixo de cada resultado:

Alguns detalhes!

As coisas não são simples assim. Analisando a estrutura de índice invertido, pense só na lista de ocorrências da palavra "a", ou de um "and". Gigantesco né? Imagine em quantos milhões de páginas estes termos ocorrem e quantas milhões de vezes. Este palavras são chamadas de stopwords. Como elas não acrescentam muito significado a uma consulta (mais ou menos) é comum excluir estas do processo de indexação, liberando uma quantidade grande de espaço em disco, além de diminuir o processamento na hora da consulta. As máquinas de buscas atuais não fazem isso. Eles tem como manter as listas de ocorrências gigantescas e o fazem pois as stopwords são úteis em muitos casos na hora de processar a consulta. Ainda mais com gente procurando: "Como fazer slaide no orkut e mandar scraps pros amigos". Além disso, uma palavra sem muito peso num idioma pode ser uma palavra muito usada em outra.

Outra coisa muito comum é o Stemming das palavras antes do armazenamento no índice. Consiste basicamente de uma operação que deixa a palavra no singular e tira alguns sufixos/prefixos, deixando-a mais "seca". Desta forma, se você procurar por algo no plural você vai achar resultados no singular e vice-versa. Este procedimento pode variar muito de uma máquina de busca para outra, mas é certo que manter uma lista de ocorrências para "carros" e outra para "carro" vai complicar na hora de processar a consulta. Se alguém procurar por "venda de carro", ele pode não achar a página com o título "Venda de Carros usados com 90% de desconto!". Coitado do cara que não achar esta página né?

Existem muitos outros detalhes. Pode-se, por exemplo, criar relações entre as palavras para aumentar as possibilidades na resposta à consulta. Na realidade cada máquina de busca implementa da sua forma. No geral, todas remetem ao básico que foi apresentado aqui neste artigo.

Para quem quiser se aprofundar, pode dar uma olhada no artigo da Wikipedia: Index (search engine). Achei também este pdf de uma aula que também tem alguns detalhes interessantes. Também podem dar uma olhada no artigo do Sergey Brin e Lawrence Page descrevendo o protótipo do Google. O Paulo Rodrigo Teixeira me mostrou este esquema animado explicando o funcionamento do Google, vale dar uma olhada.

Qualquer dúvida, sugestão ou dica é só deixar nos comentários. Próxima parada: "Como funciona uma Máquina de Busca? - Processador de Consultas".


Leia também a quarta parte da série: Como funciona uma Máquina de Busca? - Processador de Consultas

quarta-feira, 17 de outubro de 2007

Como funciona uma máquina de busca? - Crawlers/Spiders/Robôs/Coletores

Leia também as outras partes da série:

Primeira parte: Como funciona uma Máquina de Busca?
Terceira parte: Como funciona a Indexação em uma máquina de busca?
Quarta parte: Como funciona uma Máquina de Busca? - Processador de Consultas


Continuando a série de artigos, neste vou mostrar o funcionamento básico e algumas coisas interessantes sobre os coletores das máquinas de busca.

Sem mais delongas:

Coletor, Spider, Crawler, Robôs

Sim, todos os termos acima se referem a mesma coisa: A parte da máquina de busca responsável por coletar os documentos da Web a serem indexados e consultados posteriormente. Mas como eles funcionam? Os coletores começam com um conjunto inicial de URLs para serem visitadas. O sistema então baixa estes documentos e deles extrai os links, conteúdo e outras informações. As URLs dos links extraídos são guardadas para que se possa acessá-las posteriormente. O processo é mostrado na figura abaixo:

Funcionamento genérico de um Coletor/Spider/Crawler

Para que tudo isso funcione o processo todo é dividido em partes (componentes):

  • Coletores - Fazem a requisição de páginas aos servidores HTTP. Extraem os links das páginas recebidas e enviam ao escalonador. Requisitam do escalonador uma ou mais URLs a serem coletadas.
  • Servidor de Armazenamento - Recebem os documentos coletados e os armazena localmente. Fazem a extração (também chamado de parsing) do texto e conteúdo em outros formatos: PDF, Word, Powerpoint, etc.
  • Servidor de Nomes - Faz um controle das requisições DNS (Domain Name System) para que os coletores não façam requisições remotas. Em outras palavras não deixa o coletor procurar onde está um site se o Servidor de Nomes já tem guardado essa informação.
  • Escalonador - Responsável por decidir qual a próxima URL a ser coletada. Coordenando dessa forma a ação dos coletores. Deve garantir que não haverão coletas repetidas.

Assim temos esta figura mais detalhada:

Funcionamento detalhado de um Coletor/Spider/Crawler

O escalonamento é um função crítica da coleta. É complicado coletar TODAS as páginas da Web. Por isso são utilizadas técnicas para tentar pegar apenas as "melhores" páginas. Alguns exemplos são:

  • Em Profundidade - Resulta em uma coleta “focada”, pois você caminha por todo um determinado site antes de ir para o próximo. Pode-se limitar o número de níveis.
  • Em Largura com sufixo de URL - Exemplo: *.terra.com.br. Garante cobertura balanceada entre sites. Técnica bastante utilizada.
  • Baseadas em Ranking de URLs - Pode ser baseada em conteúdo, em popularidade (número de acessos) ou em conectividade (número de referências).
  • Baseada em Conectividade - Pode ser de dois tipos:
    • Referências (Backlink count) - Quanto mais links apontando para uma página maior a "importância" dela.
    • Variações recursivas - Links vindos de páginas com maior "importância" tem maior peso. Esta é a técnica usada pelo algoritmo PageRank.

Existem algumas outras dificuldades e observações relativas aos coletores na Web. Como muitos sabem, os robôs das máquinas de busca devem seguir algumas restrições especificadas no arquivo robots.txt e em meta-tags. Além disso, é considerado ético não bombardear o servidor de um site com inúmeras requisições sequenciais.

Existem outros inúmeros detalhes e problemas que precisam ser resolvidos na hora de construir um coletor para uma máquina de busca na Web.

Para quem quiser saber mais:

Web Crawling - Coleta automática na Web - Slides de dois Doutores em Computação professores aqui na UFAM. Altigran Silva (meu orientador :P) e Edleno Moura (meu professor de RI) dois pesquisadores da área. Boa parte deste post foi baseado nestes slides.

Web Crawler
Effective Web Crawling

segunda-feira, 15 de outubro de 2007

Blogueiros e Jornalistas cuidado com os títulos enganosos!

Homem é preso por usar Facebook

O que vocês achariam desse título? Qual é a primeira coisa que você pensa? Alguém foi pra cadeia por participar da rede social Facebook, ou pelo menos algo do tipo, certo?

Mais ou menos! O homem foi preso, na verdade, por violar (em teoria) uma decisão judicial que o proibia de tentar contactar sua ex-mulher. Ou seja, a mulher viu que o cara tinha pedido pra "add" ela, logo ela acionou os meios legais pra lascar com o cidadão. Perceberam onde está o exagero do título? Não foi só eu, um comentário na própria notícia diz:

" zunga - [10/10/2007 22:10:39]

Bem, na verdade ele não foi preso por usar o Facebook e sim por desrespeitar uma ordem judicial.
Cuidado com títulos das notícias..."

No meu primeiro post aqui no blog, esse aqui, eu já alertava pro pessoal tomar cuidado com os títulos errados, sem sentido, sem noção, com duplo sentido ou com qualquer outra leseira que o autor possa vim a cometer.

Tudo bem que nós queremos criar títulos impactantes, que chamem a atenção. Mas devemos prestar atenção para não criar algo enganoso. Por via das dúvidas, é bom sempre dar uma olhada com cuidado no título e introdução do texto ou pedir para outra pessoa o fazer.

Título mentiroso ou passando mal a informação é algo ruim. Então prestem atenção!!

 

OBS: Dêem uma conferida neste blog http://lucaspascoal.blog.br/ Ele aparentemente copiou e colou o meu post sobre "Como funciona uma Máquina de Busca?" (mas apagou depois de um comentário meu) e pelo o que eu vi fez o mesmo com posts de outros blogs.

sexta-feira, 12 de outubro de 2007

Como funciona uma Máquina de Busca?

Nesta série de artigos vou mostrar os componentes básicos das máquinas de busca (Google, Yahoo, Live Search e afins). Vou primeiramente explicar de maneira geral e depois entrar em detalhes em como funciona o coletor, a indexação e finalmente o processador de consultas. No último artigo da série vou comentar algumas soluções open-source que qualquer um pode pegar e tentar começar sua própria máquina de busca, né Bruno?

Primeiramente, gostaria que vocês esquecessem um pouco de SEO. Até por que eu não vou comentar especificamente aspectos para otimização. Mas, de forma geral, entender o funcionamento das máquinas de busca pode te fazer enxergar o contexto das buscas e das técnicas usadas em SEO.

Tive a idéia de fazer essa série de artigos por que estou fazendo a matéria de Recuperação de Informação (information retrieval em inglês, ou só RI) na faculdade. Esta é a área da computação responsável pela coleta, filtragem ou busca de informação utilizando uma base de dados. A área de RI apesar de já existir a algumas décadas ficou mais conhecida e visada devido as pesquisas envolvendo máquinas de busca para a Web. Vale lembrar que existem também sistemas para procurar documentos dentro do seu computador (Google Desktop e similares) ou dentro dos arquivos de uma empresa ou instituição e estes utilizam as mesmas técnicas para achar uma página na Web.

Entendendo uma máquina de busca

De maneira geral, um sistema encarregado de fazer buscas em um conjunto de documentos (seja ele na Web ou não) consiste basicamente de 3 partes: coleta/armazenamento de documentos, indexação dos mesmos e processamento de consultas. Vou explicar cada um deles:

Coleta e Armazenamento de documentos

Também chamada de Crawler, Spider ou Robô. A primeira parte do sistema é encarregada de varrer a base de documentos (no nosso caso a Web)e guardar várias informações como o conteúdo (já tirando o HTML) e a estrutura de links. Também é muito importante saber como o coletor irá "caminhar" pela Web, quais URLs irá passar e quais sites irá coletar. É nesta fase que são armazenadas localmente muitos detalhes de cada página que serão usadas posteriormente para saber quais páginas devem aparecer por primeiro nos resultados de uma consulta.

Indexação

Parte primordial do sistema. Nela faz-se uma varredura em cada documento da base de dados (conseguida através dos coletores) verificando as ocorrências de cada palavra. Armazenando estas informações num Índice Invertido uma estrutura de dados organizada desta forma:

Palavras: Lista de ocorrências da palavra

casa -> (B, 3) (C, 12)
carro -> (A, 10) (B, 6) (C, 12)
web -> (A, 2) (B, 3)
blog -> (A, 3)

Neste exemplo, a palavra casa aparece no documento B 3 vezes e no documento C 12 vezes. Já a palavra blog aparece apenas no documento A.

Organizando a informação desta forma pode-se saber rapidamente em que páginas da Web uma palavra aparece, facilitando (e muito) na hora da consulta. Se você procurar por "web blog" na nossa base de dados de exemplo, pode ver que estes termos aparecem nos documentos A e B, além de saber quantas vezes a palavra se repete, informação útil para calcular a relevância da página na hora de ordenar os resultados da consulta.

Processamento da consulta

Para cada consulta feita a máquina de busca varre o índice invertido de termos e vê onde eles aparecem. Através de algoritmos (Espaço vetorial, Language Models e outros) os documentos que contém as palavras da consulta são ordenados de acordo com critérios pré-definidos. Entre eles: importância de uma palavra ("cachorro" descreve algo melhor que a partícula "de"), número de vezes que um site é referenciado através de links, similaridade entre a consulta e o texto de um documento, entre outras coisas. A partir de todas essas informações (e outras) é feita uma ordenação no resultado da consulta. Apresentando primeiro as páginas consideradas mais relevantes.

Por enquanto é só. No próximo artigo vou explicar como funciona os Coletores das máquinas de busca.


UPDATE:

Segunda parte: Como funciona uma máquina de busca? - Crawlers/Spiders/Robôs/Coletores

Terceira parte: Como funciona a Indexação em uma máquina de busca?

Quarta parte: Como funciona uma Máquina de Busca? - Processador de Consultas

Renan Calheiros sai da presidência do Senado! Finalmente!

Só pra deixar uma nota avisando quem não ficou sabendo. O nosso ilustre senador pediu licensa e saiu do cargo de presidente do Senado.

Acabou (por enquanto)!

Sensato enfim.

Veja mais em G1.

terça-feira, 9 de outubro de 2007

Campanha: Renan Calheiros DESISTE!

É realmente impressionante. Alguém viu o Jornal Nacional hoje? O que se passou hoje e ontem (8 e 9/10) no senado? O ilustre senador Renan Calheiros foi atacado por inúmeros companheiros da casa. Inclusive um deles colocou para todo mundo escutar uma gravação incriminando o senador alagoano. Outro teve como resposta aos seus comentários as costas do acusado que "fugiu".

Sério mesmo. Esse cara não se toca? Ele quer dar uma lição para todos nós? Já sabemos que Renan Calheiros é um brasileiro de verdade. Ele não desiste NUNCA! Pelo amor de Deus (não que vá ajudar). Ô cara persistente. Tudo está contra ele, mas ele continua lá, negando e se esquivando.

Um grupo de senadores já declarou que se o bendito "menino teimoso" não sair do cargo até novembro, eles vão parar todos os trabalhos no senado. O que o grande senador Jefferson Péres chamou de greve cívica (belo eufemismo para TIRA ESSE CARA LOGO DAÍ!).

Eu estou apoiando a luta destes senadores, vamos todos pedir para que Renan Calheiros DESISTA e saia de uma vez.

Notícias sobre o assunto:
Renan diz que ataques fazem 'parte do jogo'
Grupo suprapartidário defenderá saída de Renan
Renan afasta assessor sob suspeita e nega espionagem


domingo, 7 de outubro de 2007

Meme: 3 sites que não deixo de acessar

O AndreSantos me convidou para responder este meme e aqui estou eu. Ele disse que não era permitido serviços do Google, isso cortou drasticamente minhas alternativas, mas mesmo assim vou dar minha contribuição.

Clicky Web Analytics:
Clicky Web Analytics

Não queria colocar nada relacionado ao blog. Mas o Clicky realmente merece ser lembrado. Uso o serviço todo dia para monitorar o tráfego aqui no blog. Oferece muitas informações de maneira bem direta. Tem também algumas funcionalidades que nem o Google Analytics tem. Como o Spy que mostra quem está online no seu site (inclusive com ip, navegador, SO e afins...).

Hitask.com - Já tentei muitos modos de organizar a minha To-Do List, ou compromissos e coisas que eu devo lembrar. Atualmente estou usando o HiTask. Ele tem uma interface bem amigável e algumas boas funcionalidades tudo bem Web 2.0. Você também pode usá-lo para gerenciar tarefas e projetos de equipes. Algo que estou pretedendo fazer, mas ainda estou procurando um bom serviço online de gerência de equipes e projetos se alguem tiver uma idéia pode sugerir!

iGoogle - Tá, não dá pra não citar o iGoogle. É minha página inicial e ela reúne um monte de coisas úteis para mim: um bookmarks com os sites que mais acesso, lista dos últimos e-mails, estatísticas do dia segundo o Clicky, Google Talk, bloco de notas pra anotar besteiras e outras coisas mais. Como eu já mostrei em outro post as páginas iniciais personalizáveis são uma mão na roda pra organizar as coisas e deixar tudo visível.

É isso, se alguém tiver alguma sugestão de bom site, é só falar. Se alguém quiser responder ao meme fique a vontade mas deixando nos comentários!

quinta-feira, 4 de outubro de 2007

Vamos aproveitar o potencial dos universitários de tecnologia!

É comum aqui no Brasil sempre sentirmos um sentimento de que as coisas podiam ser melhores, bastando apenas o empurrãozinho das pessoas. Nosso país tem muito potencial. Nas empresas, nas faculdades. Pessoas e projetos, inovadores ou não, têm a capacidade de criar produtos, serviços e patentes (por que não?) que fariam muito bem para nosso país. Por que, então, parecemos meio estagnados?

Alguém sabe a quantidade de bons projetos acontecendo nas universidades do Brasil? Um bucado. Mas sempre achamos que podia ter um pouco mais. O que eu tenho observado nesses meus poucos anos de graduando em Ciência da Computação é que tem muita coisa interessante nas faculdades de tecnologia brasileiras. Mas vocês costumam ver produtos saindo de lá? Ou inúmeras empresas surgindo?

Algumas vezes eu acho que os Professores ficam muito preocupados em escrever artigos, ir pra conferências e esquecem que têm na mão alunos e professores (mestrados e doutores) com potencial para criar produtos e serviços de primeira. Um bom exemplo disso foi a empresa Akwan que foi vendida pro Google a alguns anos. Foi formada por Professores e alunos da pós-graduação da UFMG e estavam fazendo bons produtos, tanto que atraíram a atenção do gigante das buscas.

Estou falando tudo isso por que acho que falta esse pensamento empreendedor dos alunos e professores nas faculdades (na área de tecnologia). As encubadoras de empresas dentro de Universidades são bons exemplos a serem seguidos, mas não é imprescindível pra que um produto ou empresa seja gerada a partir de um projeto de extensão ou de um grupo isolado de alunos. Basta interesse.

Concluindo, vamos parar de duvidar de nosso próprio potencial e botar a mão na massa.

terça-feira, 2 de outubro de 2007

3 Dicas para quem usa 2 ou mais computadores para acessar a Internet

Você utiliza dois ou mais computadores rotineiramente? Ou fica trocando entre Linux e Windows (ou Mac OS) numa mesma máquina? Já colocou algo no favoritos em um lugar e quis usar em outro? Deixou uma tarefa na sua To-Do List no Linux mas agora está no Windows? Aqui vai algumas dicas para manter suas informações sincronizadas onde quer que você vá.

Página Inicial Personalizada

Muita gente ainda não conhece as utilidades de ter uma página inicial do seu jeito. Se você é um dessas pessoas vale a pena dar uma olhada nos concorrentes. O maior expoente da categoria é o iGoogle, seguido de outros como o NetVibes (muito bom para gerenciar Feeds) e o PageFlakes (tem um reader dedicado para Feeds). Estes serviços permitem reunir suas informações numa só página. Últimos e-mails, suas notas da faculdade, previsão do tempo, sua "Lista do que fazer". Entre outra infinidade de coisas úteis ou não (joguinhos de fazer baliza ou Pac Man!).
O importante é que você vai ter estas informações não importa onde. Até num cyber-café se for o caso. É só logar na sua conta.

Guardando seus Favoritos!

Uma das coisas mais chatas em usar Internet em vários lugares é guardar sites interessantes para poder acessar depois. Para isso existem algumas boas opções. O del.icio.us guarda e compartilha seus favoritos com outras pessoas, e também pode ser usado em conjunto com um plugin do Firefox. Temos o pouco conhecido Google Bookmarks, também interessante pois possui um plugin para sincronizar os favoritos da máquina do usuário com o site do serviço, bem legal apesar de dar uma pequena modificada na rotina de gerenciar favoritos.

A minha solução favorita (e a que eu uso) é o plugin, para o Firefox, Foxmarks Bookmark Synchronizer. Ele deixa seus favoritos no servidor deles, ou seja, em qualquer lugar que você esteja tendo este add-on, é só sincronizar e você terá todos seus favoritos. Quando você adicionar um novo ele fará a sincronização automaticamente. Ele não modifica nenhuma interface nem nada, você mal verá o plugin funcionando. Dessa maneira você vai ter mais de 1 computador com a lista de Favoritos exatamente igual. Quer mais o que?

Lembre o que você deve fazer e quando fazer

Nestes tempos modernos, usar agendinha de capa dura é coisa do passado. Hoje em dia, um monte de gente já usa Agendas e To-Do Lists tudo no computador. Mas e quando você não tem computador fixo? Para manter seus compromissos em dia a melhor pedida gratuita ainda é o Google Agenda. Simples e funcional. Para esta finalidade também é possível usar o HiTask ou o Remember the Milk. Estes dois tem a também a finalidade de organizar suas tarefas e te deixar a par do que deve ser feito e pra quando. O "Lembre-se do Leite" é bem completo e possui Widgtes para os 3 serviços de Página personalizadas citadas aí em cima. Coisa que o HiTask não possui.


Bem, é isso. Se alguém tiver mais alguma sugestão, fique a vontade.

Este post foi uma meio que resposta ao meme do AndreSantos . Que perguntou quais os plugins mais interessantes para o Firefox.