terça-feira, 27 de novembro de 2007

Amapedia: ambiente Wiki para consumidores compartilharem informação

Você já foi comprar algo em uma loja online e se sentiu um pouco perdido? Sem saber qual o melhor produto? Os benefícios de cada um? Quem comprou gostou? Para tentar sanar estas questões o site americano Amazon.com mantém, desde Janeiro desse ano, em versão beta o Amapedia (alguém mais achou o nome estranho?).

O site da gigante de e-commerce tem como intuito juntar consumidores que desejem compartilhar informações sobre suas compras ou intenções de compra. Dizendo qualidades, defeitos, problemas encontrados ou apenas dando uma descrição bem mais detalhada do que a encontrada no site principal.

E pra que isso serve? Se for possível colocar umas 10 pessoas para falar extensivamente sobre um produto de forma colaborativa é possível criar uma base de dados interessante. Na qual um usuário trivial, procurando por opções de compra, poderia se basear para fazer sua escolha.

E por que isso talvez não funcione? As pessoas podem não se acostumar com uma forma de expressar sua opinião em conjunto com outros indivíduos. Vale lembrar que parte do público que acessa sites de e-commerce são usuários triviais os quais não têm a mínima vontade de contribuir com a Wikipedia. Por que então iriam contribuir com o Amapedia? (realmente, nome estranho). O modo mais comum de deixar sua opinião sobre aquele mp3 player que você comprou no Submarino é preencher um formulário, descrevendo de forma sucinta a sua opinião sobre o produto.

De qualquer forma, é interessante pensar que sites de e-commerce usando estes conceitos de Wiki poderiam melhorar muito a experiência de compra online.  Se este modelo vai se desenvolver, só o tempo pode nos mostrar.

O que você anda dizendo no Orkut pode lhe custar caro!

A maioria não deve perceber. Ou se percebe, não dá valor. Tudo que escrevemos nas redes sociais (Orkut, Facebook, Myspace...) vai ficar gravado e acessível a qualquer pessoa durante muito tempo. Quem garante que daqui a 20 anos alguém não vá olhar seus "scraps" de hoje e usar isso contra você? Ou pior, chantageá-lo, não lhe dar uma promoção, demití-lo. Isso lhe assusta?

Segundo uma pesquisa britânica, 60% dos jovens entre 14 e 21 anos informaram não perceber que informações colocadas nas redes sociais podem ficar permanentemente relacionada aos seus autores. Não é comum escutar alguém comentando este assunto. Ninguém fica se policiando para não escrever algo que possa lhe comprometer daqui a 10 anos.

Em redes sociais, em particular no Orkut, podemos ver gente falando de drogas ilícitas (muitas vezes assumem que utilizam), de alto consumo de bebidas alcóolicas (quem nunca viu comunidade de bêbado?). Podemos ver gente falando que é preguiçosa, não gosta de trabalhar, gosta de enrolar, gosta de mentir. Tem doido pra tudo. Sabemos que já tem empresa vasculhando a Web (blogs, orkuts e afins) em busca de futuros empregados, além de dar uma boa conferida na vida e nos costumes de um atual candidato a emprego. Logo, não é de se duvidar que essas informações pessoais que a maioria julga "inocente" poderão ser usadas para decidir a sua vida!

Ah! Quem é esperto já viu que tem como ganhar dinheiro nesse meio. Imagina uma empresa que recebe o nome de uma pessoa, algumas poucas informaçõe e vasculha redes sociais, blogs, comunidades atrás do passado e presente da pessoa? Será que dá pra cobrar para fazer isso? Se sim, já vou começar a fazer!

Fonte: G1

sexta-feira, 23 de novembro de 2007

Como funciona uma Máquina de Busca? - Processador de Consultas

Veja as primeiras partes da série:

Como funciona uma Máquina de Busca?
Como funciona uma Máquina de Busca? - Crawlers/Spiders/Robôs/Coletores
Como funciona a Indexação em uma Máquina de Busca?

Nesta parte da série, vou explorar nas máquinas de busca o componente mais próximo dos usuários e com o qual interagimos diretamente. O processador de consultas é responsável por receber as palavras-chave que você coloca na "caixinha do Google" e transformá-las no conjunto de respostas relevantes que você está acostumado a ver.

Por trás da imagem acima existe o processador de consultas a parte da máquina de busca responsável por calcular a relevância de cada página de acordo com a sua consulta. Como isso é feito?

Primeiramente, o elemento primordial para processar uma consulta é o índice invertido (explicado no último artigo). É através dele que logo depois de você clicar em "Pesquisar" o sistema consegue encontrar todos os documentos os quais possuem os termos que você quer procurar. Ainda no exemplo da figura acima, procura-se no índice invertido as palavras "blog" e "hummel". Em relação a partícula "do", não há consenso entre indexar ou não stopwords (preposições, artigos e outros) já que elas são extremamente frequentes em textos, criando listas invertidas gigantes. Apesar de elas oferecerem pouco significado a consulta (por isso nem sempre precisam ser indexadas) é provável que os grandes buscadores da Web indexem estes pequenos termos assim mesmo (por que eles podem arcar com os custos).

Certo, sabe-se quais páginas possuem as palavras que eu busquei. E agora?

Precisamos entender as medidas TF-IDF, muito usadas nos modelos de Recuperação de Informação. TF significa Term Frequency, ou frequência do termo, e IDF Inverse Document Frequency, ou frequência inversa do documento. A primeira é basicamente quantas vezes uma palavara aparece num documento, ou seja, para cada página Web uma dada palavra tem um TF específico. Já o IDF é um único valor para cada palavra do índice, e mede o "quão importante" ela é naquele conjunto de documentos (no caso, a Web). Em miúdos, quanto mais rara a palavra for, maior seu IDF.

Dada uma página, verifica-se o TF de cada termo da consulta. A relevância de cada documento que contém um destes termos é calculada juntando-se TF-IDF das palavras-chave. No final do processo cada página possui um score (um grau de relevância). É com este score que são ordenados os resultados que vão aparecer na tela.

Notem que não mencionei as MUITAS outras técnicas que ajudam no rankeamento dos resultados, muitas delas conhecidas pelo pessoal de SEO. O PageRank das páginas influencia. Se a consulta se parece muito com uma frase da página ou título da mesma (consulta: "blog do hummel", por exemplo). Entre outros ajustes que as máquinas de buscas venham a fazer (não são poucos e é difícil de falar de todos).

Preferi omitir estes ajustes para poder explicar o modelo Espaço Vetorial puro, que é a base para a maioria dos sistemas de busca (tanto na Web quanto em outros ambientes). Apesar de existirem outros modelos para a construção de sistemas de Recuperação de Informação, como o BM25 e outros métodos probabílisticos, o modelo Vetorial ainda é o mais consolidado pelo sua facilidade de implementação e resultados muito bons que dificilmente são superados por outros modelos.

Para quem quiser ler um pouco mais sobre o assunto vale dar uma lida:

O Futuro das Máquinas de Busca.
Information Retrieval

segunda-feira, 19 de novembro de 2007

Algumas poucas novidades

Só pra deixar vocês a par de algumas coisas:

Vou começar a escrever artigos para o blog Google Discovery. Comecei com o pé direito com o post O Futuro das Máquinas de Busca. Espero que eu produza bons textos por lá. Quem quiser pode dar uma conferida.

Quem acompanha o meu blog sabe que eu e um grupo de amigos estamos desenvolvendo um site relacionado a Cinema. Ultimamente a coisa está complicada, mas estamos aprendendo muito com o projeto. Pretendo até o final deste mês mostrar pra vocês uma prévia e explicar o que pretendemos. Vai ser interessante também por que pretendo ir contando como anda o andamento os problemas e as soluções. Creio que vai ser um aprendizado (principalmente pra mim).

6o período de Ciência da Computação é dose! A faculdade está cada vez tomando mais tempo. Mas quem está na dúvida sobre que curso seguir, deixa de onda e faça logo Ciência da Computação!

É isso!

Proteção Anti-SPAM: Hotmail muito ruim? Gmail muito boa?

Faz tempos que adotei o Gmail como meu e-mail principal além de leitor (nunca me acostumei com Outlook e Thunderbird). Também possuo uma conta antiga no Hotmail, que praticamente não uso. Hoje fui abrir ele para dar uma limpada e me deparei com a situação abaixo:

Sim. Uns trocentos e-mails de SPAM na minha caixa de entrada e apenas 3 (os marcados) não eram lixo. Na pasta de "Lixo Eletrônico" havia apenas 14 e-mails, irônico, hein?

Já no Gmail a situação é bem diferente. Recebo, por semana, no máximo uns 2 e-mail com SPAM, o resto vai todo direto para a pasta certa. Mas vale uma ressalva, eu já encontrei algumas vezes e-mails "normais" na caixa de SPAM do Gmail. Um era inclusive uma resposta do Augusto do Efetividade.net. Vai entender né?

Fica a dica: olhem sua caixa de SPAM no Gmail.

Fica a pergunta: por que alguém ainda usa o Hotmail?

sábado, 17 de novembro de 2007

Produtos Deluxe Premium Junior Plus Special Edition

Esta semana passamos por um aperto aqui em casa devido ao nosso filtro/purificador de água estar quebrado. Podíamos mandar o aparelho de 10 anos de idade para o conserto, mas sabem como é né? Acabamos indo comprar um novo.

Chegando lá acabamos escolhendo o único que cabia no bolso e nas nossas necessidades:

Notaram o nome do produto? Acqua Júnior Plus.

Até onde eu sei, colocar em um nome de produto a palavra Júnior significa um modelo mais simples. Em contrapartida, usar a palavra Plus significa que o modelo tem algo a mais. Entenderam a contradição?

Na verdade, no caso acima creio que o motivo seja o nome da distribuidora ser Acqua Plus. Mas precisava meter um "Júnior" no meio? Vai entender...

Em tecnologia é muito comum colocar esses sufixos no nome. Extreme, Deluxe, Super, Mega, Ultra, Special Edition. Placas de vídeo são especialistas nisso. Mas placas-mãe e sistemas operacionais (né Windows?) também gostam de colocar adjetivos aleatórios no nome do produto.

Ah, e só pra não deixar passar em branco tem outro blog copiando posts (meus e de outros): http://paulozin.blogspot.com/

terça-feira, 13 de novembro de 2007

PCs poderão rodar múltiplos sistemas operacionais

Título bombástico hein? Super novidade! Alta tecnologia! Não... Apenas um jornalista que não soube escrever um título decente. Link: PCs poderão rodar múltiplos sistemas operacionais. Este pessoal que adora escrever título ambíguo ou errado continua me rendendo posts.

Sim, se a notícia não é sobre podermos ter mais de um Sistema Operacional no mesmo computador (Linux e Windows, o combo bem comum), sobre o que é? Na verdade, os "sistemas operacionais" que o título se refere são sistemas mais simples e enxutos que um Windows ou Linux. Um que seja, por exemplo, apenas para rodar DVDs. Então se você quer colocar um filme, ou uma música, você não precisa esperar o Windows iniciar para fazê-lo, ou pode até deixar o Windows em Stand By e passar dele para o "outro" sistema operacional e ver seu DVD. Provavelmente a economia de bateria é notável já que o notebook estaria rodando um Sistema operacional muito enxuto que não sobrecarrega o hardware.

Futuramente, o presidente da empresa Phoenix Technologies (quem tem laptop já deve ter visto o logo deles por aí) disse que vê esta mesma idéia sendo aplicada para navegadores Web, clientes de e-mail entre outras utilidades. Seria até interessante, se você quer apenas entrar para ver seu e-mail, não precisa esperar o Windows inicializar.

Apesar de a primeira vista a idéia ser um pouco "sem graça", creio que mais pra frente aplicações e utilidades mais interessantes surgirão. Pra quem quer maior mobilidade e rapidez com seu notebook, o tempo de bateria e o tempo de inialização influem muito. Além de tudo isso, este tipo de tecnologia acaba por fazer o computador se tornar um objeto mais comum, quase como um eletrodoméstico que é só "abrir e usar".

Segundo a notícia, espera-se para ano que vem notebooks com a tecnologia. Será que a idéia pega?

sexta-feira, 9 de novembro de 2007

Vai ser possível Ganhar Dinheiro no Orkut!

Depois de tanto alarde com o lançamento do Gooogle OpenSocial muita gente já está testando aplicativos no sandbox do Orkut ("orkut para testes"). Muita gente está criticando que "poderia ser melhor". E claro, muita gente já está pensando em como ganhar dinheiro com isso tudo (eu?)!

Eu já brinquei com alguns gadgets não tão interessantes mas que já mostram o poder e as possíveis novas funcionalidades que poderão ser agregadas às redes sociais que implementam a plataforma OpenSocial. Depois de todo o hype inicial já é hora de começar a pensar em aplicações interessantes, e é claro, como ganhar dinheiro com as milhares de pessoas que adoram passar horas navegando no Orkut. A dúvida que restava era se seria possível inserir publicidade, em especial AdSense, dentro dos Gadgets. A resposta é SIM, vocé poderá monetizar suas criações. Estas foram as palavras de Arne Roomann aqui:

We certainly want people to be able to use ads on apps, although this
is going to be a per-container policy decision. Google will be
releasing an article about monetizing applications in Orkut to help
out with questions like this
.

Bem interessante, né? Este fato provavelmente vai estimular muitas empresas/desenvolvedores/curiosos a desenvolver aplicações para o OpenSocial. Mas não é isso que o Google quer mesmo? E essa é uma ótima hora para aprender a criar seus gadgets, pois quando a plataforma for aberta a todo o público, todo mundo vai estar querendo criar o seu e ganhar um dinheiro, então é melhor se adiantar. Eu já estou fazendo minhas lições de casa.

E você, o que está esperando? Comece a programar!

quarta-feira, 7 de novembro de 2007

5 Posts que fazem este Blog valer a pena!

Estava pensando em algo para escrever e pensei nesta boa forma de divulgar outros posts aqui do Blog do Hummel. Além disso, vou convidar outros blogueiros a listar 5 posts que fazem o seu blog valer a pena. Aqui vai a lista dos 5 posts que eu acho que fazem esse blog digno do seu leitor de feeds:

Como funciona uma Máquina de Busca?

Na verdade esta é uma série de artigos (que eu ainda vou concluir) que faz uma explicação de como funciona os componentes básicos de uma máquina de busca: coletores(spides, robôs como queira), indexador e processador de consulta. Ao contrário de artigos sobre isso em outros sites eu tentei mostrar alguns aspectos que não são normalmente falados e que a maioria das pessoas não conhece.

Como ter idéias e criar sites que podem valer 1 bilhão de dólares

Esta outra série de artigos (essa eu terminei!) discute a situação atual do Brasil na Web e pergunta por que não temos sites milhionários como Youtube, Facebook e afins? Será que não temos capacidade? Os outros artigos da série mostram como ficar de olho aberto para oportunidades e possíveis idéias inovadoras que podem passar desapercebidas por nós.

Provas de Vestibular, Concursos e afins. Dicas para se dar bem

Este artigo foi escrito na época que minha namorada (sem fotos, já falei!) foi prestar vestibular. Dou algumas dicas pro pessoal que quer tirar o máximo de si neste importante dia. Na verdade as dicas servem para qualquer tipo de prova, por isso vale dar uma olhada.

O preconceito contra Blogs: 3 dicas para mudar esse cenário

Este post foi muito marcante pra mim, pois eu tinha alguns poucos dias de blog e consegui ficar um bom tempo no topo do Rec6 além de muitas pessoas terem linkado para este post. Ele foi escrito na época da infame polêmica Estadão x Blogs. Mas relaxem que as dicas são atemporais e não tem tanta relação com aquele contexto.

5 dicas simples para aumentar a sua produtividade

Este texto eu fiz para vocês mas para mim também. Estava precisando de uma geral de organização e aumento de produtividade. As 5 dicas são bem simples, talvez até bobas, mas quando a gente vê outra pessoa falando o que já sabemos a gente sempre dá mais atenção do que quando a gente pensa: "Pô, eu tenho que organizar melhor minhas coisas...".

Menções honrosas:

Quer aumentar suas notas? 3 dicas de como você pode melhorar

3 razões para o Second Life não dar certo

Cursos caros? Pra quê? Na internet tem conhecimento de sobra e Grátis!

Agora, venho convidar alguns outros blogueiros a fazer uma lista de 5 posts que fazem o seu blog valer a pena ser lido, frequentado e/ou assinado! Outras pessoas são bem-vindas a fazerem suas listas, mas comentem aí para a gente saber.

AndreSantos.Net
Blogadao
Anderssauro
Efetividade.net
Fazedor de site
O Fim da Várzea
TechBits
Simetria
BrunoTorres.net

sábado, 3 de novembro de 2007

Search Inside the Music - Software de análise e recomendação de músicas

Foi anunciado nesta semana pela Sun, um software de código aberto que promete mudar os sistemas de recomendação de músicas. Ele não se baseia exclusivamente em achar usuários que compartilhem gostos musicais com você e a partir destas pessoas achar outros artistas que possivelmente você vá gostar. O software vai mais fundo na parte técnica da "musicalidade". Ele escuta e analisa as músicas procurando características especiais.

O Search Inside the Music promete ser melhor que os sistemas atuais do iTunes, Amazon e afins. Prometendo, então, acabar com recomendações sem sentido, ou que simplesmente não nos agradam. Num sistema tradicional de recomendação, se uma pessoa A e outra pessoa B gostarem de MPB e B escutar Pagode (cada um com seus problemas), o sistema pode deduzir que a pessoa A possa vim a gostar de "Jeito Moleque" ou "Sorriso Maroto". Certo? Possívelmente não.

Por que essas incoerências acontecem? Pelo simples fato de o sistema se basear numa premissa (ou heurística) muita fraca. O gosto musical é algo extremamente complexo. Compartilhar o interesse por alguns artistas não significa que as outras bandas que aquela pessoa gosta vão me agradar. É para consertar estas "furadas" que a Sun está desenvolvendo o SITM.

Eu particularmente torço muito para que o negócio funcione direitinho. De tempos para cá, ficou mais difícil eu encontrar novos artistas. Tentei buscar indicações de pessoas que gostam das mesmas coisas que eu (assim como os sistemas de recomendação fazem) mas não tive tanto sucesso. Procurar por artistas do mesmo gênero dos que você gosta já não é mais fácil, visto o grande número de gêneros e o quanto é difícil classificar uma música ou artista em um deles.

Este projeto tem como objetivo identificar os detalhes de cada música. Ela é pesada? Leve? É toda acústica? Só um violão e voz? O vocalista canta alto ou baixo? Existe muita informação que se for cruzada com as informações dos seus artistas preferidos pode gerar recomendações MUITO melhores. Só nos resta esperar!

Fonte: IDG Now!

Curiosidade: O líder deste projeto é o Paul Lamere que participou e era um dos chefes do SPHINX4 um sistema de reconhecimento de voz de código aberto totalmente em Java, que eu coincidentemente usei para o meu projeto de Iniciação Científica na faculdade. E mais, um dos desenvolvedores do SPHINX é um brasileiro: Evandro B. Gouvêa da Universidade de Carnagie Mellon, EUA. Mundo pequeno hein?