Se você está curioso para saber como funciona a pesquisa do Google em detalhes, acompanhe esse texto onde transcrevemos uma longa explicação da própria empresa sobre seu processo desde os primórdios.
Este é Luís XIV. Também conhecido como Luís o Grande, ou Luís o Grande Monarca, e Luís, o Rei Sol. Famoso por sua afirmação, “L’État c’est moi”.
Mas em 1685, até o autoproclamado Deus na Terra, tinha perguntas que não podia responder por si só.
Perguntas sobre a dinastia Qing, que reinava na China. Que tamanho tem? Quantas pessoas vivem na capital? O que podem nos ensinar sobre a música? Cultura? Astronomia?
Então na primavera desse ano, enviou membros da Ordem de França de matemáticos reais numa viajem que abarcaria três continentes e três oceanos. Sua tarefa? Reunir informações para satisfazer a curiosidade do rei.
Foi uma viagem com numerosas dificuldades, e incontáveis contratempos. Mas cinco anos, quatro meses e dois dias depois, por fim chegaram as respostas de Luís.
Na maior das tradições humanas, sentiu curiosidade, fez uma pergunta e aprendeu uma informação nova. Igual a milhões de pessoas antes dele, e outras milhares desde então.
Pessoas que tinham acesso a paredes de covas, pequenas tábuas de argila, oráculos, pergaminhos, livros, a imprensa, as bibliotecas, telégrafos ópticos e elétricos como, rádio, televisão, e o sistema nacional de Internet francês de breve duração chamado Minitel.
O que nos leva à atualidade. Pescadores que averiguam a hora da maré alta pela manhã. Cozinheiros cuidados revisando quando vencem as anchovas. Viajantes tentando descobrir como dizer “ChapStick” em turco.
Amigos apostando sobre qual equipe ganhou a Final da Conferência Este da NBA de 92. Pessoas procurando emprego, uma mudança. Uma menina do quarto ano do ensino fundamental procurando dados sobre a dinastia Qing para um trabalho de história que precisa entregar no dia seguinte.
Milhões de milhões de Reis Luís, fazendo bilhões de perguntas, em centenas de idiomas; esperando encontrar uma resposta em menos de um segundo. Agora, quem se proporia para um desafio assim?
Ben: Uma pretensão interessante.
Narrador: Este é Ben Gomes.
Ben: Bom, a pronúncia correta é Gah-mez.
Narrador: Este é Ben Gah-mez.
Ben: Mas eu digo Gomes.
Narrador: Ben sabe algunas coisas sobre busca. Quero dizer, “essa” busca. De todas as formas, é algo importante. Mas estou certo de que ele tentará nos convencer do contrário. Ben trabalhou nas buscas por mais de 20 anos, mas não foi aí que sua história começou.
Ben: Nasci em Dar es Salaam, na Tanzânia, mas quando jovem meus pais regressaram para a Índia, em Bangalore.
Havia alguns livros dos meus irmãos mais velhos em casa, e essa era a informação à qual tinha acesso. Inclusive recordo de uma enciclopédia rasgada que creio que meu avô deu para minha mãe. Ou seja, estava muito desatualizada.
Quando entrei para o quinto ano ganhei dois presentes: uma bicicleta, que meus pais acreditaram que me entusiasmaria muito; e uma enciclopédia muito melhor. Fiquei muito mais emocionado pela enciclopédia – está é a origem dos geekes – do que pela bicicleta, e meus pais não sabiam o que fazer as respeito.
Quando penso em como encontrávamos informação, era dramaticamente diferente da atualidade. Quando minha mãe era jovem, onde não havia sequer acesso a uma boa biblioteca, haveria aceitado o fato de que não tinha a informação, e assim é como seria.
Quando pequeno, para certas informações havia uma biblioteca decente, mas tinha que viajar uma hora de ônibus, tinha que buscar coisas num catálogo e isso levava tempo.
Agora, medimos o tempo necessário para obter informação em frações de segundos. E creio que a redução da fração é absolutamente dramática, porque pode permitir que as pessoas em todo mundo tenham o mesmo acesso à informação.
Não só as pessoas de certos lugares que têm acesso a melhores bibliotecas. Todo o mundo deveria ter acesso à informação de melhor qualidade.
Então, essa combinação de um problema técnico profundo, e uma necessidade humana fundamental de compreender o mundo que nos rodeia, saber mais sobre o mundo que nos rodeia, é o coração da busca do Google, e o que continua me fazendo sentir emoção para vir ao trabalho depois de 20 anos.
Nos primeiros dias me perguntava se a empresa tinha a infraestrutura para ser uma empresa real, porque quando cheguei para minha entrevista, nem sequer tinha um letreiro que indicava que era o Google. De tal forma que não estava certo de ter vindo ao lugar certo, mas na metade da escada havia um pequeno cartaz que dizia “Google”.
Foi então que eu soube. Em geral se sentia tudo completamente caótico. Jeff estava ali, ele também é brilhante.
Jeff: Sim, éramos uma companhia muito pequena, de umas 25 pessoas. Estávamos fechados num segundo piso no centro de Palo Alto. Estava numa oficina com Urs Hoelzle.
Ben: Urs estava a cargo de toda a engenharia, e nesse momento creio que não sabia como pronunciar seu nome, mas colocou os três chamados Ben numa oficina, para que as pessoas passassem e dissessem: “Olá, Ben”.
Urs: Sim, tínhamos o lugar dos Ben. Creio que foi por pura coincidência, na verdade. Minha primeira reação à Google foi “Não tenho nem ideia do que é a busca, de maneira que isso provavelmente não será para mim”. Mas então o problema me deixou intrigado. Estava claro que havia um valor real ali, porque sem uma boa classificação, todo o crescimento da Web seria desperdiçado se ninguém conseguisse encontrar as coisas que havia ali.
Ben: Um aspecto central da busca é como classificamos os resultados, e como encontramos a informação relevante? Pandu poderá falar mais sobre isso.
Pandu: Olá, eu sou Pandu.
Narrador: Chefe de classificação de buscas. Seu lema pessoal?
Pandu: “Nenhuma consulta esquecida”.
Narrador: Antes da Google, Pandu trabalhou num laboratório de inteligência artificial da NASA.
Paundu: Sim, construímos um sistema autônomo que proporcionava controle de alto nível à nave espacial Deep Space 1. Realmente foi o mais emocionante que tinha acontecido em minha vida. Em minha vida professional, suponho.
Narrador: Depois de fazê-lo, queria um novo desafio.
Pandu: Supervisiono a equipe de classificação. A classificação é importante porque se apenas mostrarmos um milhão de páginas que coincidem com a sua busca, isso não será especialmente útil.
Temos que classificar as páginas que possam apresentar um resultado útil. Com sorte estas serão os resultados principais. Estamos tratando de aportar informação ao mundo em geral e fazer que seja útil para as pessoas, para que possa melhorar sua vida diária. Sinto-me muito afortunado de poder trabalhar nesta missão.
Narrador: Voltemos um pouco atrás. Verão de 1999. Quarto trezentos e algo no edifício Gates, em Standford. Estes dois meninos, Larry e Sergey, que estão a ponto de anunciar algo tão grande que merecia vestirem uma roupa igual, combinada.
Larry: Qual é nossa missão? Basicamente, queremos organizar a informação do mundo, e fazê-la útil e de acesso fácil e universal.
Narrador: 20 anos mais tarde, cenário maior, mesma situação.
Sundar: Hoje, nossa missão é tão relevante como sempre.
Narrador: O que isso significa realmente? São só algumas ideias.
Cathy: Creio que ponderamos sim as distintas partes da missão, para mim, a parte mais importante é a organização. Existem centenas de milhares de páginas Web a fora. Nosso trabalho é filtrá-las e oferecer o que realmente se busca naquele momento.
Nick: E logo depois a seguinte parte é “a informação do mundo”. Portanto, “informação” significa qualquer coisa. No Google tudo começou com páginas Web, mas é muito mais do que isso.
Bez: Sejam livros físicos que precisamos escanear ou mapas que criamos em cada lugar da Terra. Isso também é informação, e não são páginas Web. É esse tipo de coisas que organizamos hoje.
Tulsee: Então, creio que a palavra “universal” é importante, porque universal significa “para todos”.
Nick: Seja alguém que não pode ver, ou alguém que não pode ouvir, pessoas que falam diferentes idiomas. Fazer com que seja realmente acessível para o grupo mais amplo possível.
Bez: Podemos ser pessoas ridículas que vêm trabalhar com camisetas, sem cortar o cabelo e coisas assim. Quiçá não parecemos muito sérios, mas sabemos o quanto as pessoas dependem disso, e tomamos essa missão com muita, muita seriedade.
Narrador: Parece que a missão é muito importante para essas pessoas, mas esta é outra pergunta importante.
Diretor: Como explicaria como funciona a busca?
Ben: Bom, como funciona a busca?
Tulsse: Como funciona a busca. Ehhh.
Pandu: Como funciona a busca, em poucas palavras…
Narrador: Este é o rack de servidores 3349B. Vive aqui, em Ballybane, Irlanda. Além das vacas, um campo de golf, e a Oficina Mecânica de Kavanugh.
Este é um dos lugares onde se realiza a busca. É uma grande peça de software que toma as palavras que escrevi aqui, no campo de busca do Google, e busca na Web mundial.
Posso fazê-lo, porque primeiro baixa uma cópia de toda a Web, a escaneia e cria uma lista de todas as palavras, e listas de todas as páginas nas quais aparece cada palavra. É como um índice de um livro, mas 10 bilhões de vezes maior.
“Lasanha” aparece em 59 milhões de páginas. Quando você busca “lasanha” o software coloca essas páginas em ordem, com o que espera que seja o mais útil na parte superior, e o menos útil na parte inferior.
A maioria das pessoas que buscam “lasanha” querem uma receita de lasanha. Algumas pessoas querem dados nutricionais da lasanha. E outras pessoas querem aprender sobre a vida e investigação do Dr. Louis C. Lasagna. Chamam-no “o pai da farmacologia moderna”.
O software do rack de servidores 3349B ajuda a classificar essas páginas, dependendo de onde você vive, se a página foi atualizada recentemente, quantas vezes aparece “lasanha” na página, se “lasanha” está em negrito, se tem imagens de lasanhas.
Tudo isso em menos de um segundo. Milhões e milhões de vezes ao dia. Principalmente para coisas mais difíceis que lasanha.
Ben: Por trás da busca do Google, existem muitos tipos de engenheiros e muitas equipes diferentes que se unem para trazer a experiência de busca que você tem. Equipes em todo o mundo, em muitos países, Zurique, Londres, Índia, Japão, etc.
Temos equipes que trabalham na interface com a qual apresentamos essa informação. Equipes que trabalham nos processos de avaliação, que garantem que as mudanças que ocorrem sejam boas mudanças.
Temos também equipes de engenheiros que trabalham na classificação. Eles examinam os tipos de consultas que hoje servem para nós e pensam me todos os tipos de técnicas que poderíamos usar para fazer um futuro melhor.
Narrador: Como a equipe está para entrar nesta reunião.
Elizabeth: Tem mais algo que devamos saber?
Diretor: Não olhe para a lente da câmera.
Elizabeth: Está bem, vamos lá.
Narrador: Apesar de sua falta de experiência diante da câmera, trabalham naquilo que poderia ser a maior mudança de busca em mais de uma década. Mas voltaremos a isso mais tarde.
Ben: Então, a busca é um produto bastante complexo. É um grande esforço para fazer que estas coisas funcionem realmente. Tomar todas essas peças diferentes do sistema com muita matemática, e tentar uni-las em algo mais real, algo que realmente possa converter-se num algoritmo.
Narrador: Muito bem, por trás dessa cena, as pessoas no Google trabalham em algoritmos. Vamos nos aprofundar nisso por um minuto. Basicamente, algoritmo é um conjunto de instruções matemáticas que um computador segue.
É como uma receita. Da mesma forma que existem diferentes receitas para diferentes pratos, existem diferentes algoritmos para diferentes trabalhos. Alguns fazem subir e descer elevadores e outros predizem atrasos do metrô. Alguns fazem com que os veículos estacionem sozinhos.
Os algoritmos de busca do Google desenvolvem informação de alta qualidade baseada na consulta do usuário. Coisas como textos, imagens, vídeos e ideias que as pessoas têm o trabalho de colocar na Web aberta; coisas que querem que outras pessoas encontrem e leiam, olhem e vejam, e aprendam com elas.
Essa é a informação que o Google tenta organizar e fazer que seja acessível e útil a nível universal. Porque é esse tipo de informação que as pessoas estão buscando.
Sabe o que não estão buscando? Spam.
Cathy: Sim, permita-me falar do Spam por um minuto, já que é um dos maiores problemas que enfrentamos.
Narrador: Está é Cathy Edwards, Chefe de Confiança do Usuário nas Buscas. O que significa basicamente que lida com um monte de lixo para que os resto de nós não tenhamos que fazê-lo.
Cathy: O Spam em geral é uma página de baixa qualidade, que se impulsiona artificialmente em nossos resultados.
Narrador: Fala de páginas que usam texto sem sentido gerado por Inteligência Artificial. Palavras ocultas. Sequestram URL para entrar com enganações nos resultados de busca. Como “dinheiro rápido em xxx.org” ou “artigos de moda em yyy.info”. O tipo de sites da Web que, quando você termina neles, aperta o botão de voltar o mais rápido possível. Porque são Spam.
Bez: As pessoas que fazem esse tipo de site têm ampla variedade de motivações. Às vezes é interesse comercial.
Cathy: O Spam onde se tenta vender coisas que são tanto quanto duvidosas. Ou então, às vezes pode ser para captar mais cliques de usuários. E isso não está certo. Esse site não obtém as visitas de forma orgânica. Dilui-se o valor desse sinal, deixando mais difícil para nós, e mais difícil que os usuários encontrem boa informação.
Bez: É um problema muito difícil porque as pessoas do outro lado estão muito motivadas a ter êxito e também são inteligentes e têm recursos e trabalham por isso. Solucionamos uma parte e se adaptam, fazem outra coisa.
Cathy: Por isso mantemos o algoritmo de busca do Google como um segredo muito bem protegido, guardado como a receita da Coca-Cola.
Bez: Porque si falamos demasiadamente dos sinais do interruptor, as pessoas os manipularão e isso romperia a busca por completo. Lutar contra o Spam é como jogo de gato e rato, não é algo que será sempre solucionável.
Cathy: por exemplo, 40% das páginas que navegamos no último ano na Europa eram páginas de Spam. Esta é basicamente uma guerra que estamos lutando.
Narrador: Por isso, as pessoas do Google odeiam o Spam, que é um dos motivos pelo qual sempre realizam mudanças na busca, para manter o Spam fora e manter a informação de alta qualidade.
Ben: Você tem um motor de busca, e está funcionando. E, pelo visto, funciona melhor que qualquer outro motor de busca que já tenha funcionado antes. E cada dia se vê milhões de consultas e usuários satisfeitos.
Mas, como engenheiro, você se pergunta: como posso melhorar isto? Você vê muitas formas nas quais ainda falhamos e vê também grandes oportunidades para melhorar ainda mais. E durante um período de tempo os desenvolvimentos que temos realizado no motor de busca afetaram dramaticamente o quão bem funciona para os usuários.
Pandu: Não creio que tivéssemos esse problema em particular. Ainda que tenhamos lançado uma série de mudanças ao longo dos anos, que, na minha opinião, melhoraram significativamente os conjuntos de resultados de busca. Estou aqui para dizer que a busca está longe de ser um problema resolvido.
Ben: Não há fim à vista em termos de quando isto se resolverá realmente, porque o mundo continua evoluindo, criamos novos dispositivos, encontramos novas formas de interagir com a informação. Recebemos novas fontes de informação como vídeos e assim sucessivamente, acrescentando novas oportunidades, assim como novas metas.
Cathy: O conteúdo da Web mudou. Os usuários mudaram o que procuram e como o fazem. Por exemplo, 15% das consultas
Pandu: Cerca de 15% das consultas…
Ben: 15% das consultas que vemos cada dia…
Cathy: …nunca vimos antes. Isso continuará acontecendo e teremos que evoluir sempre para estar em dia. É como diz a Reina de Corações em Alice no País das Maravilhas, “tens que correr tão rápido quanto possas, para ficar onde estás”.
Narrador: Acrescentaremos fricção. Não cremos ter bons resultados, a ideia é acrescentar fricção para os piores resultados possíveis para começar.
Cathy: Mudamos o algoritmo de busca seis vezes por dia, é na verdade com muita frequência. Contuo, para chegar a esses seis lançamentos por dia, alguns milhares ao ano, fazemos de duzentos a trezentos mil experimentos. Assim a grande maioria das mudanças que pensamos fazer, que poderíamos provar, de fato falham.
Pandu: Imagine que tem um engenheiro inteligente na equipe, e chega em você e diz: tenho essa grande ideia sobre como melhorar a busca, e fala com o engenheiro e volta um pouco mais tarde e diz: “Tenho uma mudança. Posso lançá-la?” Você pensa: não, não pode lançá-la, tem que demonstrar que isso realmente é bom.
Narrador: a prova vem dos dados, e os dados provém dos experimentos. Provas conjuntas nas quais os resultados da versão atual da busca se comparam com a versão proposta.
Se a versão proposta oferece resultados de melhor qualidade, quer dizer, vínculo com sites Web de melhor qualidade, se aproxima mais de ser posto em produção, que é uma forma elegante de dizer que a usem as pessoas de todo o mundo. Isso gera uma pergunta: Quem decide os critérios para que um site seja considerado melhor?
Rami: As pessoas às quais perguntamos se é melhor A ou B são conhecidas como avaliadores de qualidade de busca.
Nick: As pessoas do Google não decidem o que é um bom resultado ou um mal resultado. As pessoas do Google não determinam que resultados são mostrados, mas os avaliadores basicamente ensinam os nossos computadores o que é bom e o que é mal. Esse é um resultado de alta qualidade?
Cathy: E estão capacitados nas Pautas para avaliadores.
Narrador: As pautas de avaliador de qualidade são um documento de 168 páginas que estabelece o que faz que um resultado de busca seja bom. Falamos de sites Web que mostram experiência, autoridade e confiabilidade.
Estas palavras têm definições detalhadas e claras para que os milhares de avaliadores independentes que vigiam a busca saibam o que buscam. Quer que um site Web apareça mais para cima? Leia as pautas. É sério.
Estão disponíveis ao público e quanto mais pessoas as leem, melhor será a Web para todo mundo.
Ben: A mudança na busca é um ato de equilíbrio. Existem muitas coisas diferentes que se tenta equilibrar. Qualidade, frescor, relevância, mas também temos que equilibrar o rendimento.
Certas ideias podem ser muito boas, mas podem dar como resultado uma busca que leve muito mais tempo. Devemos ter cuidado de não fazer que a busca seja mais lenta no processo de dar resultados apenas melhores.
Jeff: Desde o momento em que começamos, nos concentramos em como podemos fazer que a busca se execute de forma muito rápida, para responder mais rapidamente com melhores resultados a mais pessoas cada dia, cada semana.
Rami: Nos concentramos em encontrar a informação e colocá-la ao alcance da mão no mesmo instante que se pergunte. De fato, em menos de 0,5 segundo.
Ben: Parece incrivelmente difícil e, no entanto, é uma área que funciona de forma confiável 24 horas por dia, nos 365 dias do ano, em todo o mundo.
Mas como você vai buscar um índice que vai à lua e volta várias vezes em uma fração de segundo?
Urs: Para as pessoas, às vezes, a Internet parece que não está em nenhum lugar. Estou usando meu celular e aqui está a conexão inalâmbrica e não vejo nada, mas quando se trata de um motor de busca, quando é um centro de dados, são bastante físicos, grandes máquinas, por assim dizer.
Um centro de dados, na verdade, é conceitualmente muito simples. É um edifício com muitos e muitos servidores realmente. Em Dublin temos um dos campus do centro de dados. Na verdade, um dos menores.
Philip: A escala do que fazemos aqui pode ser uma loucura.
Petra: Milhões de buscas por dia passam por essas máquinas. Por isso fazem tanto ruído e produzem muito calor. Significa que trabalham constantemente, respondendo consultas o tempo todo.
Urs: E como armazenamos a Web, por assim dizer? A forma de pensar nisso é que tomamos internet, descarregamos, indexamos e cortamos em pequenos pedaços. Logo, cada servidor tem uma pequena peça. Todos estes servidores para esse trabalho do centro de dados juntos para que casa um busque sua pequena parte de Internet.
Rami: Requerem-se literalmente milhões de servidores e discos duros para suportar os sites Web do mundo.
Urs: Cada um dos centros de dados têm uma cópia completa da Web.
Rami: Se estiver na França, ou na África do Sul, não está enviando uma consulta que passa por cabos, ou cabos subaquáticos, que chega a Mountain View, faz a pergunta e respondemos. Isso não é possível, nunca funcionaria como uma solução rápida.
Urs: A forma que funciona é, se você entra no Google e escreve uma busca, dirigimos sua consulta ao centro de dados mais próximo. E, por isso, tem centros de dados por todas as partes, porque queremos estar perto dos usuários a quem servimos.
Rami: É a única forma de lhes dar a resposta mais precisa o mais rápido possível.
Narrador: Porque existem anúncios? Dois motivos. Primeiro, os anúncios mantêm as buscas acessíveis universalmente. Sem limites por pagamento, sem subscrições, sem “você não tem mais crédito, quer comprar mais 50 unidades?” Apenas buscas grátis para todos. Segundo, os anúncios ajudam pessoas que querem comprar algo a encontrar pessoas que querem vender algo.
Bart compra anúncios do Google que só são exibidos quando alguém está perto de sua loja. E ele só paga ao Google se a pessoa que realiza a busca clica no anúncio de Bart, que sempre se etiqueta como “Anúncio”.
Isso ajuda você encontrar o que precisa, e ajuda o vendedor a manter seu negócio. Além disso, ajuda ainda a pagar tudo que está relacionado à manutenção das buscas, os mapas, os documentos funcionando gratuitamente. Por isso existem anúncios.
Pandu: Desde que estou na Google trabalhando nas buscas nos últimos 14 anos, tenho que dizer que ninguém, absolutamente ninguém, vem e me diz, “sabe, fiz essa busca e os resultados foram excelentes”, ninguém diz isso. Só telefonam para se queixar de que fez algo e não funcionou.
Narrador: E o homem que recolheu os erros de busca mais bobos do Google nos últimos quatorze anos? Engenheiro de software sênior, Eric Lehman.
Eric: Ao longo dos anos, reuni alguns de meus bloopers favoritos. Mostrarei alguns deles para vocês:
Quão longe da costa fica Cambridge, Massachusetts? É um pouco mais de 3000 milhas, da costa oeste…
Quantas calorias em 330 toneladas de manteiga? Isso provocou um erro e dissemos que menos de dois mil milhões.
De que cor é o verde? Azul, claro…
Às buscas “dados nutricionais de carne” oferecemos todo tipo de informação detalhada. Creio que muito boas. A consulta é um pouco ambígua porque não dizia o tipo de carne. E, portanto, o sistema escolheu rato assado… hahaha
O número de Avogrado é uma espécie de constante importante na química. Também parece que é o nome de um restaurante. Assim, demos os seus dados de contato a muitos estudantes de química.
Narrador: Desde que começaram a perceber isso, as pessoas fizeram mais de cem milhões de buscas. Os resultados seriam suficientes para encher 27 bibliotecas. Mas nenhum tão genial como este.
Esta é a Biblioteca de Weston, no campus de Oxford. Dois edifícios abaixo, se encontra o escritório do Dr. John Paul Ghobrial, um professor de história moderna. Ele se especializa na história de informação e arquivos. Podemos dizer que é um expert no assunto.
John Paul: Antes, no século XVI ou XVII, acontecia que se você lesse um manuscrito copiado por alguém, talvez alguém que você conhecia, ou que não conhecia, mas outra pessoa recomendou, podia ter uma certa confiança de que o texto era estável, era autoritativo, era correto.
A imprensa mudou tudo isso. Claro, a palavra impressa pode fluir a todas as partes, mas isso preocupava muita gente, porque, por exemplo, se não sabemos quem imprimiu, deveríamos pensar sobre esta informação?
Se tiver um erro na impressão, todo mundo se equivocará. Então, na verdade, na revolução da imprensa, a qual éramos levados a pensar de forma quase comemorativa, agora pensamos que as ansiedades das pessoas sobre a impressão, de muitas formas, se comparam com a ansiedade das pessoas sobre fake news, sobre a origem da informação.
Nick: A busca do Google é um índice do que existe. Se esse conteúdo que está aí fora, às vezes podemos trazê-lo para a superfície. Isso pode apresentar resultados que são preciso quando se trata do conteúdo na Web, mas não é preciso em termos do que é a verdade realmente. Mas isso pode ser para alguns, que considerariam como resultados, repreensíveis ou realmente ofensivos.
Ben: Há alguns anos, as pessoas apontavam que para algumas consultas como “O Holocausto realmente aconteceu?”, dávamos às pessoas documentos que tinham as palavras e eram sobre o tema, mas eram de sites de baixa qualidade, e vimos isto como um fracasso muito profundo.
Pandu: Isso é claramente ruim porque este é um caso de deformação, porque se sabe que o Holocausto ocorreu. Então, queríamos entender porque isso acontecia.
Ben: Assim, adotamos um enfoque algorítmico. Não entramos e dissemos “para esta consulta vamos mudar o resultado”.
Pandu: O motivo fundamental para isso é que cada problema que nos informam assim, normalmente é a ponta do iceberg. E normalmente é apenas uma representação de toda uma classe de problemas, e neste caso, o problema era a informação errada.
Resolver apenas o problema específico que nos informaram não resolve o grande iceberg de problemas que não foi comunicado.
Fede: Parte do motivo pelo qual todos estávamos em busca é porque queremos dar bons resultados para os usuários. Queremos melhorar suas vidas ao lhes dar boa informação. Isto era o oposto a tudo o que queríamos como empregados de busca. E, num sentido muito notório, não era apenas um erro ortográfico ou algo assim.
Meg: Cada consulta vai ter alguma noção de relevância, e cada uma terá uma noção de qualidade e estamos constantemente tentando compensar qual conjunto de resultados equilibra estas duas da melhor maneira.
Mas se você escreve a consulta “O Holocausto aconteceu?”, pode ser que sites Web de maior qualidade não se incomodem de dizer explicitamente que o Holocausto aconteceu sim. Eles falam do Holocausto e damos por certo o fato de que nós, como cidadãos informados, sabemos que o Holocausto aconteceu, porque aprendemos sobre isso na escola, etc.
Por isso, os únicos tipos de sites Web que na realidade vão ter a combinação de termos que parecem coincidir estreitamente com uma consulta assim, que dizem “Não, o Holocausto não aconteceu na realidade, é tudo um grande engano”, são aqueles cujos resultados não são de alta qualidade.
Serão de menor qualidade, ainda que sejam mais relevantes. Então, o que acontecia nos tipos de consultas como esta é que os sinais de relevância superavam os sinais de qualidade, oferecendo resultados de baixa qualidade para os usuários.
Pandu: Desde há muito tempo nos demos conta de que existe uma classe de consultas, como consultas médicas, consultas financeiras. Para estes casos, as fontes de autoridades são muito importantes, de maneira que enfatizamos a experiência sobre a relevância nestes casos, e tentamos obter resultados de fontes dessas autoridades de uma maneira mais significativa.
Meg: E por “autoridade”, nos referimos ao que provêm de fontes confiáveis, que estas mesmas fontes sejam de boa reputação, de que são transparentes sobre sua identidade, de onde procede a informação, que elas mesmas citam as fontes.
Pandu: E a mudança que fizemos no caso da desinformação é mudar a função da classificação para enfatizar muito mais a autoridade. Isto marca a diferença.
Narrador: A desinformação é um dos desafios que vem ao ajudar as pessoas a encontrarem o que buscam. Mas não é só isso.
Lançado em 2012, a função de autocompletar as palavras da busca, evitou desperdiçar milhões de horas de tempo das pessoas ao adivinhar o que buscam, antes que terminem de escrever. Mas se as suposições são erradas, pode dar lugar a predições perturbadoras.
Reese: Há alguns anos as pessoas nos contavam que às vezes escreviam coisas em autocompletar e se surpreendiam com certas proposições que recebiam. A função de autocompletar se criou para ajudar as pessoas a completar suas buscas mais rápido. Em troca, devolvíamos informação que não estavam buscando.
Quando lhes proporcionamos algo que é impactante, que não é relevante, nesse momento não seguimos nossos princípios fundamentais.
Pandu: Creio que eu e todos os membros da equipe sentimos uma profunda responsabilidade pessoal. Nos sentimos muito motivados por tentar desenvolver os sistemas para reduzir esse tipo de situação tanto quanto seja possível.
Primeiro desenvolvemos um conjunto de políticas que dizem qual o tipo de previsões que não queremos oferecer aos usuários.
Reese: Conteúdo violento, sexualmente explícito, linguagem de ódio. Mas também publicamos essas políticas. Assim, as pessoas veem nossa posição. E isso nos dá um pouco de responsabilidade.
Pandu: Com esses algoritmos de autocompletar, tentamos que não surjam sugestões que inflijam as políticas. Estes algoritmos são muito bons no que fazem, mas não são perfeitos. E, de vez em quando, obtemos algumas sugestões que sim infringem as políticas.
Reese: Dessa forma, pode informar se você viu uma sugestão que infrinjam as políticas. E todos os dias recebemos advertências de nossos usuários que nos dizem onde poderíamos ver problemas no produto.
Pandu: Usamos essas informações para melhorar os algoritmos e fazer provas, e ver se podemos abordar toda classe de problemas que o informa poderia estar assinalado. Mas uma coisa que eu gostaria de enfatizar é que isto de nenhuma maneira impede que os usuários busquem o que seja e o que queiram. São absolutamente livres para fazê-lo.
Narrador: Pense dessa forma, a busca é como uma porta de conduz à Web. Com o autocompletar é o tipo de porta que você sente que caminha para ela e se abre para você.
Mas se você está escrevendo uma consulta que infringe as políticas, a peça automática se detém. O conteúdo da Web segue a porta, mas não verá resultados se não completar a consulta você mesmo.
Nick: A busca não é perfeita. Cometemos erros, e cometemos mais erros do que gostaríamos. Mas devemos aprender com eles e melhorar, e devemos continuar melhorando para continuar evitando esses casos no futuro.
Cada vez que acontece algo onde nos inteiramos de um resultado ruim, usamos isso como aprendizagem. Utilizamos todos esses comentários para continuar melhorando, e asseguramos que Google, em um dia, em cinco dias, em dez dias, em dez anos a partir desse momento, continuará melhorando.
Ben: Muita gente é tendente a pensar que a busca é muito fácil. Se escrevem algumas palavras, se obtêm alguns documentos e o processo parece muito fácil, e em muitos sentidos é isso que queremos conquistar. Queremos que a busca seja muito fácil para as pessoas.
Mas detrás disso existe um problema técnico sumamente complicado de compreender, o que as pessoas realmente querem dizer ao escrever uma palavra ou expressão. Não se trata somente de palavras iguais, mas sim de compreender a linguagem cada vez melhor com o tempo para que possamos fazer coincidir o que a pessoa perguntou com o conceito que realmente se busca nos documentos e possamos reunir estas duas coisas.
É um problema absolutamente fascinante no qual devemos trabalhar porque é a fronteira do possível para os computadores e a informática e nossa compreensão dos aspectos básicos de como queremos interagir com os computadores como seres humanos.
Narrador: Desde que existem as máquinas, os humanos tentaram fazer que essas máquinas façam cada vez mais. Óbvio, na maior parte da história as máquinas não entendiam os seres humanos. Assim, os humanos tinham que buscar novas formas de dizer pra elas o que fazer.
Joseph Jacquard usava cartões com orifícios para dizer ao seu tear: “coloca o fio aqui, aqui e aqui”. Ele fez com que o tecer seguisse padrões complexos de forma mais fácil. Esses cartões eram uma grande ideia.
Assim, os primeiros computadores receberam as instruções, calcularam e resolveram equações. Os buracos perfurados nos cartões representam os dados para subir ao computador.
Depois os computadores ganharam telas e teclados. Mas ainda não podíamos falar com eles como com um humano. Era preciso escrever um código: C:\>smartdrv.exe e outros códigos.
Quando chegou a busca as coisas se facilitaram. Você só precisa colocar as palavras que deseja pesquisar, e o Google te dá os sites, mas ainda escrevia em código.
Ben: Como entendemos melhor a linguagem, você deveria poder fazer uma pergunta de uma forma muito mais natural.
Narrador: Que canal passa o jogo de repescagem esta noite? Onde chamo um guia por aqui? Alguém faz um esmalte de unhas que seja seguro para cachorros?
Ben: Assim, ao invés de elaborar palavras-chave que o motor de busca possa entender, queremos ser capazes de entender o que tinha em mente da forma mais natural de expressá-lo para poder satisfazer essa necessidade de informação com a informação que temos disponível.
Narrador: Chamamos este problema de “processamento da linguagem natural”.
Ben: Onde estamos nesse espaço para resolver este problema? Já percorremos um longo caminho, mas a viagem é ainda mais longa, difícil de ver onde o caminho termina.
Começamos a trabalhar neste problema há 19 anos com o sistema no qual trabalhei, Correção Ortográfica. Fomos além para entender os sinônimos e como se relacionam as palavras entre si. Mas para aprofundar, precisávamos de um enfoque diferente. O Google esteve investigando algo chamado de aprendizagem automática há quase uma década, e Geoffrey Hinton esteve na vanguarda disso.
Narrador: Quando Geoffrey Hinton começou trabalhar nos anos 70, as pessoas diziam que a inteligência artificial era uma ficção científica. Hoje em dia, está revolucionando a forma como vivemos.
Ben: Geoff Hinton combinou forças com Jeff Dean em algum momento e começamos a ver estes enormes avanços na aprendizagem automática.
Jeff: Se olharmos os últimos 8 ou 10 anos, a aprendizagem automática passou de uma pequena parte de investigação informática geral a algo que agora afeta a muitos, muitos campos da iniciativa.
Ben: E nos damos conta de que isso poderia nos ajudar muito a melhorar a busca.
Narrador: Que tipo de impacto espera que cause a aprendizagem profunda?
Geoffrey: Espero que permita a Google ler documentos e entender o que dizem. E, portanto, oferecer resultados de busca muito melhores.
Narrador: Anos mais tarde, se anunciou um novo desenvolvimento no processamento da linguagem natural. O chamaram: representações de codificador bidirecional de transformadores.
Jeff: É um pouco grande, de maneira que chamamos de BERT. Uma investigação como esta nos leva mais perto da tecnologia que entenda realmente a linguagem.
Narrador: BERT é muito importante para a busca. Ao menos poderia sê-lo. O que nos traz de novo a esta equipe de antes. Vai depender deles: Elizabeth, Jingcao, Sundeep, Eric, e alguns outros para descobrir como fazer que BERT trabalhe na busca.
Eles chamaram seu novo projeto de Classificação Profunda, por causa dos métodos de aprendizagem profunda usados pelo BERT e pela classificação da busca. E também porque soa genial.
Pandu: É genial.
Elizabeth: Por fim estamos em marcha aqui. Uma das coisas que podemos fazer hoje é falar. Quando me uni ao projeto, no princípio, me entusiasmei muito pensando que o sistema fazia algo bastante especial, que a maioria dos outros sistemas na busca provavelmente não fazem.
Jingcao: Continuamos na fase inicial de criar um sistema de busca que entenda realmente os seres humanos. Mas este projeto é único em um sentido, que é a primeira vez na busca que temos um sinal que entende a relação entre diferentes termos.
Sundeep: Estamos muito emocionados com o projeto, porque esperamos que possa nos ajudar a fazer que as buscas no Google tenham um uso mais intuitivo, e fazer que pareça realmente que entende os nossos usuários.
Eric: As pessoas usam a linguagem todos os dias. Nem sequer pensamos em como formamos as orações. Tem coisas tremendamente sutis, certas mudanças leves na redação que podem mudar o significado. E é muito difícil escrever um programa informático que capte toda essa sutileza.
É interessante, no começo da recuperação da informação, que é uma espécie de ciência por detrás da busca, que as pessoas tendiam simplesmente a abandonar estas coisas.
Como muitas palavras conectoras, simplesmente as ignoravam, as chamavam de “palavras de parada”. Simplesmente as tiravam. Creio que aprendemos com o tempo que essas palavras têm um papel importante em comunicar o que tentamos dizer, comunicar uma ideia.
E assim, através dos sistemas de aprendizagem automática, Classificação Profunda, esperamos captar estas sutilezas de linguagem que são tão naturais para os humanos, mas tão difíceis de programar.
Esperamos que as pessoas possam escrever as consultas de busca numa forma mais natural para os humanos, e não sofrer com este problema de as máquinas não terem sutileza.
Narrador: Eric faz que tudo soe bastante simples, mas como conseguir que BERT funciona bem com as buscas? Não vai ser fácil. Todas estas consultas se parecem com as que esperamos ver vitoriosas na Classificação Profunda.
A equipe começa por provar suas teorias, passam os meses, o progresso é lento.
Pandu: Não se trata de fazer uma distinção dessa categoria. Por isso, não estou muito satisfeito com essa parte. Com a mudança que é tão positiva e tão poderosa, há uma tendência de sentir: ah, deveríamos lançá-lo o antes possível, por isso você tem que combinar com um pouco de pragmatismo.
Narrador: Para cada resultado que melhora, os demais pioram. As consultas de um único termo também são muito mais negativas. Quando não sabemos o que fazemos, o fazemos bem.
Cada falha requer uma nova prova. Cada prova requer reescrever grandes fragmentos do código. Não temos todo o tempo do mundo. Inclusive, só para experimentar com o sistema BERT é preciso milhões de servidores que decifram quatrilhões de números.
Eric: Classificação Profunda precisa de uma enorme potência de cálculo. Google tem enormes recursos. Temos suficientes TPU para lançar o projeto, mas apenas isso.
Narrador: Se não mostrarem progresso rápido, os recursos irão para outra equipe com uma ideia mais promissora.
Pandu: Tudo girará em torno de obter uma grande vitória em qualidade, por assim dizer. Porque se não conseguimos, então não obteremos os recursos.
Narrador: O tempo está se esgotando.
Elizabeth: Não importa o excelente que seja a tecnologia, se não atender às políticas do Google. Esta semana vimos resultados experimentais muito bons, e isso foi tranquilizador. Gostaria de repassar algumas vitórias. Uma das minhas favoritas é a qual temperatura se deve pré-aquecer o forno para cozinhar o peixe. Estava fascinada com esta.
Eric: Esta é uma consulta difícil.
Narrador: Isto é o que nos emociona tanto. Sem a Classificação os algoritmos de busca do Google encontravam alguma informação boa sobre cozinhar peixe, mas também se confundiam com uma receita para fornear biscoitos.
Quando se testou com a Classificação na consulta, o sistema percebeu que a palavra biscoito reduzia a importância da receita incorreta e elevava no seu lugar a informação mais relevante sobre como cozinhar o peixe.
Esses são os tipos de triunfos que a equipe necessita ver mais se quiser que seu projeto seja lançado, e melhorem os resultados de busca para milhões de pessoas em todo o mundo.
Elizabeth: Mas antes do lançamento precisamos da aprovação dele mesmo. É um processo formal no qual qualquer mudança nas buscas se analisa muito. Por isso sinto um pouco de pressão, como se, não sei…
Então, o Comitê de Lançamento é basicamente a revisão final antes de eleger lançar um projeto.
Narrador: Eles têm todo direito de ficarem nervosos, porque o Comitê de Lançamentos é conhecido por matar experimentos. Apesar de suas melhores intenções, a pesar dos meses de trabalho dedicados a isso, a maioria dos experimentos nunca saem desse edifício.
Elizabeth: Estamos aqui para obter aprovação para lançar a Classificação Profunda.
Bez: O Comitê de Lançamento é a reunião de todos para ver as métricas e discutir entre nós. Em geral, os engenheiros não apresentam seu próprio trabalho. Normalmente estão ali para responder perguntas, mas uma analista apresenta seu trabalho porque queremos que o analista seja um terceiro imparcial. Pode ser um pouco duro.
Pandu: Sempre há triunfos e perdas. A Classificação Profunda ilustra algumas vitórias muito boas que obtemos ao entender a linguagem e o matiz da linguagem.
Narrador: Esta é minha vitória favorita. A Classificação Profunda traz um resultado muito relevante e específico. E sabem porque? Porque antes dessas palavras eram ignoradas. Agora, devido ao BERT, é como se realmente entendesse que são muito importantes. Mas “para alguém” é um conceito muito difícil de conseguir em RA.
No momento, esta aprovação é muito importante. Mas o grande esquema das coisas é uma gota no cubo, um experimento como todos os demais que vieram antes, que ajuda a fazer a busca um pouco mais útil que ontem.
Pandu: Solucionar o problema das buscas não é fácil, isso é certo. Quer dizer, levamos 20 anos nisso e creio que ainda há muito para ser feito.
Cathy: Os humanos têm mais acesso a informação do que nunca antes e creio que nosso trabalho é assegurarmo-nos de que está conectando com a informação da maior qualidade, com mais autoridade, e mais relevante para eles. E que realmente possam aceder à informação que marque a diferença em suas vidas.
Pandu: Este é um tipo de valor central e nos sentimos muito responsáveis com os usuários para que isto aconteça.
Urs: O que será do Google em 20 anos? É muito difícil prever o futuro. Nunca teria previsto há 20 anos como seria o Google hoje em dia. A missão continuará aí, como fazer que a informação seja acessível para as pessoas. E creio que a sede continuará estando ali, que as pessoas realmente querem encontrar as coisas que buscam.
Ben: A informação libera coisas que estão em potencial nas pessoas. Permite-lhes tomar decisões que não poderiam tomar antes, saber coisas que não sabiam antes, conhecer coisas do mundo, saber mais sobre as pessoas ao seu redor.
Espero que também melhore sua compreensão do mundo que os rodeiam enquanto o fazem. E creio que nosso papel na busca é ajudar a servir essa curiosidade nas pessoas, para as ajudar a encontrar a informação que estão pesquisando, que os leva ao seguinte passo de sua viagem pela curiosidade.
Narrador: Todo tipo de pessoas. Em todo tipo de viagens. Com curiosidade por aquilo que os reprime. Com curiosidade por aquilo que os impulsiona. As pessoas que buscam por si mesmas, e suas famílias. Da mesma forma que sempre fizeram, e sempre o farão.
Ben: E ainda que essa curiosidade vive em nós, creio que nosso trabalho aqui na busca é interminável.