Inne i Google Books Algorithm
Google bygde sitt imperium på kraften til koblingen, men bøker har dem ikke. Her er hvordan selskapet angriper problemene med det universelle biblioteket.

Google er kjent for glansen til sin algoritme for å søke på nettsider. Mens selskapet ser på dusinvis av faktorer for å bestemme hvilke resultater som skal vises, er hjertet av søkemotoren ved å bruke koblinger mellom sider for å rangere deres relevans. Vi er blitt avhengige av at Google gir oss akkurat det vi ønsker.
Men hva med når selskapet må nå utenfor nettet? De trykte bindene representert på Google Books utgjør en helt annen type problem. Googles berømte algoritme kan ikke brukes til å søke gjennom bøker fordi de ikke lenker til hverandre på den måten som nettsider gjør. Det er ingen perfekt BookRank-konsekvens for Side rangering .
Alt dette fikk meg til å lure på: Hvordan fungerer Google Books? Hva får det til å tikke? Det viser seg at det faktisk er et flott sted for selskapets ingeniører å lære hvordan man fungerer i en lenkeløs, fysisk verden.
«Det er en meningsfull innsats for å si, hvordan stiller vi oss etter bøker? Vi har mange mennesker som jobber veldig fokusert på nettet. Hvordan tar vi lærdommen fra det vi har lært på nettet og finner på nye ting som er unike for bøker?' Matthew Gray, ledende programvareingeniør i Google Books, fortalte meg.
Systemet de har kommet opp med har blitt stadig mer sofistikert, som fremhevet av deres siste tweak, Rich Results, som begynner å rulle ut i ettermiddag. Funksjonen gir deg selektivt ett ekstra stort resultat når den oppdager at du sannsynligvis søker etter en individuell tittel og ikke en spesifikk informasjonsbit eller generelt emne.
Rich Results er den siste i en serie med mindre frontend-tweaks som har blitt matchet av backend-forbedringer. Nå tar boksøkealgoritmen hensyn til mer enn 100 'signaler', individuelle datakategorier som Google statistisk integrerer for å rangere resultatene dine. Når du søker etter en bok, ser ikke Google Bøker bare på ordfrekvensen eller hvor nært søket ditt samsvarer med tittelen på en bok. De tar nå hensyn til nettsøkefrekvens, siste boksalg, antall biblioteker som har tittelen og hvor ofte en eldre bok har blitt trykket på nytt.
Så hvis du søker «Hjelp» nå, får du et stort oppslag av Kathryn Stocketts bok fra 2009, ikke en av dusinvis av andre bøker med samme tittel. Eller hvis du søker på 'dragetatovering', får du Stieg Larssons storfilm, ikke barneboken fra 2008 som faktisk heter Dragon Tattoo .
'En av de grunnleggende tingene vi har lært er at helheten er større enn summen av delene,' sa Gray.
Dette er dypt Google-tenkning, men uten den dominerende algoritmen. Det er en Google-underart som utviklet seg ved å spise på et annet korpus. Det er mindre data om bøker enn nettsider, men det er mer struktur i det, og det er mindre spam å kjempe med. Likevel forblir fokuset på å optimalisere en opplevelse fra enorme mengder data. 'Du vil at den skal ha standard Google-kvalitet så mye som mulig,' sa Gray. '[Du vil at det skal være] en sammenslåing av relevans og nytte basert på alle disse tingene.'

Den vanskeligste delen av å få Google Bøker til å fungere, sa James Crawford, teamets ingeniørdirektør, var å bestemme intensjonen med tjenestens heterogene brukerbase. Forskere som søker i Google Books har svært forskjellige ønsker og forventninger fra tilfeldige brukere som ønsker å finne en faglitterær tittel.
«Noen ganger leter de etter en forhåndsvisning. Noen ganger leter de etter informasjon om den boken. For det tredje ønsker de å kjøpe en kopi av den boken, sa Crawford.
Rich Results vil hjelpe folk som leter spesifikt etter en tittel, men Crawford sa at de ikke utelukker andre presentasjoner eller funksjoner for andre brukertyper (f.eks. kvasi-lærde som meg selv.)
Alle Google Books-justeringene jeg har lagt merke til er små. Tidligere i år introduserte de en sidefelt for å tilpasse søket ditt. I sommer la de til en bokspesifikk «Suggest»-funksjon, så når du skriver «sh» får du forslaget «Sherlock Holmes» i stedet for «Shoppers», som er det du får på nettet. Nå kan du også sortere etter dato, eller begrense søkene dine etter emne.
Men du legger dem alle sammen og bruker dem på de 15 millioner bøkene Google har skannet, og den virkelig enestående naturen til Google Bøker begynner å dukke opp. Det er ikke perfekt – og Google Books-oppgjøret er et helt eget problem – men det er unikt.
«Vi er midt i å gjøre noe radikalt. Ingen har noen gang samlet hele denne samlingen, skannet bøker fra 40 forskjellige biblioteker, sa Crawford. «Jeg vil si at vår generelle tilnærming her har vært å få bøkene skannet, for før de er digitalisert og OCR er ferdig, er du ikke engang med i spillet. Etter hvert som vi får mer og mer innhold på nettet, blir arbeidet som Matthews team får mer og mer viktig og mer og mer gjennomførbart.'