Google-agoritmit - Kännykkä uutiset, arvostelut, arviot, vertailut ja testit

Go to content

Main menu:

Sovellukset
07.05.2019 20:33 | toimitus | @kannykka.fi
Kuinka Googlen hakukone toimii?
googlesearch.png
Google hakukoneen toimintaperiaate

Hakukonetta käyttäessään harvemmin tulee miettineeksi sen toimintaperiaatetta

1990-luvulla internetin kasvaessa linkkikirjastot eivät enää riittäneet sisällön hallitsemiseen. Keksittiin hakukoneet, jotka antoivat hakutuloksina listan sivuille, joilla haetut sanat esiintyivät [1].Hakukoneet jaetaan yleisiin hakukoneisiin, metahakukoneisiin ja aihehakemistoihin. Hakukone on web-pohjainen ohjelma, joka etsii jatkuvasti internetistä uusia sivuja eritellen ja liittäen ne hakemistoonsa hakusanojen mukaan. Kultaisella 90-luvulla yksi suosituimmista hakukoneista oli AltaVista, jonka Google sittemmin syrjäytti. Kirjoittajakin käytti AltaVistaa vielä pitkään muiden siirtyessä Googlen käyttöön ja piti AltaVistaa selkeämpänä. Google nousi kuitenkinsuosituimmaksi hakukoneeksi kilpailijoita kevyemmällä ja yksinkertaisemmalla käyttöliittymällä.

Kuinka Google-haku toimii?

Jotta haluttu tieto saadaan hakutehtävän tehneen käyttöön, tarvitaan tiedonhakua (information retrieval). Se on tietojenkäsittelytieteen osa-alue, jossa tutkitaan tiedon tallentamisen, esittämisen ja etsimisen prosesseja [2]. Google-haku on hyperteksti-perusteinen. Hyperteksti on tietokoneissa käytetty käyttöliittymäperiaate, se mahdollistaa automaattiset hyperlinkeiksi kutsutut ristiviittaukset eri dokumenttien välillä [3]. Google käyttää hakutuloksensa järjestämiseen eri algoritmeja ja järjestelyperusteita, joita on yli 200. Yksi algoritmeista, joka sivuston sijoitusta hakutuloksessa määrittelee, on Googlen perustajan Larry Pagen nimestä johdettu PageRank [4]. Google käyttää hakijalle relevanttien hakutulosten saamiseen lisäksi mm. Hypertekstiä, semanttista webbiä ja suosittelujärjestelmää.  Järjestelyperusteina on mm. kuinka monta kertaa avainsanat esiintyvät sivulla, ovatko ne otsikossa, URL:ssä vai vierekkäin ja onko sivu laadukkaalla sivustolla. Google koostaa edellämainituista lopullisen puolueettoman hyödyllisyysarvon.

Jotta sivusto voi näkyä Googlen hakutuloksissa, täytyy sen olla ensin Googlen indeksissä [5]. Google ei palauta hakutuloksia suoraan internetistä vaan indeksistään ja hakua ei tehdä verkosta, vaan Googlen verkkohakemistosta, jonka yhtiö on koostanut sivuja indeksoimalla. Google voi lisätä sivuston indeksiinsä myös, vaikka käyttäjä ei ole sivustoa sinne itse ilmoittanut [5]. Indekstointirobotit näet noutavat sivuja, seuraavat sivuilla olevia linkkejä, ja taas seuraavilla sivuilla olevia linkkejä, keräten käsittämättömän määrän tietoa: puhutaan miljardeista sivuista ja suuresta osasta verkkoa.
Google käyttää indeksointirobotteja (eng. Spiders tai Crawlers, tutummin Googlebot) sivustojen indeksointiin [6]. Botit noutavat sivuja ja seuraavat sivuilla olevia linkkejä. Tämä vaihe on tärkeä, sillä Googlen mainostuloihin perustuva liiketoimintamalli nojaa huippulaadukkaaseen, relevanttiin ja ajantasaisiin hakutuloksiin.
GOOGLE
HAKEE TIEDOT
INDEKSISTÄÄN,
EI WEBISTÄ
Googlebotit tunnistavat hyperlinkit, joita ne voivat seurata heti tai merkitä muistiin myöhempää varten. Saman sivuston sivujen väliset sisäiset linkit toimivat vähän samoin kuin rappuset, sillä niiden avulla botit voivat indeksoida ja tallentaa uusia tietoja.

Google hyödyntää semanttisen Webin ominaisuuksia sivustojen indeksoinnissa [8, 9] esim. tagien avulla. Semanttinen Web tarkoittaa dataverkkoa, jonka datan osaset on luotu niin, että niiden sisällön perusteella myös koneet pystyvät luomaan liittyvyyssuhteita datan osasten väleille. Googlella on laaja varasto avainsanoja ja niitä hyödynnetään hakutuloksissa [10].

PageRank algoritmi

PageRank algoritmin pisteyttää jokaisen Web-sivun ja sen avulla mitataan sivujen tärkeyttä niihin johtavien hyperlinkkien perusteella [11]. Google näkee ns.“äänenä” jokaisen linkityksen joka johtaa sivuille, joten sijoitus nousee hakutuloksissa. PageRankin tulos riippuu ainakin näistä seikoista: Oletetaan, että olisi kahden Web-sivun joukko: parturi.fi, ravintola.fi, kauppa.fi ja kioski.fi. Aloituspisteitä nämä kaksi sivua saisivat yhtä paljon 0,25 pistettä. Jos sivut ravintola.fi, kauppa.fi ja kioski.fi johtavat vain parturi.fi:hin, tarkoittaisi se sitä, että ne antaisivat sille 0,25 pistettä. Mutta sitten, oletetaan että sivulla ravintola.fi on linkki sivulle kauppa.fi, ja sivulla kioski.fi kaikkiin muihin kolmeen sivuun [12, s.31-38]. Linkkien arvo jaetaan eri sivuille johtavien linkkien kesken. Eli, sivu ravintola.fi antaa 0,125 pistettä sivulle parturi.fi, ja 0,125 sivulle kauppa.fi. Vain yksi kolmannes kioski.fi:n PageRankistä lasketaan parturi.fi:n PageRankiin (noin 0,081).
Suosittelujärjestelmä ehdottaa käyttäjän aiempaan toimintaan perustuen sisältöjä, joista hän voisi olla kiinnostunut [13]. Se on tietokoneohjelma, joka antaa personoituja ehdotelmia mm. musiikista, elokuvista, valokuvista ja kirjoista. Suosittelujärjestelmien toimintaperiaatteet ovat pääasiassa kahdenlaisia: sisältöperustaisia tai yhteistoiminnallisia.
PAGERANK
PISTEYTTÄÄ
JOKAISEN
WEB-SIVUN
Käyttäjä- ja tuoteprofiileja käytetään yhdistämään käyttäjien kiinnostuksen kohteita tuotekuvauksiin erilaisten algoritmien avulla. Videossa [14] E.Pariser demonstroi hyvin “filter bubblen”, eli miten erilaisia tuloksia kaksi eri käyttäjä saa samalla hakusanalla.
Lähdeluettelo
[1] Wikipedia. 2019, Hakukone. Tulostettu 3.5.2019
https://fi.wikipedia.org/wiki/Hakukone
[2] Wikipedia. 2019, Tiedonhaku. Tulostettu 3.5.2019
https://fi.wikipedia.org/wiki/Tiedonhaku
[3] Wikipedia. 2019, Hyperteksti. Tulostettu 3.5.2019
https://fi.wikipedia.org/wiki/Hyperteksti
[4] Oulun yliopisto. 2019, PageRank-algoritmi. Tulostettu 3.5.2019
http://libguides.oulu.fi/c.php?g=4184&p=718945
[5]Stanford.edu. 2019, The anatomy of a large-scale hypertextual Web search engine. Tulostettu 3.5.2019
http://snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf
[6] Google. 2019, Search Console Ohjeet. Tulostettu 3.5.2019   
https://support.google.com/webmasters/answer/183668?hl=fi
[7] WordStream. 2019, Search Engine Spider: What Is a Search Engine Spider? Tulostettu 3.5.2019
https://www.wordstream.com/search-engine-spider
[8] Wikipedia. 2019, Semanttinen Web. Tulostettu 3.5.2019  
https://fi.wikipedia.org/wiki/Semanttinen_Web
[9] Hyvönen, Eero 2019: Semanttinen web. Tulostettu 3.5.2019  
https://www.gaudeamus.fi/semanttinen-web/
[10] Computer.Howstuffworks.com. 2019, How Google Works. Tulostettu 3.5.2019
https://computer.howstuffworks.com/internet/basics/google1.htm
[11] Wikipedia. 2019, PageRank. Tulostettu 3.5.2019  
https://fi.wikipedia.org/wiki/PageRank
[12] Amy N. Langville, Carl D. Meyer: Google’s PageRank and Beyond: The Science of Search Engine Rankings, s.31-38. Princenton University Press, 2017. ISBN 9780262035712
[13] Wikipedia. 2019, Suosittelujärjestelmä. Tulostettu 3.5.2019  
https://fi.wikipedia.org/wiki/Suositteluj%C3%A4rjestelm%C3%A4
[14] Ted.com. 2019, Beware online “filter bubles”. Tulostettu 3.5.2019  
https://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles
Kommentoi
Back to content | Back to main menu