Kieltenvalinen tiedonhaku

Kieltenvalinen tiedonhaku ( engl. Cross-language information retrieval , CLIR) tarkoittaa sellaista tiedonhakua, jossa tiedonhakijan suorittama hakukysely on eri kielella kuin tiedonhaun kohteena oleva dokumenttikokoelma. Kieltenvalinen tiedon tarve perustuu siihen, etta tiedonhakijan on usein vaikeaa tuottaa hakukyselyja vieraalla kielella, vaikka hakutulosten tekstin ymmartaminen olisikin melko ongelmatonta. ^[1]

Tarkoitus

Esimerkki kieltenvalisesta tiedonhausta (Google)

Kieltenvalinen tiedonhaku mahdollistaa hakukyselyn tekemisen omalla aidinkielella, mutta tulosten ei tarvitse rajoittua hakijan aidinkieleen. Nain kieltenvalinen tiedonhaku alentaa yleista kynnysta hyodyntaa mm. Internetissa olevaa tietoa. Mikali hakijalla ei ole kielitaitoa lukea hakutuloksissa olevaa kielta, voi han hyodyntaa konekaantamista . ^[2]

Kieltenvalisesta tiedonhausta on hyotya myos esimerkiksi tilanteessa, jossa on tarvetta loytaa mahdollisimman laajasti tietoa tietysta asiasta, riippumatta siita milla kielella tieto on julkaistu.

Muun muassa Google tarjoaa kieltenvalista tiedonhakua toiminnolla, jonka nimi on "Kaannetyt vieraskieliset sivut". Kayttoliittymassa kertoo kayttajalle, mika haku on toisilla kielilla ja samalla hakutulokset naytetaan omalle kielelle kaannettyina.

Kieltenvalisessa tiedonhaussa kaytettyja menetelmia

Nykyiset tiedonhakujarjestelmat perustuvat yleensa kyselyn ja sen kohteena olevan dokumenttikokoelman merkkijonojen tasmayttamiseen. Kieltenvalisessa tiedonhaussa perinteisen yksikielisen tiedonhaun tasmaytysmenetelmat tulee yhdistaa luonnollisten kielten kasittelymenetelmiin. Kieltenvalisen tiedonhaun keskeisia menetelmia tasmayttamisen ohella ovat kaannosmenetelmat ja kasitteiden monitulkintaisuuden vahentamistekniikat (disambiguaatio).

Tasmaytysstrategiat

Kuten tiedonhaku yleensakin, myos kieltenvalinen tiedonhaku haku perustuu kyselyn ja dokumenttien sisaltamien termien merkkijonojen tasmayttamiseen. Jotta tasmayttaminen olisi mahdollista, on erikielisen kyselyn ja dokumentin kohdattava tiedonhakujarjestelmassa. Kieltenvalisessa tiedonhaussa mahdollisia tasmaytysstrategioita on jattaa termit kokonaan kaantamatta, kaantaa kysely dokumenttikokoelman kielelle, kaantaa dokumentit kyselyn kielelle tai kayttaa valikielta, jolloin seka kysely etta dokumentit esitetaan kolmannella, usein keinotekoisella kielella.

Samankaltaisuustasmaytys

Kaytettaessa samankaltaisuustasmaytysta oletetaan, etta lahde- ja kohdekieliset termit muistuttavat toisiaan ja ne lisataan kyselyyn ilman kaannosta. Menetelma on tehokas erityisesti hakutermien ollessa henkilon- tai paikannimia. Myos monet tekniset termit ja sivistyssanat ovat usein eri kielissa samankaltaisia, esimerkiksi suomen kielen " kemoterapia "-sanalla on ilmeinen merkkijonotason yhteys englannin "chemotherapy" -sanaan. Menetelmaa voi soveltaa myos lahisukukielten valisessa tiedonhaussa. Samankaltaisuustasmaytysta voidaan tehostaa hyodyntamalla sumeita merkkijonomenetelmia, kuten n-grammeja tai s-grammeja. Erityisen hankalaa termien tasmayttaminen on toisistaan etaisten kielten yhteydessa (esim. englanti ja japani ). Talloin voi osin soveltaa foneettista translitterointia . ^[3]

Kyselyn kaantaminen

Koska toistaiseksi konekaannosmenetelmat eivat pysty kaantamaan luonnollista kielta kelvollisiksi dokumenteiksi, on yksinkertaisempaa kaantaa tiedonhakijan kysely. ^[4] Kyselyn kaantaminen onkin yleisin menetelma kieltenvalisessa tiedonhaussa taloudellisuutensa vuoksi: hakujarjestelman ei tarvitse muuttaa indeksoituja kaanteistiedostojaan , ja kyselyn kaantaminen on dokumenttien kaantamista laskennallisesti kustannustehokkaampaa. Erityisen ongelmallista on kyselyn automaattisen kaannoksen tuottaminen, koska kyselyt muodostuvat yleensa yksittaisista hakutermeista eivatka tarjoa riittavasti kontekstia termien monitulkintaisuuden vahentamiselle. ^[3]

Dokumenttien kaantaminen

Haun kohteena olevan dokumenttikokoelman kaantamista on kieltenvalisessa tiedonhaussa tutkittu kyselyn kaantamista vahemman. Menetelman tarjoamat edut ja haitat ovat painvastaiset kuin kyselyn kaantamisessa: kaantaminen on tyolaampaa ja vaatii enemman resursseja, mutta toisaalta dokumentit tarjoavat laajemman tekstikontekstin automaattista kaantamista varten. ^[3]

Valikielimenetelmat

Valikielimenetelmia kaytettaessa seka kyselyn etta dokumenttien kasitteet esitetaan yleensa keinotekoisen valittajakielen avulla. Valikielimenetelmia ovat mm. kontroloitujen sanastojen kayttaminen ja LSI (latent semantic indexing). ^[3]

Kaannosmenetelmat

Dokumentteja tai kyselya kaannettaessa on kaytettavissa erilaisia kaannosmenetelmia. Kieltenvalisessa tiedonhaussa on hyodynnetty konekaannosta seka sanakirjapohjaisia ja rinnakkaisiin korpuksiin perustuvia kaannosmenetelmia. Kaikissa kaannosmenetelmissa on omat hyotynsa ja haittansa. Nykyisten tilastollisiin menetelmiin perustuvien konekaannosohjelmien avulla paastaan jo lahes yksikielisen tiedonhaun tarkkuuteen. Edullisuutensa vuoksi konekaannoksesta varmaan tuleekin yleisin kaannosmenetelma kieltenvalisessa tiedonhaussa.

Konekaannosmenetelmat

Konekaannosta voidaan hyodyntaa kieltenvalisessa tiedonhaussa, mikali kaytettavissa on hyva konekaannosohjelma. Ongelmana on, etta yleensa CLIR-kontekstissa pyritaan kaantamaan kysely, joka ei tarjoa riittavaa syntaktista tekstikontekstia konekaannoksen tuottamiseksi. ^[5] Konekaannos myos pyrkii valitsemaan kullekin termille yhden kaannoksen, mika hankaloittaa kyselyn laajentamista esim. synonyymien avulla. ^[3] Vaikka konekaannoksella ei valttamatta saadakaan aikaan sujuvasti luettavaa tekstia, on huomioitava, etta hakujarjestelmien lingvistiset vaatimukset ovat alhaisemmat kuin tekstia lukevan henkilon odotukset tekstin ymmarrettavyydelta.

Sanakirjapohjaiset menetelmat

Kun kaytossa ei ole yleisesti toimivaksi tunnustettua konekaannosohjelmaa, kaksikielinen koneluettava kaannossanakirja on yleensa lahtokohtana. Koska hakujarjestelmat perustuvat kyselyn ja dokumenttien termien indeksointiin, on helpointa kaantaa kysely dokumenttikokoelman kielelle korvaamalla kukin termi sanakirjassa esiintyvalla rinnakkaistermilla. ^[3] Sanakirjakaannos on suhteellisen edullinen ja tehokas menetelma, mutta ei vailla ongelmia. Keskeisimpia ongelmia ovat sanakirjojen puutteellinen kattavuus (kielen muutos, erisnimien ja erityisalojen termien puuttuminen), sanakirjakaannoksen lahtokohtainen monitulkintaisuus (sanakirjat tarjoavat termeille useita kaannosvaihtoehtoja) seka fraasien ja yhdyssanojen virheellinen kaantaminen.

Rinnakkaiskokoelmat

Rinnakkaiskokoelmaa kaytettaessa kaannossanakirja korvataan kaksikielisella kokoelmalla, joka on rinnastettu lause-, kappale- tai dokumenttitasolla erikielisiksi vastinpareiksi. Lahtokielisen sanan kaannokset saadaan etsimalla niiden esiintymat rinnakkaiskokoelmasta ja keraamalla vastinlauseista tai -kappaleista usein esiintyvat kohdekieliset sanat. Kaannos on tilastollinen ja tuottaa oikeiden tarkkojen kaannosten lisaksi synonyymeja ja sanan kontekstiin laheisesti liittyvia muita sanoja. ^[6] Nykyaan www-aineistot tarjoavat runsaasti saatavilla olevaa materiaalia koneluettavassa muodossa rinnakkaiskorpusten keraamista varten. ^[3] Rinnakkaiskokoelmien kaytossa on ongelmallista, etta edelleen loytyy monia kielipareja, joista ei ole saatavissa riittavan laajoja rinnakkaisia korpuksia kaannostodennakoisyyksien laskemiseksi. Ongelma on myos se, etta monet rinnakkaiskokoelmat perustuvat melko suppean aihepiirin dokumentteihin.

Disambiguaatiomenetelmat

Hakuavainten monitulkintaisuuden tiedonhaulle muodostama ongelma kertautuu kieltenvalisessa tiedonhaussa, kun termien kaannosvaihtoehtojen maaran kasvaessa kyselyyn tulee mukaan eparelevantteja termeja. ^[5] Yksinkertaisin ratkaisu sanakirjakaannoksessa olisi valita vain ensimmainen tarjottu kaannosvaihtoehto. Vaihtoehtoisesti voisi valita dokumenttikokoelmassa tilastollisesti useimmin esiintyvan kaannoksen. Nain yksinkertaiset menetelmat monitulkintaisuuden vahentamiseksi eivat kuitenkaan ole riittavia, ja kieltenvalisessa tiedonhaussa on tutkittu useita hienostuneempia menetelmia. ^[3]

Sanaluokkien merkitseminen

Sanaluokkien merkitsemisessa (part-of-speech tags, POS) valitaan kaannoksiksi ainoastaan sellaiset termit, jotka kuuluvat samaan sanaluokkaan lahdekielisen hakuavaimen kanssa. Tama menetelma vaatii, etta seka lahde- etta kohdekielta varten on saatavilla sanaluokkien merkitsemiseen tarvittava ohjelmisto. ^[3]

Rinnakkaiskorpusten kayttaminen

Rinnakkaiskorpuksia kaytettaessa tehdaan kysely lahdekieliseen dokumenttikokoelmaan. Kysely kaannetaan kohdekielelle, ja termien kaannosvarianteilla suoritetaan kyselyt. Kyselyjen tuloksia verrataan lahdekielisen kyselyn tuloksiin, ja hakuavaimeksi valitaan kaannos, joka tuottaa lahimmin lahdekieliseen kokoelmaan tehdyn kyselyn tuloksia vastaavia osumia. ^[3]

Yhteisesiintymatilastot

Yhteisesiintymatilastojen avulla tehtavan disambiguaation lahtooletus on, etta kyselyn termien oikeiden kaannosten tulisi esiintya yhdessa samoissa kohdekielisissa dokumenteissa, kun taas vaarien kaannosten ei tulisi esiintya samoissa dokumenteissa merkittavan usein. Esimerkiksi jos englanninkielisessa kyselyssa esiintyvat sanat ”Mercury” ja ”planet”, on ilmeista, ettei hakutermi ”Mercury” liity kemiaan tai mytologiaan. Niinpa voidaan olettaa, etta sanan ”Mercury” oikea kaannos esiintyy usein sanan ”planet” oikean kaannoksen kanssa kohdekielisessa dokumenttikokoelmassa. Tilastollista tietoa kaannosvaihtoehtojen yhteisesiintymista kaytetaan parhaan kaannosyhdistelman loytamiseksi. Pitkissa kyselyissa menetelma on laskennallisesti kallis termien kaannosvaihtoehtojen mahdollisten yhdistelmien maaran kasvaessa. ^[3]

Kyselynlaajennus

Kyselynlaajennuksessa hyodynnetaan relevanssipalautetta. Kyselya laajennetaan yleensa lisaamalla termeja tuloksissa korkeimmalle sijoittuneista dokumenteista. Kyselynlaajennus voidaan tehda ennen kaannosta tai sen jalkeen. Ennen kaannosta tehtyna kyselynlaajennus lisaa hakuun relevantteja kasitteita parantaen haun tarkkuutta. Kaannoksen jalkeen tehtyna se vahentaa eparelevanttien hakutermien vaikutusta parantaen saantia. ^[3]

Rakenteiset kyselyt

Rakenteiset kyselyt eivat oikeastaan ole disambiguointimenetelmia, mutta tuottavat saman tuloksen. Oletuksena on, etta termien kaannosvariantit ovat synonyymeja. Tasta lahtokohdasta voi olla hyodyllista turvautua Boolen logiikkaan: kaannokset voidaan liittaa toisiinsa Boolen OR-operaattorilla ilman etta lahtokielisen hakukasitteen merkitys kyselyssa kasvaa liikaa. ^[3]

Tutkimus

Ensimmainen tyopaja aiheesta pidettiin Zurichissa SIGIR-96 -konferenssissa. Tyopajan tuotokset julkaistiin kirjassa Cross-Language Information Retrieval (Grefenstette, ed; Kluwer, 1998) ISBN 0-7923-8122-X . Tyopajoja on pidetty vuodesta 2000 vuosittain Cross Language Evaluation Forum (CLEF) -tapaamisissa. ^[7]

CLIR-track on ollut TRECissa (Text Retrieval Conference) mukana vuodesta 1997. ^[8]

Tampereen yliopiston informaatiotieteen laitoksella toimii FIRE (Finnish Information Retrieval Experts) -tutkimusryhma, jonka alaan kuuluu myos kieltenvalinen haku. ^[9]

Esimerkit

Google on tarjonnut kieltenvalista hakua vuodesta 2007 seka normaaliin hakuun integroituna etta erillisen kayttoliittyman kautta. ^[10]

Lahteet

↑ Jarvelin Anni; Kumpulainen Sanna; Pirkola Ari & Sormunen Eero: Sumeat kaannosmenetelmat laheisten sukulaiskielten valisessa tiedonhaussa (pdf) 2006 . Viitattu 21.10.2010.
↑ Kalervo Jarvelin: Omakielinen tiedonhaku helpommaksi 2009 . 8.10.2009. Viitattu 21.11.2010. ^{[
vanhentunut linkki
]}
↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m Kishida, Kazuaki: Technical issues of cross-language infromation retrieval: a review. Information Processing and Management , 2005, 41. vsk, s. 433-455.
↑ Kalervo Jarvelin ja Jaana Kekalainen: Tiedonhaun menetelmat opintoaineisto Internetix . 2002. Arkistoitu 5.8.2010. Viitattu 21.10.2010.
↑ ^a ^b Pirkola, Ari: Studies on Linguistic Problems and Methods in Text Retrieval: The effects of anaphor and ellipsis resolution in proximity searching and translation and query structuring methods in cross-language retrieval , s. 58-59. Tampere: University of Tampere, 1999. ISBN 951-44-4582-1 .
↑ Jarvelin Kalervo; Sormunen Eero: Tiedon tallennus ja haku. Informaatiotutkimuksen valintakokeen materiaali , 2009, s. 37-76. Tampere: Informaatiotutkimuksen laitos, Tampereen yliopisto.
↑ clef-campaign.org CLEF. Viitattu 21.11.2010. (englanniksi)
↑ Informaatiotutkimukset sivut UTA/INFIM. Viitattu 21.11.2010.
↑ FIRE-tutkimusryhma UTA/INFIM. Viitattu 21.11.2010.
↑ Franz Och: The Official Google Blog 23.5.2007. googleblog.blogspot.com: Google, Inc.. Viitattu 21.11.2010. (englanniksi)

Aiheesta muualla

Tutkimusryhmia

[sumeat-1] Jarvelin Anni; Kumpulainen Sanna; Pirkola Ari & Sormunen Eero: Sumeat kaannosmenetelmat laheisten sukulaiskielten valisessa tiedonhaussa (pdf) 2006 . Viitattu 21.10.2010.

[aka-2] Kalervo Jarvelin: Omakielinen tiedonhaku helpommaksi 2009 . 8.10.2009. Viitattu 21.11.2010. ^{[
vanhentunut linkki
]}

[technical-3] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m Kishida, Kazuaki: Technical issues of cross-language infromation retrieval: a review. Information Processing and Management , 2005, 41. vsk, s. 433-455.

[internetix-4] Kalervo Jarvelin ja Jaana Kekalainen: Tiedonhaun menetelmat opintoaineisto Internetix . 2002. Arkistoitu 5.8.2010. Viitattu 21.10.2010.

[studies-5] Pirkola, Ari: Studies on Linguistic Problems and Methods in Text Retrieval: The effects of anaphor and ellipsis resolution in proximity searching and translation and query structuring methods in cross-language retrieval , s. 58-59. Tampere: University of Tampere, 1999. ISBN 951-44-4582-1 .

[valintakoe-6] Jarvelin Kalervo; Sormunen Eero: Tiedon tallennus ja haku. Informaatiotutkimuksen valintakokeen materiaali , 2009, s. 37-76. Tampere: Informaatiotutkimuksen laitos, Tampereen yliopisto.

[clef-7] -campaign.org CLEF. Viitattu 21.11.2010. (englanniksi)

[infim-8] Informaatiotutkimukset sivut UTA/INFIM. Viitattu 21.11.2010.

[fire-9] FIRE-tutkimusryhma UTA/INFIM. Viitattu 21.11.2010.

[googleblog-10] Franz Och: The Official Google Blog 23.5.2007. googleblog.blogspot.com: Google, Inc.. Viitattu 21.11.2010. (englanniksi)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]