Utdatert:
Denne teksten kan inneholde feil pa grunn av informasjon som er utdatert. hjelpesiden Du kan hjelpe med a
oppdatere artikkelen
. Artikkelens
diskusjonsside
kan inneholde mer informasjon.
Man søker ved a bruke
tekstboksen til venstre
. Denne boksen har to separate søkefunksjoner; en funksjon for a ga rett til en artikkel med en tittel som er sammenfallende med søkeuttrykket, og en for a bruke søkeuttrykket som et argument til Wikipedias interne søkemotor. I begge tilfellene vil søkene skje uten hensyn til store og sma bokstaver.
Det er ogsa mulig a bruke søkefunksjonen til a opprette nye artikler; dette er særlig praktisk for titler som inneholder bokstaver som Æ, Ø og A. Skriv inn tittelen pa artikkelen du ønsker deg og følg lenken pa siden du far nar du deretter lager den nye artikkelen.
Du kan ogsa søke etter forekomster av
eksterne lenker
.
Funksjonalitet som finnes i Lucene er beskrevet i teksten, men der det er pavist at funksjonaliteten ikke er aktivisert er teksten graet ut.
Som alle søkemotorer har Lucene en stoppordliste. Denne gjør at søk pa en del svært vanlige ord ikke vil gi det ønskede resultat. Et søk pa
det er ikke alt som er gitt
bestar av kun vanlige ord og alle ord blir fjernet av stoppordlisten. Det ser ikke ut som om stoppordlisten er aktiv i en del testsøk.
Hva er de aktuelle feltene? Det kan se ut som om ≪key≫, ≪namespace≫, ≪title≫, ≪contents≫ og ≪metadata.id≫ finnes. For den siste er ≪id≫ navnet som brukes pa metadataoppføringen. Det er flere data som burde vært indeksert og som ikke er det for øyeblikket.
Wikipedias interne søkemotor er
Lucene
, som har et omfattende spørresprak. Ved a bruke dette kan det settes opp komplekse søk for a finne begreper som ikke dekkes av enkeltord.
Søkeuttrykk kan deles i
enkeltord
, og sammensatte
fraser
.
stavkirke
urnes stavkirke
Første søket er pa et enkeltord. det neste er pa to enkeltord som begge skal forekomme i teksten.
Et frasesøk omsluttes med doble hermetegn (") og skrives slik det skal forekomme i teksten.
"urnes stavkirke"
Det foregaende er en frase hvor begge søkeordene skal forekomme og i gitt rekkefølge og umiddelbart etter hverandre.
- Det kan se ut som om navnet pa operattoren ikke fungerer som forutsatt
Boolske operatorer brukes for a kombinere søketermer med logiske operasjoner. Operatorene som er tilgjengelig er AND ≪&&≫, ≪+≫, OR ≪||≫, NOT ≪!≫ og ≪-≫. Nar navnet brukes sa ma dette være i store bokstaver.
Eksemplene pa søk burde gi samme resultat men det siste eksemplet gir et avvikende svar i forhold til det som sies i dokumentasjonen til Lucene. Det siste eksemplet gir vesentlig færre treff enn de første.
Den boolske operatoren OR er standardoperatoren. Det betyr at star det ikke noen operator mellom to termer som kombineres sa antar Lucene at det skal sta en OR mellom dem.
Operatoren kan ses pa som en set-operator hvor resultatet er unionen av de to settene.
kirke OR kapell
kirke || kapell
kirke kapell
Den boolske operatoren AND gjør at begge termer ma forekomme for at det skal listes et treff. Operatoren kan ses pa som som en set-operator hvor resultatet er interseksjonen mellom de to settene.
kirke AND Grosch
kirke && Grosch
Plussoperatoren inkluderer dokumenter som inneholder termen som kommer etter operatoren.
Den vanlige tolkingen er at den etterfølgende termen skal være innenfor samme felt som termen pa venstre side treffer.
kirke -kapell
Denne operatoren kan enklest ses pa som en
and not
, den tar resultatet av det venstre uttrykket og fjerner det som er i det høyre uttrykket etter at settet er negert. Operatoren kan ses pa som en subtraksjon av elementene i det siste settet fra elementene i det første.
kirke NOT Grosch
kirke?! Grosch
Merkelig nok er det andre artikler om kirker som ikke nevner Grosch!
Minusoperatoren eller forbudsoperatoren ekskluderer dokumenter som inneholder termen som kommer etter operatoren.
Den vanlige tolkingen er at den etterfølgende termen skal være innenfor samme felt som termen pa venstre side treffer, til forskjell fra eksklusjonsoperatoren hvor termen kan finnes i et vilkarlig felt.
kirke -kapell
Søk i Lucene bruker parentesen bade for a gruppere enkeltspørringer og for a gruppere spørringer pa et enkelt felt.
- Parenteser og boolske spørring
Hvis du søker pa kirker i en kommune sa finnes det bade kirker og kapeller. Dette vil gjøre at en normalt ma sette opp flere spørringer. Ved a bruke parenteser og boolske operatorer sa kan en sla dette sammen i ett søk
(kirke* OR kapell*) AND Luster
(kirke* kapell*) && Luster
I dette tilfellet ser en etter bade kirker og kapeller i Luster. Na vil ikke dette søket være helt ideelt da en ikke finner gravkapeller og stavkirker.
- Parenteser og feltoperatoren
Parenteser kan ogsa kombineres med feltoperatoren. Da vil søket innen parentesen gjelde for det angitte feltet
title:(Vang kirke)
Det finnes noen modifikatorer som endrer hvordan søkestrengen tolkes
Enkeltbokstaver og deler av ord kan erstattes med
?
eller
*
for a markere at disse fragmentene er ukjente og at flere enn ett ord kan gi en treff.
stavkirke?
stavkirke*
Det første søket vil finne
stavkirken
og
stavkirker
men ikke
stavkirkene
. Den siste formen vil ogsa finne
stavkirkene
. Det er ogsa mulig a sette en slik wildcard inne i ordet, men ikke i begynnelsen av ordet.
stav*en
Denne vil i tillegg til
stavkirken
finne
staven
,
stavdalen
og
stavedalen
.
Søkemotoren bruker en form for fuzzy algoritme som baserer seg pa
Levenshtein avstanden
eller
redigeringsavstanden
mellom to begreper. En avstand pa 1 vil si at det ma foretas 1 redigering for a na det andre begrepet. En avstand pa 2 vil si at det ma gjøres 2 redigeringer for a na det andre begrepet. Fra begrepet
stavkirken
er det en avstand pa 1 til begrepet
stavkirker
og en avstand pa 4 til
stavdalen
.
For a gjøre et fuzzy søk kan en legge til en tilde ≪~≫ etter begrepet en søker pa.
stavdal~
Dette søket vil finne
stavdal
,
stavdalen
og
stavdaling
, men ogsa
stavedal
,
stavedalen
og
stavedaling
.
Det er ogsa mulig a angi en faktor for likhet mellom uttrykk. Verdien skal være mellom 0 og 1, og jo nærmere 1 desto likere ma uttrykkene være.
stavdal~0.8
Standardverdien som brukes er 0,5 hvis ikke noe annet blir angitt.
Det er ogsa mulig a sla pa
Fuzzy-light baserte søk
via ≪Tilleggsfunksjoner≫ i
Spesial:Innstillinger
. Dette gir alternative treff i dropdown-lista i venstremargen nar alt annet feiler.
Det er mulig a finne ord med en spesifikk avstand mellom seg. For a gjøre et slikt søk brukes det en tild ≪~≫ og et heltall som angir hvor langt disse kan være fra hverandre
"middelalderkirke romansk"~10
Hvilken versjon av Lucene bruker Wikipedia? Versjon 1.4, eller versjon 1.9? Er ikke fuzzy søk enablet eller fungerer ikke dette av andre grunner? Uten a kjenne hva felt søk rettes mot er det umulig a bruke dette til noe fornuftig, med ett unntak, hvis navn oppgis pa invertert form kan en ta ut enkle navnelister.
Verdier er noen ganger innenfor et intervall, og det eneste en vet er en øvre og nedre grense for dette intervallet. Slike omradesøk kan være inkluderende eller ekskluderende pa øvre og nedre grenseverdi. Sorteringen innen intervallet er alfabetisk, er intervallet numerisk sa vil dette ikke utløse en nummeris sortering.
mod_date:[20020101 TO 20030101]
Dette søket finner dokumenter som har en verdi i mod_date feltet mellom 20020101 og 20030101, og hvor grenseverdiene er tatt med i utvalget. Omradesøk er ikke begrenset til numeriske søk, en kan ogsa bruke ordinære begreper
title:{Arne TO Ola}
Dette vil finne alle dokumenter hvor tittelen er mellom Arne og Ola, men vil ikke ta med hverken Arne eller Ola.
Inklusive omrader er gitt med firkantklammer, eksklusive med krøllparanteser.
Darlige eksempler da periodebegrepene dukker opp i kirkeboksen.
Normalt er alle søkebegrep likt vektet, men enkelte søkebegrep kan vektes opp pa bekostning av andre. For a booste enkelte begrep sa brukes en caret ≪^≫ med en boost faktor umiddelbart etter søkebegrepet. desto høyere boost faktor, desto viktigere vil disse treffene bli ansett for a være.
Slik boosting gjør det mulig a kontrollere relevansrankingen til dokumentene i resultatsettet ved at de enkalte begrepene blir vektet forskjellig. Hvis du søker pa arkitektur og leter etter sider fra den romanske og den gotiske perioden sa vil et søk pa
romansk gotisk
være et naturlig førstevalg for de fleste. Hvis det er spesielle forhold som gjør noen av artiklene mer aktuelle enn andre, for eksempel de romanske, sa kan søket endres slik at disse artiklene boostes
romansk^4 gotisk
I dette tilfellet vil romansk vektes opp pa bekostning av gotisk.
Det er ogsa mulig a bruke dette med sammensatte begrep
"romansk arkitektur"^4 "gotisk arkitektur"
Som standard er boostfaktoren satt til 1. Den ma være positiv, men den kan settes mindre enn 1, for eksempel til 0.2 for a redusere innflytelsen av ett bestemt ord sammenlignet med andre i søkebegrepet.
Lucene bruker en del spesielle tegn i søkeuttrykkene, og en trenger derfor i noen tilfeller a kunne ≪escape≫ disse hvis de inngar i det en søker pa. Disse tegnene er + - && ||?! ( ) { } [ ] ^ " ~ *???: \
For a escape et spesielt tegn sa settes en ≪omvendt brøkstrek≫ foran tegnet. Et søk pa
(1+1):2
vil dermed kreve en søkestreng
\(1\+1\)\:2
Det er verd a merke seg at det er relativt sjelden en behøver a escape tegn. Hvis en har et søk hvor en ma dette, sa er det godt mulig at en prøver a løse problemet pa feil mate.
- En del av disse eksemplene bruker funksjonalitet som for tiden ikke er paslatt
Søk etter mannsnavn
mansnavn && title:{Arne TO Ola}
Indeksene til søkemotoren oppdateres ved periodiske kjøringer, og det kan ta noe tid mellom hver kjøring. Dette gjør at fra en artikkel er skrevet og til den kan søkes opp vil det kunne ta relativt lang tid.