Semantisk web – bedre samarbejde mellem computere og mennesker?

Semantik er en lingvistisk disciplin, som omhandler ords betydning. Det semantiske web er en vision om et fremtidigt internet, hvor betydning af informationer forstås af computere. Det semantiske web skal gøre det lettere for computere og mennesker at samarbejde – og computere kan så overtage noget af det kedelige arbejde med at sortere og sammenstille informationer. At søge på nettet kan være en frustrerende oplevelse. Indtast et ord i Google – og gå så i gang med selv at sortere i de mange links, der fremkommer. Nogle steder er siden afgået ved døden, siden den blev indekseret i Google, andre steder er ordet du søgte på så brugt i en helt anden sammenhæng, end den du befinder dig i. Søgemaskinen kender ikke betydningen af det ord, du søger på – og viser dig derfor rub og stub.

Søgemaskinerne er løbende blevet bedre og klogere. De algoritmer som bruges til indeksering af siderne, er blevet mere udspekulerede – og når Google er blevet så populær som søgemaskine, skyldes det blandt andet, at Googles algoritme er bedre til at placere de mest ”aktive” sider, højt oppe i søgningen – ligesom Google tager højde for om mange andre sider linker til siden. Hvis mange andre websider linker til netop denne side, må siden indeholde god information. Når man ”Googler” noget, får man derfor et mere anvendeligt søgeresultat.

Søgealgoritmer kan imidlertid ikke løse problemet med computerens manglende forståelse af ords betydning. Hvis man søger på begreber, som anvendes i flere forskellige sammenhænge – eller hvis man leder efter brugen af et ord i en ganske bestemt sammenhæng, kan det være vanskeligt at bruge resultaterne af en søgning i en søgemaskine.

Sorteringsarbejdet og dermed definitionen af, hvilke informationer, der er anvendelige skal stadig foretages af mennesker. Jo mere information, der er tilgængelig, des vanskeligere bliver sorteringsarbejdet. Derfor har man brug for et system, der gør det muligt for computere at deltage i sorteringsarbejdet – og som dermed gør samarbejdet mellem mennesker og computere lettere.

Det er imidlertid ikke bare i søgemaskiner, at problemet opstår. Data er også vanskeligt tilgængelige for andre computersystemer. Hvis en forhandler af radioer for eksempel ønsker at sammenligne informationer om priser og specifikationer på forskellige radioapparater fra flere forskellige leverandører, så skal forhandleren have IT-afdelingen til at skrive en applikation, som kan sammenstille oplysninger fra alle leverandørerne. Eftersom leverandørerne typisk har meget forskellige IT-systemer, kan det være lidt af en udfordring. Hvis en enkelt leverandør laver om på formatet, kan det så betyde, at forhandleren igen må justere applikationen – og sammenstillinger af data, bliver derfor typisk besværlige og dyre at udvikle og vedligeholde. Man kan sige, at internettet foreløbigt har været bedst til at stille informationer fra mennesker til rådighed for andre mennesker.

Tim Berners-Lee , som opfandt WWW (eller rettere – som skrev den første applikation som muliggjorde links mellem dokumenter) har en vision om et fremtidigt ”semantisk web”, som kan gøre samarbejdet mellem mennesker og computere lettere. Hans definition lyder:

"The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation."

Det semantiske web er således en forestilling om, at man kan udvikle et web, som gør det lettere for mennesker at finde relevant information – og som samtidig gør det lettere for computere at tale sammen.
Ben Hammersley (BH), som er journalist på den engelske avis The Guardian, forsøgte på konferencen Reboot 6.0 (20. juni 2003) at klargøre, anskueliggøre og antyde implikationerne af et semantisk web.

Han gjorde det klart, at hvis computere skal forstå betydning af ord, som rækker udover ordet i sig selv, så må mennesker koble ordet sammen med definitioner, som klargør meningen. Denne definitionsproces muliggøres ved hjælp af den teknologi, som består af Ressource Description Frameworks (RDF) og Universal Ressource Identifiers (URIs).

Teknikken forklaret (og forsimplet)
Ben Hammersley brugte en beskrivelse af sin hund på en hjemmeside som eksempel på det definitionsarbejde, som kræves, hvis oplysningerne på siden skal indgå i et semantisk web. Hunden hedder Pico, er 2 år gammel, er af racen Italian Greyhound og er lysebrun.

For at computeren skal forstå disse udsagn, omformes de til såkaldte "RDF Triples".

RDF Triples er udsagn om verden, der rummer tre velkendte elementer:
- et subjekt
- et verbum
- et objekt.

"Hunden harnavn Pico", "Pico haralder 2 år", "Pico errace Italian Greyhound", "Pico harfarve lysebrun" bliver de semantiske definitioner på BHs hund.
Teknikken minder meget om sætningskonstruktion – og er anvendelig til alle former for definitioner.

RDF-beskrivelsen efterlader imidlertid et nyt problem, nemlig definitionen af sublekter, objekter og verber i disse såkaldte "triples".
- Hvilken målestok benyttes for alder? (menneskeår, hundeår - eller lysår?)
- Hvordan defineres farven lysebrun? (farvekode – CMYK eller RGB )
- Hvad definerer en bestemt hunderace? (størrelse, stambog, kendetegn)
Problemet løses ved brug af såkaldte Universal Ressource Identifiers (URIs)

Fælles definitioner – og egne definitioner
Definitioner af objekter, subjekter og verber hentes i URIs.
Principielt kan alle oprette deres egne URIs. Ben Hammersley kan således oprette en URI på nettet, hvori han specificerer, at alderen er menneskeår, at farven er den RGB-kode, der kommer tættest på Picos sande farve, at racen er specificeret ved en række særlige kendetegn osv. Ben Hammersleys URI vil imidlertid ikke være anvendelige for ret mange andre end ham selv – medmindre definitionerne også anvendes af andre med samme hunderace eller interesse for hundeopdræt.

Dublin Core
Man kan imidlertid også henvise til en allerede eksisterende URI, som specificerer de ord, man anvender. Man taler om ontologier. I eksemplet kunne det være en ontologi for hundeverdenen. Man kunne forestille sig, at hundekenneler der opdrætter Italian Greyhounds deltog i arbejdet med at skabe et fælles definitionskatalog med beskrivelse af racen og de standarder, en hund skal leve op til for at have stamtavle.
Den mest kendte URI er ”Dublin Core” . Her har en gruppe mennesker skabt en omfattende URI, som rummer en lang række definitioner af begreber og ord. Her er også defineret en række metadata (data om data – for eksempel en standard for titler, forfatternavne, og oprindelsessted for dokumenter).
Hvis man kan henviser til en allerede eksisterende URI, bliver definitionsarbejdet naturligvis lettere for en selv (der skal ikke skrives definitioner for alting i selve dokumentet). Ben Hammersley kan i toppen af dokumentet om hunden Pico specificere en fælles ”hunde-URI” og dermed slippe for at definere alle ord selv .

Fælles URIs giver derudover store fordele for brugerne af den information, man stiller til rådighed. Man ved præcis, hvad informationen dækker over – og både mennesker og computere kan lettere sammenligne informationer fra mange hjemmesider om Italian Greyhounds. Man skaber med brugen af RDFs og URIs et nyt system til udveksling af data, (uden at der skal programmeres integrationsløsninger mellem systemer), fordi man efterfølgende kan flette to dokumenter med hver deres RDFs og URIs sammen til et samlet, men stadig veldefineret dokument.

Hvad kan det så bruges til, når det engang er implementeret?
På sigt er det tanken, at mange enheder skal kunne tilgå alle disse veldefinerede data. For eksempel skal forskellige databaser, håndholdte enheder – og endda husholdningsapplikationer kunne hente meningsfuld

Information på det semantiske net - en anvendelsesorienteret semantik.
Et eksempel. Din søn skal til en serie af behandlinger hos en speciallæge – og du aftaler med din ægtefælle, at I hver især går med ham hver anden gang. Nu starter et kæmpe puslespil, hvor I med hver jeres kalender – og drengens skoleskema, samt lægens sekretær i telefonen forsøger at finde tidspunkter, der kan passe sammen med transportmidler og andre møder og aktiviteter i jeres respektive kalendere. Det semantiske web skal på sigt betjenes af agenter , som skal være intelligente nok til at checke kalendere (hvor alle aftaler så er defineret efter vigtighed – og hvor nogle aftaler kan flyttes rundt) – og finde huller, der matcher de huller, der er i lægens aftaleskema. Derudover kan agenten sikre, at jeres søn ikke forsømmer matematiktimer (fordi matematik er defineret som et fag, han ikke må være fraværende fra, da det er det, han har sværest ved) – og foreslå busser eller togforbindelser, som gør det muligt for jer at nå frem til tiden.

Et andet eksempel. En virksomhed som sælger fyldt chokolade i æsker skal bestille marcipanhjerter og nougatsnitter på to forskellige fabrikker. Begge sendinger skal bringes til en pakkefabrik, hvor chokoladen skal lægges i æsker. I dag skal firmaet først afsende den ene ordre og kontakte et shippingfirma, for at få chokoladen fragtet. Derefter skal virksomheden afsende ordren til fabrik nr. to – og bestille transport til den. Med det semantiske web bliver det muligt (uden at skulle programmere en ny, stor, dyr integrationsløsning) at integrere definitionerne fra begge fabrikker og shippingfirmaet – og at bestille chokoladen uden at bruge mere end et enkelt klik.

Integrating Applications on the Semantic Web
Tim Berners-Lee understreger i artiklen ”Integrating Applications on the Semantic Web”(se litteraturliste) at der skam allerede findes en række applikationer som fungerer og som virkeliggør dele af ambitionen om det semantiske web, men der er bestemt et stykke vej til drømmeland. Ben Hammersley præsenterede da også afslutningsvis på Reboot-konferencen en række udfordringer for teknikere og formidlere, som gerne ser semantisk web spredt ud over verden. For det første er det (som det måske fremgår af ovenstående) ganske besværligt at lave alle disse definitioner. Der findes ikke en enkel applikation, som man kan lukke op og arbejde i. For det andet er semantiske søgninger ikke umiddelbart tilgængelige - man søger ikke på søgeord som i Google - tværtimod skal man lære en ganske bestemt søgesyntaks for at komme rundt i den semantiske sfære, som den er bygget op nu.

Så måske er det sandt - måske kan semantisk web på lidt længere sigt gøre livet lettere– og skabe bedre samarbejde mellem mennesker og computere, men først skal der investeres en masse tid i definitioner og stilles mange opklarende spørgsmål af typen; Hvordan definerer du "mennesker", og "computere"?

Bøger:
Tim Berners-Lee: ”Webbets vej til verden”, 2001, Adlandia
Michael Juul Jensen et al: ”Når nettet ændrer verden”, 2001, Børsen

Artikler:
Tim Berners-Lee & Eric Miller: ”The Semantic Web lifts off”, 2002, ERCIM News No. 51
Tim Berners-Lee, James Hendler and Ora Lassila: “The Semantic Web” Scientific American, 2001
Tim Berners-Lee: “Integrating Applications on the Semantic Web”, 2002

Links:
Læs mere på http://www.w3c.org/.

Læs mere om http://www.dublincore.org.

Læs mere på http://www.semanticweb.org.

Se derudover slutnoter for flere links til relevante sites.

Tim Berners-Lee er i dag leder af W3C, som er et konsortium, der specificerer standarder for internettet og som arbejder med langsigtede projekter, der skal forbedre funktionaliteten på fremtidens internet. Læs mere om W3C og de mange andre projekter på hjemmesiden: http://www.w3c.org/
Ben Hammersley er journalist på The Guardian. Læs mere om/af Ben Hammersley på hans weblog:
Læs mere om ham på http://www.benhammersley.com/.
.Se også hele Ben Hammersleys præsentation om det semantiske web på Reboots hjemmeside: http://www.reboot.dk/reboot6/video/

På W3Cs hjemmeside kan man lære mere om RDF-sproget (som er baseret på grammatik – og derfor også umiddelbart logisk for sprogfolk uden særlig teknisk indsigt). Se for eksempel en gennemgang af, hvordan man kommer i gang med at bruge RDF og triples her: http://www.w3.org/2000/10/swap/Primer

CMYK og RGB er farvekoder som anvendes til definition af farvetoner i grafikfiler.

Dublin Core er en organisation som arbejder for at indføre metadata standarder på nettet på en række områder, netop for at gøre udveksling af informationer lettere. Læs mere om Dublin Core på organisationens hjemmeside. http://dublincore.org/

Der eksisterer ikke en fælles URI for opdrættere eller ejere af hunderacen Italian Greyhound, men hos organisationen Læs mere på http://www.semanticweb.org.
kan man få en idé om, hvor der arbejdes på at udvikle fælles ontologier og standarder til brug for definitionsarbejdet i semantisk web.

Læs mere om agenter i Tim Berner-Lees artikel ”The Semantic Web” fra Scientific American, 2001

Del artikel

Tilmeld dig vores nyhedsbrev

Vær på forkant med udviklingen. Få den nyeste viden fra branchen med vores nyhedsbrev.

Forsiden lige nu

Læs også