Semantisk web: Digitalt esperanto eller babelstårn?

Vi bevæger os alle på informationsmotorvejen i stadig større fart, men uden nødvendigvis at havde kørekort til det voksende vejnet. Rundt omkring i samfundet er vi derfor ved at drukne i forkerte, forældede, forvirrende, forsvundne eller forvrængede informationer.

Til at hjælpe os navigere rundt mellem de enorme informationsmængder har vi søgemaskinerne, der ved hjælp af komplicerede algoritmer indsamler og inddeler informationen for os. Desværre må søgemaskinerne ofte spille fallit over for informationsmængden og strukturen. Kun en grovsortering bliver foretaget af maskinen og resten af det møjsommelige arbejde med at finde frem til den rigtige information er op til brugeren selv.

Søgemaskinerne kan i den forstand virke forældede fordi de ikke kan skelne mellem det irrelevante og det væsentlige i deres uendelige ordkombinationer. De kan derfor heller ikke løse opgaver og sammenstille informationer fra flere hjemmesider til kæder af mening. Derfor må brugeren selv arbejde sig fra side til side i forsøget på at vurdere informationernes relevans og skabe mening. Til tider en frustrerende oplevelse for de fleste. Vidensamfundet og specielt internettets fremkomst har med andre ord skabt et behov for at forstå og begrebsliggøre information på en ny måde. Og det er netop i den forbindelse at begrebet det semantiske web muligvis kan være en vej ud af informationskaoset.

Hvad er det semantiske web?
Det semantiske web er en vision om at gøre samarbejdet mellem mennesker og computere lettere. Begrebet er opfundet af Tim Berners-Lee, der gjorde det muligt at linke mellem to dokumenter og dermed opfandt grundlaget for det, vi i dag kender som World Wide Web. Berners-Lee har nu kastet sig over det, han ser som næste generation af Internettet. Fra en biblioteksfaglig synsvinkel kan det semantiske web opfattes som et metadata-initiativ. Ideen er at tilføje relevante metadata til indhold på Internettet, så der skabes langt bedre muligheder for, at vi kan finde det, vi søger efter. Ved at skabe flere data om data udefra logiske regler skærpes og udvides vores søgemuligheder fordi informationen kan afkodes og sammenstilles på nye og mere nuancerede måder. Som det semantiske web defineres af det fælles World Wide Web Consortium W3:

“The Semantic Web is "'...an extension of the current Web in which information is given welldefined meaning, better enabling computers and people to work in cooperation. It is the idea of having data on the Web defined and linked in a way that it can be used for more effective discovery, automation, integration, and reuse across various applications.., data can be shared and processed by automated tools as well as by people.”

I dag indeholder de fleste hjemmesider forskellig metadata såsom om et indholdselement er en Word, Power Point, lyd eller billedfil. I det semantiske web udvides mængden og typen af metadata drastisk. Her kan man også søge på persondata, steder, begivenheder og vigtigst på relationen imellem dem. Relationen mellem informationerne opregnes ikke blot som links, men sammensættes til egentlige betydningsrelationer. Det vil sige semantiske relationer som vi kender fra det menneskelige sprog. Deraf navnet ”Det semantiske web”, der grundlæggende handler om muligheden for at skabe et kunstigt sprog, som computere kan afkode og dermed på en måde ”forstå” meningen med indholdet på siden.

De dumme computere og det kloge menneske
Det største problem ved Internettet i dag er paradoksalt nok, at computere ikke kan forstå og læse indholdet på de mange millioner hjemmesider. Indholdet kan kun læses og forstås af mennesker, hvilket betyder at computere er begrænset til at kan genkende og finde enkelte ord, frem for kvalificeret at finde og forstå betydning. Det betyder at den tunge opgave med at opdatere, forstå og udveksle informationer er overladt til mennesker alene. Her ser mange det semantiske web som en mulighed for at automatisere den meningsdannende proces så computere kan forstå indholdet på et langt højere plan end kun at genkende enkelte ord. Kunne man nå dette mål ville mange mennesker spare dyrebar tid, og Internettet potentiale ville blive forløst på en helt ny måde. Dermed er forestillingen om det semantiske web også drømmen om et kvantespring i Internettets anvendelsesmuligheder.

Computere vil sandsynligvise aldrig kunne forstå betydning, som vi mennesker forstår det, men med det semantiske web forsøges skabt en digital struktur, som gør det muligt for computere at kommunikere og manipulere betydning uden nødvendigvis at forstå betydningen som vi mennesker. Som det præcist udtrykkes af idemanden bag det semantiske web Berners-Lee

“. . . instead of asking machines to understand people’s language, the new technology, like the old, involves asking people to make some extra effort, in repayment for which they will get substantial new functionality.”

Stærkt forenklet er visionen, at det skal være slut med at søge på enkelte ord for bagefter selv at finde svaret blandt talrige muligheder. Fremtiden bliver i stedet, at vi kan søge på hele sætninger eller opgaver, og at computeren selv sammenstiler relevante svar på baggrund af informationsøgninger på tværs af databaser og hjemmesider.

Opbygningen af det semantiske web
Som tidligere nævnt handler det semantiske web om at tilføje meningsfuldt metadata til information på en sådan måde, at maskiner kan afkode indholdet. Og hvordan gør man så det? Centralt i opbygningen af det semantiske web, står begreberne RDF og ontologi, som vi vil beskrive nærmere i det følgende.

Mange kender HTML (HyperText Markup Language), der er en af de mest almindelige standarder for kode på Internettet. HTML’en kan ikke umiddelbart ses, men ligger skjult i siden og fortæller med små kodestumper kaldet tags, hvordan forskellige elementer skal fortolkes af browseren. Sætter man for eksempel kodestumperne og på hver sin side af et tekststykke, bliver det markeret med fed på siden (HTML er baseret på engelsk, hvor ”bold” svarer til vores danske typografi ”fed”).

Fra HTML til XML
Med HTML kan man lave sidens opsætning og udtryk, men standarden siger kun meget lidt om informationens beskaffenhed, kontekst og mening. Dermed er HTML ikke godt til at udveksle indhold mellem systemer. Til det formål har man udviklet en anden standard kaldet XML (eXtensible Markup Language). I denne kode defineres dataens beskaffenhed, og ikke dens udtryk, ved hjælp af kodestumper eller tags. Det gør det muligt at udveksle data mellem systemer, der så kan tilføje deres egen opsætning (HTML) inden data præsenteres. Sætter man for eksempel tagget og ind på hver sin side af navnet på ophavsmanden til en artikel, vil en anden computer kunne opsamle og kategoriserer information, for at ved hjælp af HTML at præsentere den på siden.

Fra XML til RDF
Det semantiske web forsøger at bringe denne opbygning et skridt videre ved at tilføje en afart af XML kaldet RDF (Ressource Description Frameworks). Ligesom HTML og XML er RDF bygget op som tags der indkapsler informationen på hver sin side. En afgørende forskel er at RDF fortæller om informationens mening og indhold, og RDF-tags bruges således til at indføje og markere den type af metadata, der gør det semantiske web muligt.

For at visionen om det semantiske web skal fungere i praksis er det nødvendigt at opbygge RDF på en måde, der muliggør at en computer kan aflæse og afkode sammenhængen mellem de forskellige indholdselementer i metadataen.

RDF Triplets

Dette gøres ved at udforme metadata som såkaldte RDF Triplets. En RDF Triplet er et udsagn, der altid indeholder følgende tre elementer:
–Et subjekt
–Et verbum
–Et objekt

Med udgangspunkt i almindelig sætningskonstruktion skabes på den måde korte definitioner af tekstens indhold. Lad os tage et eksempel: Indus er en indisk restaurant på Istedgade i Købehavn med speciale i karryretter, hvilket fremgår af deres hjemmeside. Til disse informationer ville man blandt andet kunne tilknytte følgende RDF

Triplets:
–Restaurant harnavn Indus
–Indus serverer indiskmad
–Indus liggerpå Istedgade
–Istedgade liggeri København
–Indus harspeciale karryret

På lignende facon vil en række kernedata kunne beskrives i andre RDF Triplets, der så ligges ind i kodestumper og placeres relevante steder i koden på siden, uden at det kan ses for den almindelige bruger. Metadata kunne for eksempel også sige noget om menukort og reservationer, der med RDF Triplets ville kunne defineres i sammenhæng og således kunne afkodes i forhold til hinanden.

RDF bruges altså til at knytte meningsgivende metadata til informationen, hvilket med det samme leder frem til spørgsmålet om definition. Altså, hvordan er de respektive subjekter, verbum og objekter defineret. Ser vi på eksemplet ovenfor rejser de anførte RDF

Triplet blandt andet følgende spørgsmål:
-Hvad er en restaurant?
-Hvad er Indien?
-Hvad er mad?
-Hvad er karry?

For at en computer skal kunne aflæse og behandle den angivne RDF, er det nødvendigt at have et fast svar på disse spørgsmål. Dette gøres gennem definitioner. Generelt på nettet bruger man URI (Universal Ressource Identifiers) til at definere forbindelse mellem ord/udtryk og deres funktion/indhold.

Der findes både centrale og forskellige grader af decentrale URI. En af de meget kendte URI’er på Internettet er URL (Uniform Resource Locator), der definerer forholdet mellem en hjemmesides adresse, og hvor siden skal findes. En anden meget kendt URI er de såkaldte RGB (RedGreenBlue) koder der definerer sammenhængen mellem en talværdi i koden og farven som brugeren ser på skærmen.

Det står alle frit for at oprette deres egne URI’er, der definerer de indlejrede RDF Triplets.

Problemet er bare, at definitionerne uundværligt bliver subjektive og inkonsistente og der-med ubrugelige for andre end forfatteren selv. Frem for hele tiden selv at finde på URI’er giver det derfor mening at henvise til nogle retningslinier, der gør det muligt at definere samme data ens. Forskellige steder på Internettet er standardiserede URI’er samlet i det man kalder ontologier. I filosofien betyder ontologi læren om tings væsen, men inden for computerverden bruges det mere konkret om det dokument, der definerer relationer mellem termer.

Dublin Core Metadata Initiative

En af de mest kendte ontologier er Dublin Core Metadata Initiative, der beskriver deres formål som:

“…an organization dedicated to promoting the widespread adoption of interoperable metadata standards and developing specialized metadata vocabularies for describing resources that enable more intelligent information discovery systems.”

En fælles ontologi som for eksempel Dublin Core gør definitionerne entydige, og relationerne mellem de forskellige RDF Triplets og deres betydning er dermed klarlagt. Har man således indskrevet metadata på den rigtige måde med henvisning til fælles standarder, vil computeren kunne svare på spørgsmålene:
-Hvad er det?
-Hvad betyder det?

På den måde bliver det muligt for computeren at sammenligne og sammenkæde informationerne. Det er vigtigt at forstå, at computeren ikke forstår indholdet i ordets egentlige forstand som tidligere nævnt. Snarere er det semantiske web et forsøg på at mediere mellem menneskelig meningsdannelse og maskinel logik, ved at opbygge et system som beskrevet ovenfor. Dermed kan computeren identificere nye strukturer og sammenhænge i informationen, der så igen viser videre til anden information osv.

Man kan anskue visionen om det semantiske web som et forsøg på at kæde forskellige sider sammen i én stor databaselignende struktur. I en traditionel database kunne man også forestille sig lignende eksempler som dem ovenfor. Det ville blot kræve et kæmpe arbejde i form at sammenkørsler af data og relationerne imellem dem. Hele tiden skulle man udvide, ensrette og udrense data. Det ville ret hurtigt blive en uoverstigelig opgave, og derfor begrænser de fleste databaser sig da også til kun at løse prædefinerede opgaver. For eksempel krak.dk, der jo giver oplysninger om adresser og telefonnumre, og man kan til nød også finde den nærmeste indiske restaurant, hvis man har brug for det. Men hvad nu hvis jeg gerne vil vide, om der er et bord ledigt, der passer ind med mine planer om at se Godfather i tv senere på aftenen? Så er jeg nødt til at gå fra hjemmeside til hjemmeside og indsamle de relevante informationer.

Med det semantiske web derimod vil disse informationer kunne indsamles og sammenstilles af en computer uden at være kontrolleret i en central database. I stedet vil de relevante RDF-tags på de respektive sider med tilhørende ontologier gøre det muligt for en digital agent, at bruge fx krak.dk, aok.dk, dr.dk og rejseplanen.dk til at deducere sig frem til resultatet, at Indus er en indisk restaurant på Istedgade i København med et bord ledigt mellem 19 og 21, hvilket giver mig tid nok til at tage 10’eren hjem, så jeg kan se Godfather klokken 21.55 på DR1. Et andet eksempel kunne være, at jeg skal til lægen og blot behøver at skrive hendes navn og klikke et par gange, for at få matchet vores to kalendere, booket en tid og estimeret, hvornår jeg bør køre fra arbejde for at nå det. Som det ses giver det ideelle semantiske web mulighed for at bruge Internettet på helt nye måder, hvor informationerne sættes i meningsgiven kontekst frem for blot at blive præsenteret som lister. Det vil sige fra at kunne finde telefonnummeret på den indiske restaurant Indus til at få en perfekt plan for din personlige lørdag aften alt inklusiv.

Det semantiske web pro et contra
Ifølge de begejstrede tilhængere er det semantiske web et nødvendigt generationsskifte, som for altid vil ændre vores brug af Internettet. Den nye funktionalitet som systemet lover vil være en enorm gevinst for fremtidens internet i form af epokegørende bedre muligheder for at finde og formidle viden. Prisen er dog uden tvivl stor, og det er stadigt et åbent spørgsmål, hvem der rent praktisk skal yde den ekstra indsats. Specielt katalogiseringen og indskrivningen af de mange metadata er en uoverskuelig og tidskrævende opgave, siger de skarpeste kritikere. Det kan godt være det semantiske web på langt sigt er et løfte om en automatisering, men på kort sigt kræver det et kæmpe manuelt arbejde at bestemme og beskrive det potentielt uendelige hav af relationer, der kan tilføjes hver en lille stump af Internettet.

Fra taxonomy til folksonomy
Forkæmperne for det semantiske web er naturligvis uenige og argumentere for at den store opgave med at beskrive metadata vil blive fordelt mellem millioner og atter millioner af Internet brugere. Her bevæger vi os fra den klassiske centralt kontrollerede taxonomy til en folkelig og decentral taxonomy – en slags folksonomy.
Et argument som måske virker naivt på mange professionelle bibliotekarer, der ved at man ikke uproblematisk kan demokratisere katalogiseringen af informationer. Specielt ikke fordi amatører på trods at faste retningslinier ofte ubevidst og implicit katalogiserer egocentrisk og med manglende omtanke for andres behov eller kravet om konsistens.

Hvad kritikerne ser som en svaghed ved den decentrale og demokratiske arbejdsdeling, opfatter tilhængerne dog netop som styrken ved det semantiske web. Fleksibiliteten og den demokratiske mulighed for at alle kan skabe metadata er nemlig netop det, som gør systemet relevant og brugbart for de mange. Her er argumentet, at frygten for manglende kvalitet og konsekvens i anvendelse af metadata er overvurderet. Over tid vil brugerne og systemet selv sikre at kun det bedste bliver brugt, og kvaliteten vil således løbende forbedres, når først processen er kommet godt i gang.

Spørgsmålet om tid, arbejdsopgaver og penge er dog langt fra de eneste essentielle problemstillinger, når man taler om det semantiske web. Lige så interessant er spørgsmålet om det overhovedet kan lade sig gøre at skabe meningsfuld metadata som gør en forskel? Dilemmaet ligger i, om vi skal være fælles om for lidt betydning, eller alene om for meget betydning? Tynde men objektive metadata skabt af maskiner kontra dybe, men subjektive metadata skabt af mennesker? Ved for lidt betydning lader vi maskinerne og logikken skabe metadata og dermed falder relevansen. Mens ved for meget betydning lader vi det enkelte menneske spille hovedrollen, hvilket skaber meget relevans for de få.

Den klassiske bibliotekskundskab kræver minimal fortolkning for at skabe de relevante metadata. Omvendt forholder det sig med det semantiske webs omfattende ontologier. Her bliver ensretningen let kompromitteret og den enkeltes verdensbillede og værdier bliver aktiv medspiller på godt og ondt i katalogiseringen. Et forhold der vil gøre det svært at sammenligne og sammenkøre metadata, hvilket ellers er hele det semantiske web kongstanke og berettigelse.

Muligheder frem for forhindringerne
Men Tim Berners-Lee, og mange andre med ham, ser mulighederne frem for forhindringerne. De tror på muligheden af at skabe konsistens i Internettets vildt voksende informationskaos. De tror på et semantisk web, der sammenkobler relevant information i datavirvaret til meningsgivende kontekst og ændrer Internettet væsen til at være et reelt værktøj, der ikke blot lister muligheder, men rent faktisk kan løse komplekse opgaver. I yderste konsekvens er det drømmen om at danne det endelige bibliotek, hvor alting altid kan findes og alle får svar på deres unikke spørgsmål. Optimisten ser i det semantiske web det nye globale esperanto, som vil gøre alt lettere, mens pessimisterne tror, vi ender med tårnet i Babylon. Et overambitiøst, uoverskueligt og ufuldstændigt byggeprojekt i cyberspace, der styrter sammen, når vi finder ud af at alle taler og tænker i forskellige tungemål altid.

Udvalgte referencer:
Berners-Lee, Tim: Webbets vej til verden, 2001, Adlandia
Berners-Lee, Tim, Miller, Eric: ”The Semantic Web lifts off”, 2002, ERCIM News No. 51
Berners-Lee, Tim, Hendler, James, Lassila, Ora: “The Semantic Web” Scientific American, 2001
Berners-Lee, Tim: “Integrating Applications on the Semantic Web”, 2002
Gomez-Perez, Asuncion, Corcho, Oscar, Fernandez-Lopez, Mariano: Ontological Engineering, 2002, Springer-Verlag.

World Wide Web Consortium: www.w3c.org/
Dublin Core Metadata Initiative: www.dublincore.org
Semantic Web: www.semanticorg.org