SEMINAR ON BILINGUAL COMPUTING IN ARABIC AND ENGLISH



Knut S.Vikør



Det er to typar menneske som skriv arabisk og brukar datamaskin: arabarar og arabistar. Arabarane er mange, men få av dei brukar datamaskin; arabistane få, men fleire og fleire har grepe til tastaturet. Dei har ein ting til felles: datamaskinene deira blir ikkje laga i arabiske land.

Ut frå dette burde det vere grunn for dei to til å møtes for å diskutere felles problem, og det var bakgrunnen for det første seminaret om to-språklig databehandling på arabisk og engelsk som vart arrangert av Centre for Middle Eastern Studies og Literary and Linguistic Computing Centre ved Universitetet i Cambridge i haust.

Responsen på intiativet var overraskande stor, heile 26 innlegg og vel 110 deltakarar vart påmeld, og tidsramma for dei to dagane sprengd. Vi måtte såleis dele oss, og kunne ikkje få med oss alle innlegga. Deltakarane var stort sett halvdelen europearar og halvdelen arabarar, spesielt frå Golf-landa, som i praksis er dei einaste som har økonomisk bæreevne for omfattande datorisering.

MASKINOMSETTING – LANGT FRAM

Eit hovudtema for både akademikarane og programmørane var problem i databehandling av arabisk leksikografi. Det er tydelig at arabistar her står foran ein god del grunnarbeid som blir tatt for gitt i europeiske språk, slik som beskrivande grammatisk analyse og opparbeiding av tekstkorpora. Den arabiske grammatikken har ei tusenårig historie, men er normativ heller enn deskriptiv. Det er også uklart om ein i moderne arabisk leksikografi bør ta utgangspunkt i klassisk grammatikk, som kan skape forståingsproblem hos moderne arabarar, eller bør drive nyskapande arbeid på grunnlag av vestlige modellar. Samtidig er det klart at arabiske grammatiske strukturar skiller seg så langt frå vestlige språk at det ikkje kan komme på tale å overta europeisk metodologi direkte.

Dette problemet gir seg også utslag i prosjekta for maskinbasert omsetting frå arabisk til engelsk eller omvendt. Også her var det tydelig at det er metodiske grunnproblem som står att å løyse før ein kan komme i gang med praktiske prosjekt. Ingen av det halve dusinet innlegg om leksikografi/omsetting beskreiv fullførte prosjekt, dei fleste hadde enno ikkje komme nær eit tastatur./

Av spesielle problem med maskinomsetting kan t.d. nemnas det store problemet som homonym utgjer. Sidan normal arabisk skrift ikkje har korte vokalar, kan samme skriftbilde dekke over opp til eit halvt dusin normale ord, med ulike korte vokalar. I tillegg kjem at fordobling av konsonantar (vanligvis ikkje avmerka), bortfall av svake konsonantar mv. kan gjere det uklart også kva rot ordet er bygd på. På det heilt konkrete nivået vil t.d. al vere bestemt artikkel i 95% av tilfella, men kan også vere første staving i ord som alm<$Ea bar>n<_>(tyskar), eller ei verbform (alq<$Ea bar> frå verbet laqiya). Det finnes naturligvis ord som kan vere begge deler, slik som albsa som kan vere al-bissa, katten, eller albisa, klede. Det er vanskelig å finne ein effektiv måte å skille ut desse orda, slik at ein fjerner den bestemte artikkelen frå substantiva for analyse (eller for den del stavingskontroll). Kontekstanalyse blir derfor uhyre viktig, men så lenge høgst levande arabarar ofte er i tvil om korleis eit skriftbilde skal lesas i kontekst, kan det vere ei stund til vi har metodologi og maskinvare for automatiske løysingar.

ARABISKE DATABASER

Medan sesjonane i leksikografi og maskinomsetting var dominert av lingvistar, var det meir business-orientering på presentasjonen av arabiske databaser. Eit prosjekt som var produsert i fellesskap av Kuwait Foundation for the Advancement of Sciences og Litton Integrated Automation vart presentert av eksil-dansken Torben Møller. Tanken bak dette "Arab World On-Line" var å legge inn alt det markedet måtte ønske av data om den arabiske verda i ein fulltekst-database. Materialet, som i hovudsak vil vere tidsskriftartiklar, med bilder m.v. ville delas i to: det som vil vere direkte tilgjengelig på linje i fulltekst-format, og det som ville vere søkbart med stikkord, men lagra på papir, der brukarane ville få teksta tilsendt over fax. Det spesielle ved denne databasen er at all tekstsøking og overføring vil kunne skje anten på arabisk eller engelsk etter ønske. Som kjent finnes det ingen allmenn arabisk bokstavstandard à la ASCII, derfor vil dette vere meir krevande for brukaren. Han vil måtte investere i den arabiske løysinga databasen tilbyr. Denne er PC-basert, altså ikkje for Macintoshar. Dette gir god økonomisk fornuft, sidan den arabiske business-marknaden er fram til nå ganske DOS- orientert. At dette er forretning, viser seg også i typen materiale som skal plukkas ut; arrangørane sendte ut eit spørreskjema til arabiske institusjonar og vil velge ut sitt materiale frå svara. Det blir mest økonomi, IT og offentlige tiltak, men også t.d. islamsk rett.

Derimot var det typisk at initiativtakarane tok heller lite omsyn til at stordelen av den arabiske verda dei retter seg mot, ikkje på lang tid vil ha råd til å nytte seg av tenestene deira. Ein PC/XT med EGA-grafikk, modem, fax og spesialløysingar for vising av arabisk på skjermen (kanhende berre for dette eine formålet) tilsvarer omtrent årslønna for ein professor overalt utanom Kuwait og næraste omegn.

DATOREN I UNDERVISNINGA

Medan det føregåande mest var metodisk og prosjekter under utvikling, kunne ein del universitetslærarar vise fram praktiske døme på hjelpemiddel i undervisning av arabisk. Desse var i hovudsak utvikla for Macintosh, og naturlig nok spesielt under HyperCard. Professor Dilworth Parkinson frå Utah – ein stad der det er få arabarar – har laga eit sett med drill-øvingar basert på EMSA, den vanligaste læreboka i arabisk (også brukt i Oslo og Bergen). Opplegget hans verka svært fleksibelt, ved at studentane kan velge nivå og ulik grad av "juks" eller støtte. Spesielt viktig er lyden, studenten kan trykke på ein knapp og få setninga eller ordet uttalt, digitalisert frå ein med arabisk morsmål. Professor Parkinson kunne melde at medan flinke studentar gjerne kjørte raskt gjennom øvingane, hadde dei større verdi for dei svake studentane, der språklab-øvingane gjerne går for fort. Her kunne dei, med ein evig tålmodig lærar, "spille" ei setning opp att og opp att; prøve øvingane til dei sat eller få korte grammatiske forklaringar på skjermen. Han fann da også mange "å, var det slik det var!" reaksjonar. Hans poeng forøvrig var, "I did it, and I'm not a programmer!" Slike program bør lagas av folk som faktisk står oppe i undervisninga, og som gjerne ikkje har tid eller pengar til å lage omfattande prosjekt med programmørar utanfrå. Og her er HyperCard eit framifrå hjelpemiddel.

BRUKARERFARINGAR

Også sesjonen med erfaringar frå (akademiske) brukarar av arabisk tekstbehandling og datatrykk var dominert av Macintosh. Dette trass i at det var stands for ei lang rekke PC-baserte løysingar; trulig reflekterer dette at Macintosh her er meir standardisert enn dei ulike inkompatible PC-løysingane for arabisk. Den utskutte frå Bergen la fram omlag det samme som er trykt i Humanistiske Data 3-88, med konklusjon at det er bra, men ikkje bra nok. Vi har såvidt fått tekstbehandling med fotnotar på arabisk, men ikkje noko som verkar fullgodt, og det burde vere minstemål. Andre var meir lovprisande over t.d. datatrykk-program som verkar, og verkar etter sitt formål godt. Dette er kanskje det mest vellykte på den arabiske Mac'en, t.d. blir ei arabisk dagsavis i London, al-Hayat redigert heilt ut på Macintosh under det systemet som er omtalt i HD 3-88 frå automatisk innhenting av data til trykk på Linotronic med arabiske fontar.

Andre tema som også vart tatt opp på seminaret var spørsmålet om IPA fortsatt er god nok, eller om vi treng ei ny fonetisk skrift for semittiske og andre språk; studier av data-termer på arabisk, presentasjon av eit "nesten-arabisk" programmeringsspråk, og databaserte system for transliterasjon frå arabisk (det siste forøvrig utvikla av ein kollega frå Taiwan).

Det generelle inntrykket frå seminaret er altså at vi står i ein tidlig fase i tospråklig arabisk-engelsk datorisering; mykje av det som vart presentert vil nok aldri bli realisert. Men samtidig gror det, og det er ikkje sikkert det vil vere så teoretisk (og samtidig såvidt oversiktlig) om noen få år frå nå.

Knut S. Vikør er dagleg leiar ved Senter for Midtausten- og islamske studiar, Universitetet i Bergen.

 


Innhaldslista for dette nummeret Hovudside, Humanistiske Data Heimeside, Humanistisk Datasenter