Terminibaasi koostamise põhimõtted

Kiirülevaade insenerile

Arvi Tavast

 

See tekst on kirjutatud abiks neile, kes projekteerivad terminiandmebaase ilma varasema sügavama kokkupuuteta terminoloogia teooriaga. Eeldatud on tutvust andmebaasidega. Ei ole eeldatud tutvust lingvistika ega ühegi naaberdistsipliiniga. Käsitlus peaks olema suhteliselt sõltumatu valitud andmebaasitehnoloogiast ja sobima mh relatsioonilistele baasidele, Tradose lameandmebaasile ja isetehtud tekstipõhistele baasidele. Terminoloogia teooria mõttes on jutt tugevalt lihtsustatud ja mõeldud tõesti ainult kiire ülevaate andmiseks rakenduslikul eesmärgil.

Mis on terminoloogia

Kingsepal ei ole kingi. Sõna terminoloogia kasutatakse läbisegi kahes eri tähenduses, ja sageli pole selge, kumba mõeldakse:

  1. mingi erala oskussõnade kogum,

  2. õpetus oskussõnade ja nende süsteemide moodustamise, töötlemise, esitamise jms kohta.

Siin on juttu eranditult viimasest.

Terminid, mõisted ja objektiivne reaalsus

Inimene näeb enda ümber mitmesuguseid reaalseid üksikobjekte, näiteks mööbliesemeid. Need erinevad omavahel mõõtmete, värvuse, materjali jne poolest, kuid ikkagi on inimene võimeline üsna paljude mööbliesemete kohta enam-vähem kindlalt ütlema, kas see on taburet või ei ole. Samuti on ta võimeline kujutlema tüüpilist taburetti. Ja lisaks teab ta, et sellistest objektidest rääkimisel sobib ühes teatud keeles kasutada sõna taburet. Saime kokku kolm asja: objektiivsesse reaalsusse kuuluv füüsiliste taburettide kogum, inimese kujutlus taburetist ja sõna taburet. On oluline mõista, et need on kolm eri asja.

Semiootikute eeskujul võib nad joonistada kolmnurgaks:

Kolmnurk

Joonis 1. Termin, mõiste ja objektiivne reaalsus Ogdeni ja Richardsi kolmnurgas.

Kui tuleme terminoloogia juurde, siis:

Kesksel kohal selles kolmnurgas on mõiste, sest paberil kirjasoleva sõna taburet ja füüsilise tabureti vahel puudub otsene seos väljaspool inimese mõttemaailma. Seos käib ainult mõiste kaudu. Täpselt samamoodi puudub otsene seos ühe keele termini ja teise keele termini vahel. Ka see seos käib ainult mõiste kaudu. Võib öelda, et ma nimetan taburetiks seda, mida John nimetab stooliks, aga vähegi täpsust taga ajades ei saa kuidagi öelda, et "taburet on stool" või, mis veel hullem, et "taburet tähendab stool". Ei ole, ei tähenda, ainult tähistab sama mõistet.

See oli nüüd jälle oluline koht järgneva arutluse seisukohalt, nii et kui jäi kahtlaseks, siis palun küsige.

Taburet on lihtne näide, aga abstraktsed mõisted, ajas muutuva sisuga mõisted, hägusate piiridega mõisted jms huvitavamad juhtumid töötavad põhimõtteliselt samamoodi.

Terminibaasi andmemudel

Milline see mudel ei tohiks olla

Terminibaase koostama asudes tehakse sageli see viga, et võetakse mõni hea valmissõnastik eeskujuks ja üritatakse kopeerida selle andmemudelit. Nii ei ole mõtet teha isegi juhul, kui terminibaasi koostamise ainus eesmärk on paberkujul sõnastik välja anda. Miks? Sest:

Terminibaasi selline kuju, mis koostamisel vigu väldib, ei kõlba enamasti avaldamiseks, sest kasutajad on harjunud teistsugust pilti nägema (eriti paberil). Seega tasub veelkord rõhutada, et baasi koostamisaegne kuju ja avaldamisaegne kuju ei ole omavahel seotud.

Sõnastiku andmemudel

Joonis 2. Harjumuspärase kaks- või mitmekeelse sõnastiku lihtsustatud andmemudel. Tingmärgid

Sellel joonisel on harjumuspärane andmemudel olukorraks, kus "vaatame sõnastikust järele, mida sõna tähendab". Kasutaja pääseb andmetele juurde lähtekeele sõna kaudu, mille küljes ripuvad sihtkeelsed vasted ja viimaste küljes omakorda definitsioonid (või näited või muud tähenduse esitamise vahendid, kas või pildid).

Ühe sõna mitu tähendust on ühes artiklis koos; teised samatähenduslikud sõnad on oma kohtadel tähestikus ja vastavatele artiklitele viidatakse lähtekeele termini järgi. Kui muid tähendusseoseid peale sünonüümia esitatakse (mida juhtub harva), siis samuti viitega lähtekeele termini järgi.

See kõik on paberkujul täiesti harjumuspärane pilt. Siiski ei ole vähimatki mõtet seda üle kanda elektronkujul levitatavatesse sõnastikesse (nagu seni on sageli tehtud); selle kasutamine sõnastiku koostamisel on aga lausa kahjulik. Kogemus näitab, et teatud süstemaatiliste vigade vältimine sellise andmemudeli peal koostades ületab inimvõimete piire. Need vead on:

Kõiki neid vigu esineb reaalsetes sõnastikes paksult. Ka allakirjutanu osalusel sõnapõhiselt koostatutes.

Terminibaasi teisendus sõnastikuks on triviaalne, vastupidi aga mitte. Õigemini, kui sõnastik on saadud terminibaasist teisendamise teel, siis on muidugi sama lihtne ka tagasi teisendada. Point on aga selles, et ülalkirjeldatud viisil koostatud sõnastikus esinevad ülalkirjeldatud vead

Milline see mudel võiks olla

Niisiis, tarvis oleks lähtuda mõistest, aga samas ei ole mõiste midagi sellist, mida saaks vahetult baasis esitada. Mõistet esitavad keeleliselt terminid ja definitsioonid, aga need võtmeks ei sobi.

Primaarvõtmena ei saa kasutada terminit, sest:

Primaarvõtmena ei saa kasutada definitsiooni, sest:

Täpselt nagu isikuandmete baasis - nimi pole unikaalne, tundemärkide kirjeldus läheks liiga pikaks ja parim lahendus on arbitraarne (kokkuleppeline) isikukood, mille küljes kõik muud andmed ripuvad.

Terminibaasi alus võiks seega olla mõistenumber või -kood, kas mingi mõistesüsteemi struktuuri kajastav või lihtsalt lisamise järjenumber. Kõik muu tuleks riputada selle külge.

Terminibaasi andmemudel

Joonis 3. Vastava terminibaasi lihtsustatud andmemudel.

Terminibaasis asub definitsioon klassikalisel juhul mõistetasemel, sest objektiivne reaalsus ei sõltu keelest, milles seda reaalsust kirjeldatakse. Punktiiriga on ta näidatud keeletasemele sellepärast, et teatud aladel (õigus, rahvakombed vms) sõltub objektiivne reaalsus kultuuriruumist, mis omakorda langeb sageli keeleareaaliga kokku, mistõttu võib praktikas osutuda vajalikuks esitada eri keeltes erinevad definitsioonid.

Kõik keeled on ühesuguse staatusega, st sõnastikuks teisendamisel võib neist lähtekeeleks valida ükskõik millise. Ka terminid on baasi seisukohalt omavahel võrdsed (atribuutidega võib küll esitada selliseid sisulisi soovitusi nagu "standardtermin", "vananenud" vms.) Üks erand siiski on: kui tahta hiljem tähestikuliseks teisendamisel anda ülejäänud sünonüümid viitena põhiterminile, siis tuleb üks terminitest kuulutada põhiterminiks. Ka seda oleks tulevaste teisenduste seisukohalt hea teha atribuudiga, mitte eraldi väljale paigutamise teel.

Sellises, mõistelises terminibaasis käivad tähendusseoste viited arusaadavalt mõistete vahel. Mitte terminite vahel. Tähestikuliseks teisendamisel tuleb muidugi mõelda, kuidas niisuguseid viiteid esitada, kui üldse, aga see teema tuleb päevakorda palju hiljem. Lisaks tasub ehk mainida, et sünonüümiviidet sellises baasis põhimõtteliselt olla ei saa. Sünonüümid kas on ühes kirjes koos, või pole nad sünonüümid.

Kogu terminibaasis olevat infot ei pea kasutajale esitama. Suur hulk infot nt tähendusseoste või näiteallikate kohta on koostajale palju vajalikum kui kasutajale, st isegi kui jätta see kasutajale ilmutamata, siis jõuab see tegelikult ikkagi temani - ülejäänud andmete parema kvaliteedi kujul.

Terminibaasi andmemudeli koostamisel tuleb loomulikult järgida ka üldisi reegleid, nagu iga teisegi baasi puhul. Kõige sagedamini eksitakse granulaarsuse ehk atomaarsuse nõude vastu: ühele väljale ei sobi panna üle ühe andmeelemendi. Tüüpilised vead:

Viga

Lahendus

Kaks ühetüübilist andmeelementi ühel väljal koos, näiteks kaks terminit komaga eraldatult

Terminiväli korduvaks või eraldi tabelisse ja iga termin oma väljale

Kaks eritüübilist andmeelementi ühel väljal koos, näiteks termin ja tema grammatiline sugu või termin ja definitsioon

Igale andmetüübile oma väli, vajadusel teatmetabeliga

Üht välja kasutatakse mitut tüüpi andmete esitamiseks, näiteks väli "grammatika" ja sellel segamini sugu, hääldus, ebareeglipärane mitmus jne

Igale andmetüübile oma väli, vajadusel igale oma teatmetabel

Väike baas püsib elus ka selliste vigadega; veidi suurem (mõni tuhat kirjet) enam mitte. Eriti oluline on granulaarsus terminiväljal. Selle puudumine teeb võimatuks:

Kokkuvõtteks

põhimõttelised erinevused terminibaasi ja sõnastiku (ehk terminograafia ja leksikograafia) vahel andmemudeli seisukohalt:

 

Terminibaas

Sõnastik 

Käsitleb

mõistet ja selle tähistamise viise

sõna ja selle tähendusi

Ühes kirjes (artiklis) on

ühe tähendusega sõnad

ühe kirjapildiga sõnad

Annab infot

maailma kohta (defineerib mõistet)

keele kohta (defineerib sõna)

Keeled on

baasi seisukohalt omavahel võrdsed

jaotatud lähtekeeleks ja sihtkeelteks

Sama hea sõnastiku saamiseks vastupidises keelesuunas tuleb

esitada baasile uus päring

sisuliselt koostada uus sõnastik

Kirjete järjestus

ei puutu asjasse (järjestus määratakse päringuga)

enamasti tähestikuline lähtekeele järgi