Kiirülevaade insenerile
See tekst on kirjutatud abiks neile, kes projekteerivad terminiandmebaase ilma varasema sügavama kokkupuuteta terminoloogia teooriaga. Eeldatud on tutvust andmebaasidega. Ei ole eeldatud tutvust lingvistika ega ühegi naaberdistsipliiniga. Käsitlus peaks olema suhteliselt sõltumatu valitud andmebaasitehnoloogiast ja sobima mh relatsioonilistele baasidele, Tradose lameandmebaasile ja isetehtud tekstipõhistele baasidele. Terminoloogia teooria mõttes on jutt tugevalt lihtsustatud ja mõeldud tõesti ainult kiire ülevaate andmiseks rakenduslikul eesmärgil.
Kingsepal ei ole kingi. Sõna terminoloogia kasutatakse läbisegi kahes eri tähenduses, ja sageli pole selge, kumba mõeldakse:
mingi erala oskussõnade kogum,
Siin on juttu eranditult viimasest.
Inimene näeb enda ümber mitmesuguseid reaalseid üksikobjekte, näiteks mööbliesemeid. Need erinevad omavahel mõõtmete, värvuse, materjali jne poolest, kuid ikkagi on inimene võimeline üsna paljude mööbliesemete kohta enam-vähem kindlalt ütlema, kas see on taburet või ei ole. Samuti on ta võimeline kujutlema tüüpilist taburetti. Ja lisaks teab ta, et sellistest objektidest rääkimisel sobib ühes teatud keeles kasutada sõna taburet. Saime kokku kolm asja: objektiivsesse reaalsusse kuuluv füüsiliste taburettide kogum, inimese kujutlus taburetist ja sõna taburet. On oluline mõista, et need on kolm eri asja.
Semiootikute eeskujul võib nad joonistada kolmnurgaks:

Joonis 1. Termin, mõiste ja objektiivne reaalsus Ogdeni ja Richardsi kolmnurgas.
Kui tuleme terminoloogia juurde, siis:
sõna taburet on termin, mille tähenduse
määrab tema seos vastava mõistega ja tolle paigutus
eriala mõistesüsteemis,
Kesksel kohal selles kolmnurgas on mõiste, sest paberil kirjasoleva sõna taburet ja füüsilise tabureti vahel puudub otsene seos väljaspool inimese mõttemaailma. Seos käib ainult mõiste kaudu. Täpselt samamoodi puudub otsene seos ühe keele termini ja teise keele termini vahel. Ka see seos käib ainult mõiste kaudu. Võib öelda, et ma nimetan taburetiks seda, mida John nimetab stooliks, aga vähegi täpsust taga ajades ei saa kuidagi öelda, et "taburet on stool" või, mis veel hullem, et "taburet tähendab stool". Ei ole, ei tähenda, ainult tähistab sama mõistet.
See oli nüüd jälle oluline koht järgneva arutluse seisukohalt, nii et kui jäi kahtlaseks, siis palun küsige.
Taburet on lihtne näide, aga abstraktsed mõisted, ajas muutuva sisuga mõisted, hägusate piiridega mõisted jms huvitavamad juhtumid töötavad põhimõtteliselt samamoodi.
Terminibaase koostama asudes tehakse sageli see viga, et võetakse mõni hea valmissõnastik eeskujuks ja üritatakse kopeerida selle andmemudelit. Nii ei ole mõtet teha isegi juhul, kui terminibaasi koostamise ainus eesmärk on paberkujul sõnastik välja anda. Miks? Sest:
terminibaasi saab üles ehitada kujul, mis puhttehniliselt hoiab
ära paljud tüütud vead koostamisel,
Terminibaasi selline kuju, mis koostamisel vigu väldib, ei kõlba enamasti avaldamiseks, sest kasutajad on harjunud teistsugust pilti nägema (eriti paberil). Seega tasub veelkord rõhutada, et baasi koostamisaegne kuju ja avaldamisaegne kuju ei ole omavahel seotud.

Joonis 2. Harjumuspärase kaks- või mitmekeelse sõnastiku lihtsustatud andmemudel. Tingmärgid
Sellel joonisel on harjumuspärane andmemudel olukorraks, kus "vaatame sõnastikust järele, mida sõna tähendab". Kasutaja pääseb andmetele juurde lähtekeele sõna kaudu, mille küljes ripuvad sihtkeelsed vasted ja viimaste küljes omakorda definitsioonid (või näited või muud tähenduse esitamise vahendid, kas või pildid).
Ühe sõna mitu tähendust on ühes artiklis koos; teised samatähenduslikud sõnad on oma kohtadel tähestikus ja vastavatele artiklitele viidatakse lähtekeele termini järgi. Kui muid tähendusseoseid peale sünonüümia esitatakse (mida juhtub harva), siis samuti viitega lähtekeele termini järgi.
See kõik on paberkujul täiesti harjumuspärane pilt. Siiski ei ole vähimatki mõtet seda üle kanda elektronkujul levitatavatesse sõnastikesse (nagu seni on sageli tehtud); selle kasutamine sõnastiku koostamisel on aga lausa kahjulik. Kogemus näitab, et teatud süstemaatiliste vigade vältimine sellise andmemudeli peal koostades ületab inimvõimete piire. Need vead on:
Sünonüümivastuolud: täpsed
sünonüümid on baasis sees, üksteisele ei viita ja
vasted on erinevad; koostaja lihtsalt ei mäletanud ühe
sünonüümi lisamisel, et teine juba oli baasis.
Kõiki neid vigu esineb reaalsetes sõnastikes paksult. Ka allakirjutanu osalusel sõnapõhiselt koostatutes.
Terminibaasi teisendus sõnastikuks on triviaalne, vastupidi aga mitte. Õigemini, kui sõnastik on saadud terminibaasist teisendamise teel, siis on muidugi sama lihtne ka tagasi teisendada. Point on aga selles, et ülalkirjeldatud viisil koostatud sõnastikus esinevad ülalkirjeldatud vead
teevad automaatse teisenduse võimatuks ja
käsitsiteisenduse väga töömahukaks (nt AKSi puhul
on teisendus võtnud aega oluliselt kauem kui koostamine omal
ajal võttis),
Niisiis, tarvis oleks lähtuda mõistest, aga samas ei ole mõiste midagi sellist, mida saaks vahetult baasis esitada. Mõistet esitavad keeleliselt terminid ja definitsioonid, aga need võtmeks ei sobi.
Primaarvõtmena ei saa kasutada terminit, sest:
üks termin võib tähistada mitut mõistet: laud
kui saekaatri toode ja laud kui mööbliese
(polüseemid, seotud tähendus); tee kui rajatis ja tee
kui jook (homonüümid, juhuslik kokkulangevus);
Primaarvõtmena ei saa kasutada definitsiooni, sest:
igal mõistel ei tarvitse koostamise algfaasis olla definitsiooni;
Täpselt nagu isikuandmete baasis - nimi pole unikaalne, tundemärkide kirjeldus läheks liiga pikaks ja parim lahendus on arbitraarne (kokkuleppeline) isikukood, mille küljes kõik muud andmed ripuvad.
Terminibaasi alus võiks seega olla mõistenumber või -kood, kas mingi mõistesüsteemi struktuuri kajastav või lihtsalt lisamise järjenumber. Kõik muu tuleks riputada selle külge.

Joonis 3. Vastava terminibaasi lihtsustatud andmemudel.
Terminibaasis asub definitsioon klassikalisel juhul mõistetasemel, sest objektiivne reaalsus ei sõltu keelest, milles seda reaalsust kirjeldatakse. Punktiiriga on ta näidatud keeletasemele sellepärast, et teatud aladel (õigus, rahvakombed vms) sõltub objektiivne reaalsus kultuuriruumist, mis omakorda langeb sageli keeleareaaliga kokku, mistõttu võib praktikas osutuda vajalikuks esitada eri keeltes erinevad definitsioonid.
Kõik keeled on ühesuguse staatusega, st sõnastikuks teisendamisel võib neist lähtekeeleks valida ükskõik millise. Ka terminid on baasi seisukohalt omavahel võrdsed (atribuutidega võib küll esitada selliseid sisulisi soovitusi nagu "standardtermin", "vananenud" vms.) Üks erand siiski on: kui tahta hiljem tähestikuliseks teisendamisel anda ülejäänud sünonüümid viitena põhiterminile, siis tuleb üks terminitest kuulutada põhiterminiks. Ka seda oleks tulevaste teisenduste seisukohalt hea teha atribuudiga, mitte eraldi väljale paigutamise teel.
Sellises, mõistelises terminibaasis käivad tähendusseoste viited arusaadavalt mõistete vahel. Mitte terminite vahel. Tähestikuliseks teisendamisel tuleb muidugi mõelda, kuidas niisuguseid viiteid esitada, kui üldse, aga see teema tuleb päevakorda palju hiljem. Lisaks tasub ehk mainida, et sünonüümiviidet sellises baasis põhimõtteliselt olla ei saa. Sünonüümid kas on ühes kirjes koos, või pole nad sünonüümid.
Kogu terminibaasis olevat infot ei pea kasutajale esitama. Suur hulk infot nt tähendusseoste või näiteallikate kohta on koostajale palju vajalikum kui kasutajale, st isegi kui jätta see kasutajale ilmutamata, siis jõuab see tegelikult ikkagi temani - ülejäänud andmete parema kvaliteedi kujul.
Terminibaasi andmemudeli koostamisel tuleb loomulikult järgida ka üldisi reegleid, nagu iga teisegi baasi puhul. Kõige sagedamini eksitakse granulaarsuse ehk atomaarsuse nõude vastu: ühele väljale ei sobi panna üle ühe andmeelemendi. Tüüpilised vead:
|
Viga |
Lahendus |
|
Kaks ühetüübilist andmeelementi ühel väljal koos, näiteks kaks terminit komaga eraldatult |
Terminiväli korduvaks või eraldi tabelisse ja iga termin oma väljale |
|
Kaks eritüübilist andmeelementi ühel väljal koos, näiteks termin ja tema grammatiline sugu või termin ja definitsioon |
Igale andmetüübile oma väli, vajadusel teatmetabeliga |
|
Üht välja kasutatakse mitut tüüpi andmete esitamiseks, näiteks väli "grammatika" ja sellel segamini sugu, hääldus, ebareeglipärane mitmus jne |
Igale andmetüübile oma väli, vajadusel igale oma teatmetabel |
Väike baas püsib elus ka selliste vigadega; veidi suurem (mõni tuhat kirjet) enam mitte. Eriti oluline on granulaarsus terminiväljal. Selle puudumine teeb võimatuks:
sortimise sellise veaga veergude järgi,
põhimõttelised erinevused terminibaasi ja sõnastiku (ehk terminograafia ja leksikograafia) vahel andmemudeli seisukohalt:
|
|
Terminibaas |
Sõnastik |
|
Käsitleb |
mõistet ja selle tähistamise viise |
sõna ja selle tähendusi |
|
Ühes kirjes (artiklis) on |
ühe tähendusega sõnad |
ühe kirjapildiga sõnad |
|
Annab infot |
maailma kohta (defineerib mõistet) |
keele kohta (defineerib sõna) |
|
Keeled on |
baasi seisukohalt omavahel võrdsed |
jaotatud lähtekeeleks ja sihtkeelteks |
|
Sama hea sõnastiku saamiseks vastupidises keelesuunas tuleb |
esitada baasile uus päring |
sisuliselt koostada uus sõnastik |
|
Kirjete järjestus |
ei puutu asjasse (järjestus määratakse päringuga) |
enamasti tähestikuline lähtekeele järgi |