Morfologia konputazionala 11
2 Morfologia konputazionala
2.1 Sarrera
Morfologiarako eredu konputazional desberdinen aurkezpena egitea eta horien barruan
bi mailatako morfologiarena kokatzea eta sakontzea da kapitulu honen xede nagusia.
Hala ere, formalismo morfologikoak aztertu baino lehen, hauek ezagutzen lagunduko
diguten zenbait funtsezko ezaugarri aurkezten dira hasteko. Ezaugarri horietan
oinarrituz sailkapen bat proposatzen da, klasifikazio honen barruan literaturan agertzen
diren zenbait sistema kokatuz. Sistema hauetako batzuen nondik norakoak ere azaltzen
dira.
Dena den, hasi aurretik ikus dezagun zein den gure helburua: hizkuntza baterako
analizatzaile morfologiko bat eraikitzea. Zer egin beharko luke tresna edo programa
horrek? Minimoa, morfemen banaketa litzateke.
2.1 adibidea: banaketa morfologikoa
"handien" sakatzen baldin badugu, emaitza hau lortzea:
handi+en
Aurreko horri banaketa morfologikoa esaten zaio, baina batzuetan ez da nahiko. Hori
baino gehiago eska daiteke, morfema bakoitzari dagokion informazioa jartzea ez
baitirudi hain zaila denik.
2.2 adibidea: analisi morfologikoa
"handien" sakatuta hau litzateke emaitza oraingoan:
handi[ADJ]+[GRA][SUP]
handi[ADJ]+[GEN][MP]
horrela irakurriko genuke: handienaren lema handi da, baina bi analisi posible ditu: graduatzaile
superlatiboa edo genitibo mugatu plurala.
Programari, analizatzaile deitu beharrean, prozesadore morfologikoa deitzen zaio
batzuetan, analisia egiteaz gain sorkuntza egiteko ere gai delako.
2.3 adibidea: sorkuntza morfologikoa
Sarrera hau emanda:
handi[ADJ]+[GRA][SUP]
Emaitzak handien izan beharko luke.
Dena den, sistema batzuetan, Unix/Linuxeko ispell programa hedatuan esaterako,
stemming izeneko prozesu sasilinguistikoa burutzen da, bere bitartez, hitz bat eman eta
12 Morfologia konputazionala
dagokion lema edo erroa lortuz. Sasilinguistikoa esatean hau da adierazi nahi dena:
lema lortzeko prozesua ez ohi da oso zehatza, eta erroreak edo desbiderapenak onartzen
dira, konputazionalki oso metodo sinpleak erabiltzen baitira: lema eta atzizkien
kateaketa zein salbuespenen zerrenda bat gutxi gorabehera.
Zenbait autorek stemming eta lematizazioa nahasten badute ere, lematizazioa harantzago
doan prozesua da, desanbiguazioa ezinbesteko urratsa du-eta.
Morfologia konputazionala fonologia konputazionalarekin oso lotua dago, eta aztertuko
diren formalismo asko bietarako sortu dira. Horrela, fonologiako analizatzaileak
fonemetatik lexikorako bihurketa egingo luke, eta sorkuntzak morfema-katetik
fonemetara. Tartean egin liteke sistema bat hitzen eta fonemen arteko jauzia emateko.
Hala eta guztiz ere, adibideetan testu-hitzetan agertzen diren fenomenoekin arituko gara
batez ere, ikuspuntu morfologikoa areagotuz.
2.2 Oinarrizko kontzeptuak
Morfologia teorikoan sakontzeko batere asmorik gabe, ondoren azalduko diren eredu
konputazionalak alderatu eta sailkatu ahal izateko, beharrezkoa da morfologiaren
kontzeptu orokorrak gainbegiratzea.
Gai honetarako funtsezkoa den liburuan (Sproat, 1992:17) egiten diren galderak izan
daitezke kontzeptu horiek azaltzeko iturburu:
"In particular, I shall discuss the following issues:
What sort of things can morphology mark in different languages?
How are words built up from smaller meaningful units-morphemes? ...
What are the constraints on the order of morphemes within words?
Do phonological rules complicate the problem of morphological analysis?"
Galdera hauei erantzutean, konputazio-ereduei lotutako morfologiaren kontzeptu
garrantzitsuenak ondorioztatzen dira:
· Funtzioei begira, hiru kontzeptu1 azaltzen dira nagusiki: flexio-morfologia,
eratorpen-morfologia eta elkarketa. Flexioa sintaxiak eskatua da, erregularra da
kategoriaren arabera, eta ez du funtzio sintaktikoa aldatzen. Eratorpena, aldiz, ez
da, oro har, sintaxiak eragindakoa, ez da erregularra eta kategoria gramatikalaren
aldaketa ekarri ohi du. Elkarketa lema bat baino gehiago biltzean sortzen da eta,
Morfologia konputazionala 13
maiz testu-hitzaren muga gainditzen duenez, bere tratamendua aurreko biena
baino korapilatsuagoa da. Eratorpena eta elkarketa askotan saihesten dira
morfologia konputazionalean, duten erregulartasun-faltagatik ez baita erraza
erabakitzea konbinatu beharreko lemak/morfemak zeintzuk diren2.
· Osagaien arteko loturak bideratzeko murriztapenak, askotan morfotaktika eta
hitzaren gramatika deritzana. Inguruko morfemen funtzioa izatea da arruntena,
gehienetan lemei aurrizkiak eta atzizkiak eransten zaizkielako, nahiz eta
hizkuntzen arabera erregulartasun- eta hurbiltasun-gradu oso desberdinak
aurkitu, baita artizkiak ere.
Morfemen kateatze sinplea arruntena bada ere, badaude formalismo
ahaltsuagoak eskatzen dituzten fenomenoak, erro-patroietan oinarritutako
fenomenoak, adibidez, hizkuntza semitikoetan gertatzen direnak.
Konplexutasunaren aldetik tartean egongo liratekeen beste fenomenoak ere aipa
daitezke: artizkien bidezko lotura, morfema-bikoizketa, etab.
Inguruko hizkuntzetan ere, kateatze hutsa ez-osoa dela azaltzeko urruneko
mendekotasuna izeneko fenomenoa dugu, morfema ez-jarraituen arteko
baldintzak gerta baitaitezke. Adibidez, ingelesez en, joy eta able morfemak
elkarren segidan joan badaitezke ere, joy eta able bakarrik ezin dira lotu
(*joyable ezin da erabili ingelesez). Alegia, en-ek able-en erabilera baldintzatzen
du, edo, beste era batera esanda, en eta able-ren artean urruneko mendekotasuna
dago. Euskaraz ere antzera gertatzen da bait- aurrizkia, aditz jokatua eta -lako
atzizkiaren artean. Aurrizkiaren atzean aditz jokatua joan daiteke (baikara), eta
aditz jokatuaren atzetik atzizkia (garelako), baina inola ere ez hirurak batera
(*baikarelako).
· Aldaketa fonologikoak: morfemak biltzean gertatzen diren aldaketak dira.
Fonologiak zuzenean eragindakoak izan daitezke batzuetan (suomieraz,
adibidez), ortografiak berak ere eragin ditzake (ingelesez, esaterako), eta
morfologikoak ere aurki ditzakegu (euskaraz, zenbait kasutan); horrexegatik,
morfofonologikoak ere deituko dira txostenean, bibliografian aurreko izenez gain
morfografemika ere agertu arren. Aldaketa hauen kopurua eta horiek gertatzeko
1 Morfologia teorikoan banaketa bitarikoa bada ere: flexio-morfologia vs. morfologia lexikoa. Hain zuzen, azken
honetan biltzen dira eratorpena eta hitz-elkarketa.
2 Hizkuntzalaritza teorikoan ere, garai batean morfologia lexikoa lexikoaren ataltzat hartua izan zen.
14 Morfologia konputazionala
baldintzak arras desberdinak dira hizkuntza desberdinen arabera. 3.3.8 atalean
hizkuntza desberdinetan agertzen diren hainbat fenomeno azaltzen dira.
Fenomeno honen aurrean, analisi morfologikoa egiterakoan, sistema batzuetan
alomorfoak erabiltzen dira, hau da, morfema bera adierazteko forma bat baino
gehiago zehazten dira lexikoan. Aldaketa fonologiko konplexuaren adibide gisa,
hizkuntza batzuetan gertatzen den bokal-harmoniaren fenomenoa dugu: puntu
batean gertatzen den bokal baten aldaketak ondoko edo aurreko bokal guztien
aldaketa ere eragin dezake. Kasu gehienetan, baina, aldaketa horiek lokalak dira,
morfema-mugan gertatzen dira-eta.
2.3 Aplikazioak
Hizkuntza-teknologiako sistemetan, morfologia, sintaxia eta semantika dira garrantzi
handieneko lanbideak; zuzenean aplikazio komertzializagarriak ez izan arren, tresna
komertzial gehienen funtsa baitira. Morfologia da lehen urratsa, ondoren sintaxia, eta
semantika azkena.
IRAGAZLEA
LEXIKOA
+
EZAGUTZA
LINGUISTIKOA.
ANALIZATZAILE
MORFOLOGIKOA
(ERRORE
ORTOGRAFIKO ETA
TIPOGRAFIKOEN
TRATAMENDUA)
LEMATIZATZAILE/
ETIKETATZAILEA
Testuinguruari
buruzko
ezagutza
Hitza
Testua
Testu
analizatua
Hitz
zuzendua
Testu
etiketatua
Analisi
sintaktikoa
Bestelako
aplikazioak
ZUZENTZAILEA
Hizkuntz
irakaskutza
(ortografia eta
morfologia)
Corpusetan oinarrituz
Lortutako
informazioa
1. irudia.- Analizatzaile morfologiko baten zenbait erabilera
Morfologia konputazionala 15
Morfologiaren eta sintaxiaren artean tagging edo etiketatze izeneko prozesua burutu ohi
da, forma bakoitzari dagokion informazio guztia esleituz; ondoren, testuinguruaren
informazioan oinarrituta, hitz bakoitzari analisi egoki bakarra utziko zaio. Analisien
artean bat hautatzeko prozedurari desanbiguazio morfologikoa esaten zaio.
Morfologian oinarritutako produktuak aipatzean, hauek azpimarra daitezke:
· zuzentzaile ortografikoak: nahiz eta merkatuko gehienak hitz-zerrendetan
oinarritu, flexio handiko hizkuntzetan irtenbide hau ez da bideragarria.
Halakoetan, hitz bat onartzeko ala baztertzeko, hitzaren analisi morfologikoa
buru daiteke, eta analisirik ez duenean desegokitzat jo. Gain-analisia (ikus
ondoko atala) ekiditea ezinbesteko da aplikazio honetarako.
· datu-base dokumentaletan edo Internet/Intranet bilatzaileetan erabiltzen diren
lematizatzaileak. Bilaketetan lemak erabiltzeak sistema erosoago eta ahaltsuago
egiten du.
· hiztegiak eta corpusak kontsultatzeko ere analisi zein sorkuntza morfologikoa
oso praktikoa da: hiztegian lemak baino ez daudenez, bilatu aurretik analisi
morfologikoa behar baita. Hiztegia kontsultatu ondoren sorkuntza morfologikoa
egiten bada, ordainarekin hasierako formaren baliokidea lortuko da (sinonimoen
hiztegia, esaterako).
· bestelako aplikazioak. Morfologia ez da nahiko izango beste aplikazio
batzuetarako, baina bai ezinbesteko: hizketaren analisia eta sintesia, lengoaia
naturalaren bidezko interfazeak, testuen sorrera eta ulermena, ordenagailu
bidezko hizkuntza-irakaskuntza, itzultzaile automatikoak edo erdiautomatikoak,
etab.
1. irudian zenbait aplikazioren eskema ikus daiteke.
2.4 Morfologiarako eredu konputazionalen
ezaugarriak
Ingelesaren flexio-morfologia sinplea3 dela-eta, tradizioan ez zaio kasu handirik egin
ordenagailuz landutako analisi/sintesi morfologikoari (Winograd, 1983). Programa eta
ezagutza linguistikoa nahasten zituzten sistema primitiboak ohikoak ziren duela gutxi
16 Morfologia konputazionala
arte. Azken urteetan, aldiz, arlo honetan egindako lanak ugaritu egin dira, beste
hizkuntzetarako sistema automatikoen garapenak indarra hartu baitu eta, horrez gain,
corpusetan oinarritutako analisiek erraztasun handiak ekarri baitituzte.
Gaur egun prozesadore4 morfologiko ugari aurki daiteke bibliografian, zein bere
ikuspuntu eta ezaugarriekin. Haien arteko konparaketa egin ahal izateko irizpide batzuk
zehaztu behar dira aurretik; horretarako, aurreko atalean azaldutako galderetatik
abiatuko gara, ondorio hauetara iristeko:
· Formalismo edo ereduaren deskribapen-ahalmena, hau da, zein fenomeno
adieraz edo analiza daiteke eredu hori erabiliz. Flexioa, eratorpena zein hitz-
elkarketa adierazteko gai izatea da egokiena. Era berean, irizpide honen barruan,
analisia eta sorkuntza burutzeko gaitasuna edo bietako bat bakarrik burutzekoa
bereiziko dugu.
· Morfologiari ekiteko modua. Teoria linguistikoek eraginda, bai eta hizkuntzaren
egiturak zein sistema eraikitzeko konputazio-ikuspegiak ere, bi eredu bereizten
dira: lexikoan oinarrituak batetik, eta paradigman oinarrituak bestetik. Lehena da
ohikoena eta aztertuko ditugun ereduak ildo horretatik doaz; hala ere, zenbait
lanetan (Calder, 1989; Anick & Artemieff, 1992) hiztegia bigarren mailan
geratzen da, eta paradigma da eraketaren funtsa. Azkenik stemmer-ak aipatu
behar dira, tresna hauetan atzizkiak baino ez baitira lantzen eta prozesuaren
funtsa hitzen bukaeran atzizkiak bilatzea baita.
· Morfotaktika ebazteko modua. Aurretik aipatu den bezala, morfemen arteko
lotura posibleak zehazteko moduarekin dago lotua. Morfemetan oinarritutako
sistemetan bi prozesaketa-mota agertzen dira nagusiki: egoera finituetako
morfotaktika deituko duguna eta baterakuntza-mekanismoetan oinarritutakoak.
Lehenengoetan morfemen arteko erlazioak grafo-eran ikus daitezke, nodoak
morfemak eta arkuak onartutako kateatzeak direla. Baterakuntza-mekanismoek
sintaxian erabili ohi diren ezaugarrietan oinarritutako gramatikak aintzakotzat
hartzen dituzte, eta, ondorioz, malguagoak dira, tratamendu morfologikoa --edo
morfosintaktikoa-- errazten dute, baina konplexuagoak dira konputazioaren
3 Ingelesaren morfologia sinpletzat hartu izan bada ere, hau guztiz zalantzazkoa da. Sproat-ek (1992:152-53)
azpimarratzen du, morfologia konplexua duten hizkuntzetan (suomiera edo turkiera, esaterako) konplexutasuna
luzeraren sinonimotzat hartu izan dela, erregulartasuna eta aldaketen kasuistika kontuan hartu gabe.
4 Analisi edo/eta sintesi morfologikoa burutzen duen programari prozesadore morfologiko deituko diogu.
Morfologia konputazionala 17
ikuspuntutik, eta, beraz, motelagoak abiaduraren aldetik. Azken hauek, eredu
paradigmatikotik egindako hurbilpenak dira askotan, objektuei zuzendutako
ereduetan ohiko diren herentzia bezalako kontzeptuak erabiltzen dituztenak (de
Smedt, 1984; Calder, 1989; Zajac, 1997).
· Aldaketa morfofonologikoak adierazteko modua. Bestelakoak badaude ere,
bibliografian bi metodo gailentzen dira: duela urte batzuk ohikoak ziren
programa bidezko metodo ad-hocak eta gaur egun arrakastatsu bihurtu den bi
mailatako formalismoa.
· Lexikoan gordetzen diren osagai-motak. Ohikoa da morfemak gordetzea,
sistema batzuetan erroak gordetzen ez badira ere; baina batzuetan hitz-zatiak
gordetzen dira, aldaketa morfofonologikoak adierazteko modurik ez dagoelako
edo eraginkortasunari eusteko. Adibidez, gaztelaniaz hacer aditzerako hac, hag,
hic, hiz eta hech alomorfoak diren hitz-zatiak erabiltzen dira sistema batzuetan.
Beste aukerak ere badira, silabekin lan egiten dutena, adibidez (Cahill, 1990).
Irizpide honen barruan kokatzen dira lexikoan batzuetan agertzen diren bi
fenomeno:
· alomorfoen erabilera, hau da, morfema bera adierazteko lexikoan forma
bat baino gehiago erabiltzea (adib. hau eta hon).
· morfemen desitxuratzea, morfema bere forma ezagunean edo kanonikoan
ez gordetzea, hain zuzen. Aipatuko diren diakritikoak dira honen adibide.
Eta euskararen kasuan, esaterako, r gogorra/biguna markatzeko erabil
liteke: ur ura-ren lema eta huR hurra-ren lema).
Beste irizpideak estaldura, doitasuna, gainsorkuntza eta eraginkortasuna lirateke. Dena
den, ez dira aintzakotzat hartu sistemen sailkapenerako, batzuetan inplementazioaren
araberakoak direlako, ez formalismoaren ezaugarri. Hala eta guztiz ere, haien
definizioak ematea argigarri izan daiteke:
· Estaldura (coverage ingelesez) deskribapen morfologiko baten zabalera
neurtzeko erabiltzen den ezaugarria da, eta doitasuna (precision) kalitatea
neurtzeko. Zenbat eta deskribapen zabalagoa, orduan eta estaldura handiagokoa
izango da, hitz gehiago analizatzeko edo sortzeko gai izango baita; hau da,
hizkuntzaren atal zabalagoa estaliko du. Hitz guztiak analizatzen badira, baina
analisi batzuk ez badira zuzenak doitasun falta egongo da. Estaldura neurtzeko
corpus handi bat hartu ohi da eta analizatutako hitzen ehunekoa kalkulatzen da.
18 Morfologia konputazionala
Doitasuna kalkulatzeko, analizatutako hitzak baino ez dira aztertzen, eta ondo
analizatutakoen portzentaia lortzen da. Morfologian doitasuna %99 baino
handiagoa lortu ohi da, baina estaldura hain handia izatea zaila da, eragozpen
batzuk baitaude tartean: aldaera dialektalak, maileguak, pertsona- zein toki-
izenak, laburdurak, etab.
· Gainsorkuntza da ekidin beharreko ezaugarri bat (analisiari bakarrik begiratzen
zaionean gain-analisia ere esaten zaio). Gainsorkuntza gertatzen da hizkuntzan
existitzen ez diren hitzak sortu edo analizatzen direnean. Adibidez, euskaraz
egin eta ten morfemak kateatzean egiten sortu behar da, baina sistema batean
gerta liteke egiten zein *eginten onartzea (analizatzea edota sortzea) eta kasu
horretan gainsorkuntza gertatuko litzateke. Deskribapen morfologiko sinpleetan
gainsorkuntza eragin ohi da, baina deskribapen zehatzetan hori ekiditea da
helburu nagusietako bat, batez ere sorkuntza egiteko erabiliko bada. Dena den,
morfologia lexikoan, hau da, eratorpenean eta elkarketan, oso zaila da
gainsorkuntza ekiditea, ez baita erregularra. Horrela, euskaraz aditzen
nominalizaziorako eratorpen atzizkiak asko dira (-keta, -zio, -pen, -dura, ...),
baina ez dira guztiak aditz guztiekin erabiltzen eta ez dago arrazoi linguistiko
argirik, ez sintaktikorik ez semantikorik, kasu batzuetan -keta edo besteetan -pen
erabiltzeko, erabilera ez bada.
· Eraginkortasuna abiaduraren sinonimotzat hartu ohi da, eta analizatutako hitzen
kopurua segundoko da ohiko neurria. Hasierako sistemek hitz gutxi batzuk
analizatzen zituzten segundoko, baina gaur egungoak denbora-tarte horretan
milaka hitz analizatzera irits daitezke.
2.5 Garapen historikoa eta zenbait sistema
Atal honetan bibliografiako zenbait prozesadore morfologiko aurkeztuko ditugu.
Aurkezpena ez da osoa, adibide adierazgarri batzuk besterik ez baitira azaltzen; hala ere,
sistema bakoitzarekin berarengandik gertu dauden beste batzuen bibliografiako
erreferentzia ematen da. Aurkezpenean jarraitzen den ordena kronologikoa da
(ordezkaria hautatzeko garaian behintzat, nahiz eta aldamenean antzeko adibide
berriagoak zehaztu), alde batetik kontzeptuen bilakaeraz konturatzeko, eta bestetik
ezaugarrien arabera aurkeztea nahiko konplexua gerta zitekeelako. Dena den, programa
Morfologia konputazionala 19
eta informazio linguistikoa nahasten dituzten sistemak baztertu ditugu hasieratik, eskala
handiko sistema bat egin nahi denean oso metodologia okerra delako.
2.5.1 DECOMP
Analizatzaile hau lehenengo analizatzaile morfologikoetako bat da, eta, ondoko
bertsioak izan baditu ere, 1960.eko hamarkadaren erdialdean garatu zen MITn5, MITalk
izeneko proiektuaren barruan (Allen eta beste, 1987). Hitz-zerrendak biltegiratzeko
zeuden arazoek zein sistemaren hedadura nahikoak bere garrantzia eduki bazuten ere,
analisi morfologikoa burutzeko izan zuten arrazoi nagusia ingelesez morfologiaren eta
hizketaren artean dagoen lotura izan zen. DECOMPen funtsezko ezaugarriak hauek
dira:
· Flexioa, eratorpena eta hitzaren mailako elkarketa hartzen ditu kontuan.
Analisirako tresna da eta ez du sorkuntzarako aplikaziorik.
· Egoera finituetako morfotaktika erabiltzen du, morfema-motetan oinarritua.
Morfotaktika definitzeko erregela sinple batzuk erabiltzen ditu.
· Aldaketa morfofonologikoak oso erregela sinpleen bidez deskribatzen ditu.
Aldaketa hauek morfemen artean gertatzera mugatuta daude, eta oso aldaketa
sinpleak adieraz daitezke. Morfema baten azken letraren aldaketa, ezabaketa edo
sorrera besterik ez da kontuan hartzen sistema honen erregeletan.
Morfemetan banatzeko erabiltzen den algoritmoak eskuinetik ezkerrera tratatzen du
hitza, errekurtsiboa da, eta anbiguotasuna ekiditeko morfotaktikari dagozkion egoera-
aldaketei pisu bat esleitzen die, analisi-eredu batzuk beste batzuei gailentzearren eta
analisia azkartzearren. Horrela scarcity-ren eratorpen gisako analisia "scarce+ity"
lortuko da eta ez "scar+cite+y" elkarketa. Emaitzen aldetik, analisietan %95eko
doitasuna lortzen dela diote, baina badirudi neurri hori beste moduluen lana kontuan
hartuz egiten dela.
Sistema hau aspaldikoa da, baina urteekin hobetu egin dute. Oso ezaugarri
interesgarriak ditu: morfotaktikaren tratamendu dotorea, desanbiguazio-mekanismoa eta
eraginkortasuna. Eragozpenak ere leporatu behar zaizkio: analisirako baino ez balio
izatea --bere aplikaziorako nahikoa bada ere-- eta aldaketa morfofonologikoen
ahalmen eskasa --ingelesaren tratamendurako nahikoa izan arren--. Azken arrazoi
5 MIT: Massachussets Institute of Technology.
20 Morfologia konputazionala
hauek direla-eta, ez da morfologiarako eredu orokorra, eta ez du jarraitzaile askorik
izan.
Espainierarako MARS (Meya, 1987) izeneko analizatzaile morfologikoak antz handia
du DECOMP sistemarekin, ezaugarri guztiak, analisia egin ahala burututako
desanbiguazioa barne, pareka baitaitezke: analisirako bakarrik balio izatea, egoera
finituetako morfotaktika, aldaketa morfofonologikoak oso erregela sinpleen bidez --
nahiz eta arlo honetan DECOMPekin desberdintasunak izan--, eta lexikoan morfemei
dagozkien erregelei buruzko informazioa ere gordetzea. Lexikoan alomorfoak erabiltzen
dira beren aldaketari dagokion erregela morfofonologikoa orokorra ez denean. MARS
(Morphological Analysis for Retrieval Support) datuak berreskuratzen laguntzeko
sistema baten barruan erabiltzen da.
2.5.2 ATEF
ATEF itzulpen automatikorako ingurune baten barruan dagoen analizatzaile
morfologikoa da. Ingurune hau GETA6 laborategian erabiltzen da (GETA, 1982), eta
1970.eko hamarkadaren bukaeran garatu zen. Ingurune horren barruan harreman estua
du ROBRA izeneko analizatzaile/sortzaile sintaktikoarekin. Hizkuntza askotarako
erabili izan da, frantsesa, alemana, errusiera eta Asiako ekialdeko zenbait
hizkuntzatarako analizatzaileak eraiki baitira. IXA taldeak prototipo bat burutu zuen
euskararako (Arregi & Urkia, 1989). ATEFen osagaiak hauek dira:
· Aldagaiak: analisi morfologikoaren emaitza den informazio morfologikoa
jasotzen duten aldagai sinbolikoak.
· Hiztegiak: morfemak biltzen dituzten azpilexikoak. Gehienez zazpi dira,
erregeletatik kudea daitezke, eta bertan datuok azaltzen dira: hitz-zatia, hau da,
aldatzen ez den morfemaren zatirik luzeena, dagokion formatua eta unitate
lexikoa --erro komuna duten hitz-zatiak biltzeko erabilia-- eta gainerako
informazio morfologikoa.
· Formatuak: hiztegiko unitate-multzo bati dagokion informazioa biltzen duen
eredua. Ohikoa da atzizki berdinak hartzen dituzten lexikoko unitateei formatu
bera egokitzea.
6 GETA: Groupe d'Etudes pour la Traduction Automatique (Grenoble, Frantzia).
Morfologia konputazionala 21
· Gramatika (erregelak): erregelen multzoa, hiztegietan aurkitutako hitz-zatiei
dagozkien formatuen arabera aktibatzen direnak eta, zenbait ekintza buru
daitezen eragiten dutenak. Berauetan bestelako baldintzak ere zehatz daitezke:
aldagaien gaineko eragiketak, hiztegien irekitzea edo ixtea, eta testu-aldaketa.
Programak etengabe bilatzen ditu hitz-zatiak hiztegietan, eta aurkitutakoei dagokien
informazioa aldagaiei esleitzeaz gain, berauen formatuen arabera aplikatzen ditu
erregelak.
Aipatutako osagaiekin, morfotaktikaren zein tratamendu morfosintaktikoaren
deskripzioa erraza eta malgua da, salbuespenak modu dotorean adieraztea bideratuz.
Aldaketa morfofonologikoen tratamendua, berriz, oso ahula da, horretarako
morfotaktika helburu duten erregelak erabili behar baitira. Hori dela eta, aldaketa
morfofonologiko sinpleak adierazteko ere, zenbait zeharkako bide erabili behar dira
beti.
Horrez gain, beste bi eragozpen ditu sistema honek:
· Programa ezagumendu linguistikotik bereiz badago ere, gramatikaren idazketa
ez da erazagutzailea, metahizkuntza agintzaile batetik gertu dagoen zerbait
baizik.
· Programa ez da eskuragarria eta bere zehaztasunak ez dira ezagunak; gainera,
garaiko IBM mainframe-etan baino ezin da erabili.
Martí-k (1987) espainierarako proposatutako AM analizatzaileak, lematizatzaile baten
parte denak, zenbait ezaugarri du komunean aurrekoarekin.
2.5.3 KIMMO
Aurretik ikusitako ereduak, morfotaktikaren aldetik nahiko ahaltsuak baziren ere,
aldaketa morfofonologikoetarako pobreak ziren. Horren arrazoia aplikazio-hizkuntzen
ezaugarrietan aurki daiteke, normalean oso flexio urri eta aldaketa erregular gutxi duten
ingelesa bezalako hizkuntzetarako egiten baitziren prozesadore morfologikoak.
Koskenniemik (1983) bere tesian eredu berri bat proposatu zuen, bi mailatako
morfologia deitutakoa, oso arrakastatsua izan dena: analisi zein sintesirako aldaketa
morfofonologikoak adierazteko formalismo ahaltsu, orokor eta eraginkorra7 da.
7 Ezaugarri hauen gainean ñabardurak egingo dira geroago.
22 Morfologia konputazionala
Suomierarako prestatu bazuen ere, berehala etorri zen KIMMO8 izeneko ingeleserako
bertsioa, Karttunen-ek (1983) egina. Aldaketa morfofonologikoak adierazteko egoera
finituetako automata itzultzaileetan konpilatzen diren bi mailatako erregela paraleloak
erabiltzen dira. Formalismo hau da euskararako oinarrizko tresnak diseinatzerakoan
IXA taldeak aukeratu duena ere.
Hala ere, KIMMO ez zen aldaketa morfofonologikoak deskribatzeko erregela orokorrak
diseinatu zituen lehena izan. Beste batzuen artean, aldaketa morfofonologikoak
adierazteko Kaplan-ek eta Kay-k (1981) automatatan konpilatzen ziren erregela
sekuentzialak erabiltzea proposatu zuten --Koskenniemirengan eragin handia izan
zuena--, nahiz tarteko egoerekin arazoak gertatzen ziren. Ondoren keçi izeneko
prozesadore morfologikoa egiterakoan Hankamer-ek (1986) sortu eta egiaztatu
filosofiarekin zebiltzan erregela sekuentzialak ere proposatu zituen.
Bi mailatako morfologiaren ezaugarriak zehatz-mehatz hurrengo atalean aztertuko
ditugun arren, formalismo guztien artean sailkapen bat egiteko ezinbestekoa da
ezaugarri hauek laburtzea:
· Analisi zein sintesirako baliagarria da. Kateatze mailako fenomenoak bakarrik
deskriba daitezke, baina, bi mailatako ideia n mailatara zabalduz, beste
fenomeno konplexuagoak --hizkuntza semitikoenak, adibidez-- ebatz daitezke
(Kay, 1987; Beesley, 1990; Kiraz, 1994).
· Azpilexikoetan oinarritutako morfotaktika. Morfema bakoitzari bere ondotik
etor daitezkeen morfemen multzoa definitzen duen jarraitze-klasea egokitzen
zaio. Hori dela eta, morfemen kateatze-sekuentzia bateko i-garren morfemak
(i+1)-garrena baino ezin du baldintzatu, urruneko mendekotasuna deituriko
fenomenoa deskribaezina bihurtuz. Beraz, mekanismoa oso sinplea da, baina
batzuetan ez da nahiko esanguratsua, eta horrexegatik proposatu dira aldaketak
arlo honetan.
· Aldaketa morfofonologikoak. Gorago aipatu den bezala, sistemaren atalik
berritzaileena da hau, egoera finituetako automaten ideia modu arrakastatsuan
erabiltzen duelako xede honetarako.
8 KIMMO izenarekin Koskenniemik proposatutako bi mailatako morfologian oinarritutako prozesadore
morfologiko guztiak izendatuko ditugu.
Morfologia konputazionala 23
· Lexikoan morfemak gordetzen dira eta, beharrezkoa ez bada ere, alomorfoak
erabiltzea ez du baztertzen Koskenniemik. Morfema desitxuratu, baina erregelen
aplikazioa kontrolatzen duten diakritikoak (berak hautapen-markak deitzen
dituenak) erabili ohi dira.
Formalismo honen arrakasta izugarria izan da. Cahill-ek (1989) horrela zioen:
"The field of computational morphology was revolutionized by the work of Kimmo
Koskenniemi, whose two-level model of morphonology has been used for the description of
several languages, including English, French, Finnish and Japanese."
Literaturan gehiago aurkitzea erraza bada ere, hona eredu honetaz ari diren erreferentzia
garrantzitsu batzuk:
· Hobekuntzak: Karttunen eta beste, 1987; Kay, 1987; Ritchie eta beste, 1987;
Bear, 1988; Trost, 1990; Karttunen eta beste, 1992; Karttunen, 1993.
· Inplementazioak (aldaketa handirik proposatu gabe): Karttunen & Wittenburg,
1983; Karlsson, 1992; Clemenceau & Roche, 1993; Oflazer, 1994; Kim eta
beste, 1994; Kiraz, 1994; Alegria eta beste, 1996; Sánchez León, 1997.
· Banaketa libreko tresnak: PC-KIMMO (Antworth, 1990; Karp eta beste, 1992).
Gaur egun, bi enpresa gutxienez formalismo hau erabiltzen ari dira produktu
komertzialak lortzeko: Xerox/Inxight eta Lingsoft. Azken hau, 1994an alemana
analizatzen sistema onena hautatzeko Morpholympics izeneko lehiaketan izan zen
irabazle.
2.5.4 Samba
Samba Nuevo Mexico Estatuko unibertsitatean garatutako tresna da, morfologiari aurre
egiteko baterakuntza eta egoera finituetatako erregelak modu erazagutzailean
konbinatzen dituena (Zajac, 1998). Horrela, bi mailatako morfologian baino
morfotaktikaren egitura konplexuagoak defini daitezke.
Morfotaktikaren eredua zeharo aldatzea proposaturik zegoen lehendik, bi mailatako
morfologiaren jatorrizkoa oso pobrea delako. Proposamen ezagunenak Bear-ek (1986),
Trost-ek (1990, 1994), eta Alvey-n (Ritchie eta beste, 1992) azaldutakoak dira.
Hiruretan baterakuntza-mekanismoak proposatzen dira. Bear PATR formalismoan
24 Morfologia konputazionala
oinarritzen den bitartean, Ritchie-ren taldean GPSG9 aukeratu zuten. Alvey-ren kasuan,
baterakuntzak morfotaktika burutzea baino helburu zabalagoa du, eratorpenak sortutako
kategoria-aldaketa zein elkarketen eta informazio morfosintaktikoaren tratamendua
bideratzen baitu10 --aipatutako liburuaren (Ritchie eta beste, 1992) hirugarren,
laugarren eta bosgarren kapituluak oso gomendagarriak dira--.
Hala eta guztiz ere, Zajac-en proposamena harantzago doa, morfologia zehazteko
orduan mota desberdinetako deskribapenak egin daitezkeelako, bakoitza bere aldetik
edo modu konbinatuan, aurretik Calder-ek (1988) eta beste batzuk proposatutako eredu
paradigmatikoa ere integratuz:
· Hizkien konbinaketa espresio erregularrak erabiliz. Hizkiak ezaugarri-egituren
bitartez aberastu daitezke propietate morfologikoak zehaztu ahal izateko.
· Morfologia paradigmatikoa erregela-taulak erabiliz, eta herentzia-hierarkian
antolatuta.
· Hizkien eransketa (agglutination) aurrizki, atzizki eta erregelen bitartez.
· Morfotaktika konplexua erregelen espresio erregularren bitartez.
Erregelak egoera finituetatako itzultzaileetan konpilatzen dira, baina 3. atalean azalduko
diren itzultzaileekin desberdintasun azpimarragarri bat dago: horietan bi mailetan
zehazten diren elementuak karaktereak diren bitartean, honetan karaktereak eta
ezaugarri-egiturak konbinatzen dira.
Sistema konplexu honen bitartez, hizkuntza askoren deskribapena bideratzeko
plataforma bat garatu nahi izan dute, sistema oraindik garatze bidean bada ere.
2.6 Sailkapena
Aurreko adibideak aztertu ondoren, 2. irudian ikus daitekeen sailkapena proposa
dezakegu.
Sailkapen honetan sartzeko, sistemek ezaugarri hauek bete behar dituzte: morfemez
osatutako lexikotan oinarriturik egon eta kateatze-mailako fenomeno morfologikoak
deskribatu. Halako sistemetarako eskema orokorra da morfotaktika eta morfofonologia
9 Formalismo hauek ez ditugu azalduko, sintaxiaren gaitzat hartu izan baitira, eta gure aplikazioan ez baitira
erabili. Hala ere, honetan sakontzeko liburu hau gomendatzen dugu: Shieber S.M. An introduction to
unification-based approaches to grammar. CSLI Lecture Notes 4. Chicago U. Press. 1986.
Morfologia konputazionala 25
bereiztea, eta kasu berriak aztertu ahala egunera liteke irudia. Beste batzuek aipatzen
duten bezala (Ritchie eta beste, 1992), beste ereduekin konparazio zehatzak egitea oso
zaila da eta, horrexegatik, horiek iruditik kanpo gelditzen dira.
ezer ez
(hitz-zatiak)
ad-hoc erregela
sinpleak
erregela
sekuentzial
orokorrak
erregela
paralelo
orokorrak
bestelakoak
zeharo
lineala
(i ->i+1)
egoera
finituetakoa
batera-
kuntza
bestelakoa
morfotaktika
morfofonologia
KIMMO
Alvey
AM
ATEF
DECOMP
MARS
Kaplan &
Kay 1981
Trost, 90
AT&T
espainiera
Ezaugarri morfologikoek
erregelak baldintzatzen dituzte
Ezaugarri morfologikoek
baldintzaten dute morfotaktika
2. irudia.- Azaldutako prozesadore morfologikoen sailkapena
2.7 Laburpena
Morfologia konputazionalaren oinarriak eta aplikazioak aztertu ondoren, ohiko sistemen
ezaugarri garrantzitsuenak deskribatu dira kapitulu honetan. Horretan oinarrituta,
garapen historikoa eta zenbait sistemaren oinarrizko propietateak azpimarratu dira eta
sailkapen bat proposatu.
Dena den, azken urteetan arrakasta handiena izan duen proposamena bi mailatako
morfologiarena izan da, zalantzarik gabe, KIMMO izenarekin deskribatu dena. Horretan
oinarritu dira bibliografiako sistema gehienak, batez ere morfologia aberatsa duten
hizkuntzak aztergai izan dituztenak. Horregatik, proposamen hori aztertuko da hurrengo
kapituluan.
10 Tratamendu honi morfosintaktikoa deituko diogu. Ez da harritzekoa kasu honetan, halako tratamendua
burutzean, hitzaren gramatika terminoa erabiltzea eta ez morfotaktika.Morfologia konputazionala