Hizkuntzalaritza Konputazionala 11
1 Sarrera
Liburu honek hizkuntza-teknologiako gaien sarrera izatea du helburu, alorrari ikuspegi orokorra emanez.
Motibazio nagusia hau da: alor honek bere baitan dituen bi diziplinen --hizkuntzalaritzaren eta
teknologiaren-- arteko loturen berri ematea eta lotura horiek egiteak dakarren konplexutasuna agerian
jartzea. Hori dela-eta, bi diziplinak uztartzeko bi alorretako ikertzaileen elkarlana ezinbestekoa dela
erakutsiko dugu. Bakoitzaren materialak, jakinduria eta eskarmentua elkartuz, diziplina arteko arlo honek
hizkuntzaren azterketa-bideetan aurrera egingo du.
Liburu honen izenburuan Hizkuntzalaritza Konputazionala terminoa erabili da, egileon ustez adar hauxe
baita Hizkuntzari eta Teknologiari, biei, garrantzia emanez, uztarketa-lana egokien bideratzen duena.
Ordenagailuak hizkuntza uler dezan beharrezkoa duen ezagutza formalizatzea da bilatzen dena. Liburu
honetan, hortaz, ezagutza mota horiek zeintzuk diren eta nola formalizatu diren edo behar diren
aztertzen da.
Hizkuntza-ezagutza ikuspegi konputazionaletik formalizatzea, ordea, ez da zeregin erraza. Bost urteko
edozein ume hitz egiten eta ulertzen ondo moldatzen denez, hizkuntza erabiltzea lan erraza dela
pentsatzen dugu, baina hori ez da horrela. Hizkuntza sortzea eta ulertzea oso prozesu konplexuak dira, eta
gaur egungo ordenagailuak urrun ikusten ditu giza adimenaren ahalmen linguistiko orokorrak. Baina
horrek ez du esan nahi hizkuntza lantzeko tresna automatikoak utopia direnik, hizkuntzaren oinarrizko
ezagutza minimo batekin laguntza interesgarriak eskain daitezkeelako. Helburu horretan, testuaren
zailtasun mailaren arabera emaitzak asko alda daitezke. Horrela, emaitza probetxugarriak lortzeko,
ordenagailuaren lana aztergai espezifiko eta mugatu batean kokatu behar da. Etorkizunean, hala ere,
aplikazio mugatuko sistemak bilduz, lor litezke ahalmen handiagoko sistema berriak, baina egun ibili
dabiltzan aplikazioek helburu espezifikoak dituzte.
Hizkuntza ulertzeko, aztertzeko eta azaltzeko saioan, hizkuntzalaritza orokorrean eta konputazionalean
erabiltzen diren ereduak ez dira berdinak izan, ezin berdinak izan ezinbestean. Konputagailuak hizkuntza
prozesatze aldera, konputagailuari lagungarri gerta ahal zaizkion eredu aplikatuak egiten dira batik bat.
Horrek hizkuntzaren formalizazio zorrotza eskatzen du. Izan ere, ikerketak erakutsi du hizkuntzalaritza
orokorrean erabiltzen diren ereduak, bere horretan ezin egokitu zaizkiola zehatz-mehatz ordenagailuari.
Horregatik, hizkuntzalaritza konputazionalak bere ereduak sortu edota egokitu behar izan ditu,
ordenagailuarentzat egokiagoak izateko. Horregatik, hizkuntzalaritza konputazionalak ere,
konputazionalki tratatu ahal izango diren eredu teoriko batzuk aukeratzen ditu, eta hortik aplikazioak
ateratzen ditu. Ondorioz, hizkuntzalaritza konputazionalak bi alderdi ditu: teorikoa --hizkuntza tratatzeko
ereduak-- eta praktikoa --aplikazioak, helburu konkretuei begirakoa--.
Bestalde, alde aplikatutik zein teorikotik hizkuntzaren azterketari ekiterakoan, anbiguotasuna da arazo
nagusietako bat.
Hizkuntzalaritza Konputazionala 12
Anbiguotasuna hizkuntzaren maila guztietan badago ere, hizkuntzalaritza orokorrean eta
konputazionalean anbiguotasunaren kontzeptua ez da berdin erabili. Horrela, ikuspegi konputazionalean
anbiguotasun lexikoa ebaztea oso garrantzizkoa da (morfologikoa lehenengotik eta semantikoa gero);
aldiz, teorikoarentzat ez da horren premiazkoa. Zergatik da horren garrantzitsua konputazionalarentzat
maila hori? Lehenik eta behin, hitz batek bere testuinguru guztietan izan ditzakeen interpretazioak
zehaztu behar dira. Esaterako, zituen hitza aditz laguntzailea da Liburuak ekarri zituen moduko
testuinguru batean, baina baita zitu izenaren (`fruitu, emaitza') genitibo plurala ere, Zituen artean bada
desberdintasunik moduko testuinguruetan. Ondorioz, dagokion interpretazioa aukeratzeko, lehenik eta
behin intrepretazio horrek egon egon behar du. Behin interpretazio guztiak edukita, testuinguruari
dagokiona aukeratu behar da. Hots, hitz hori desanbiguatu beharra dago, hurrengo analisi sintaktikoak
taxuz egin nahi baditugu. Azken finean, aurrena analizatzaile morfologikoari hitz bat analizatzeko
beharrezko informazioa ematen zaio, eta ondoren, horixe bera bueltan etortzen da, dagokiona
aukeratzeko. Horregatik, askotan, hitz baten analisi morfologikoan imajinatu ezinezko sorkuntzak
proposatzen dira (lehen kolpean, zitu + en bera izan daiteke horrelako bat), baina testuinguru jakinen
batean behintzat zilegi dela pentsatu behar da. Eta hori ere hizkuntza lantzea da; hizkuntzak eskaintzen
dituen aukeren jabe egitea. Ideia hau giltzarria da hizkuntzalaritza konputazionalean.
Hala, anbiguotasun morfologikoaren (lexikala, hitzarena) azterketa eta desanbiguazioa, lan
morfologikoen azken urratsa da eta era berean sintaktikoen lehenengoa. Analisi sintaktikoari ekiterakoan
hori da konponduta egon behar duen lehenengo gauza.
Analisi sintaktikoak edo estrukturalak, semantikoak eta pragmatikoak izaten dira hizkuntzalari teorikoen
buruhausteak, eta esango genuke maila sintaktikoan hasten dela anbiguotasuna haientzat.
Konputazionalean ere, noski, eta anbiguotasun mota guztiak korapilatsuak badira konpontzeko, zailtasun
maila in crescendo doa mailaz maila, baina lexikotik eta morfologikotik hasita.
Zer gertatzen da euskaraz eta euskararentzat egiten den hizkuntzalaritza konputazionalarekin? Faktore
asko dago euskararen azterketa konputazionala bereizi egiten dutenak inguruko hizkuntzen azterketatik.
· Alde batetik, euskara hizkuntza minorizatua izanik, azterketotarako behar izaten diren oinarrien
falta sumatzen da, corpusena, esate baterako. Azken finean, merkatu-interes kontuengatik garatu
dira horrenbeste ingelesarentzako errekurtsoak, eta minorizatua izateagatik edo ezagutza ofizial
ezarengatik merkatu-interes falta nabaritu dute euskara bezalako hizkuntzek.
· Bestetik, estandarizazio berantiarrak ere normalizazio-prozesua motelagoa izatea ekarri du, eta
horrek ikerketa guztiak beste hizkuntzetan baino beranduago gertatzea ekarri du. Ingelesaren
gainean 60-70eko hamarkadetan hasi ziren inguruko lanak, 80ko hamarkadan parsing-ari
buruzkoak. Espainolari buruzko lanak 80koan eta euskarazkoak 80koaren bukaeran-90ekoan.
· Bi puntu hauei hizkuntza-tipoarena gehitu behar zaie. Horrela, euskara, familia indoeuroparretik
kanpo kokatzen denez, ezaugarri asko eta asko ez ditu inguruko hizkuntzekin konpartitzen.
Horrek esan nahi du hizkuntza horietarako erabiltzen diren hainbat eredu formal eta irtenbide
ezin zaizkiola zuzenean euskarari aplikatu.
Hizkuntzalaritza Konputazionala 13
Hala ere, azken 10-15 urteotako lanarekin alor honetan iritsi dugun maila altua da dudarik gabe. "Berandu
baina seguru" horixe esan daiteke: 10-15 urteotan izugarrizko lana egin da eta beste hizkuntzetan egiten
diren lanokin konparatuta, batere inbidiarik gabe ibiltzeko moduan gaude... baina oraindik ingelesarekiko
alde handia dago, batez ere baliabideen inguruan.
Motibazioa aztertuta, liburuaren helburuak, laburki, honela zehatz ditzakegu:
· Hizkuntzalaritza konputazionalaren nondik norakoen berri ematea eta zer den ulertaraztea.
· Alor honen barruan sortu diren zenbait oinarrizko kontzeptu eta behar diren ezagutza motak azaltzea.
· Alor honetatik sortzen diren produktuen berri ematea.
· Ikuspegi orokorra zein euskarari loturikoa ematea.
Azpimarratu behar da, hemen ematen dugun informazioa lan-alorraren ikuspegi orokorra izateko
baliagarria den arren, liburua argitaratu eta zenbait urtetara zaharkitua geratuko dela hein batean, batez
ere, ematen diren web guneei dagokienez, eta azaldu ditugun oinarri eta tresnen garapenari dagokionez.
Nolanahi ere, aspalditik zegoen hutsunea betetzera datorrela uste dugu.
1.1 Oinarrizko kontzeptuak
Esan dugun bezala, hizkuntza-teknologietan bi motibazio nagusi biltzen dira: teknologikoa eta
linguistikoa. Motibazio teknologikoari dagokionez, helburua konputazio-sistema adimentsuak garatzea
da, hala nola, datu-baseei hizkuntza naturalez galdetzeko interfazeak, itzulpen automatikorako sistemak,
testuen analisirako tresnak, hizketaren tratamendurakoak, etab. Motibazio linguistikoari dagokionez,
berriz, alderdi linguistikoari erreparatzen zaio, eta bereziki, hizkuntzaren modelizazioa lantzen da.
Hizkuntza-teknologiak termino honen baitan, beraz, hizkuntzalaritza teorikoa eta praktikoa, informatika
eta adimen artifiziala biltzen direla esan genezake, edo, bestela esanda, alde teorikoa eta ingeniaritzari
dagokiona ere bai.
Ondoren, diziplina bera izendatzeko erabiltzen diren terminoak zehaztuko ditugu.
1.1.1 IL, HK eta LNP
Alderdi teorikoa eta teknologikoa kontuan harturik, hizkuntzaren teknologiaz hitz egiten denean, honako
termino hauek azaltzen zaizkigu: ingeniaritza linguistikoa, hizkuntzalaritza konputazionala eta
lengoaia naturalaren prozesamendua. Esan dezagun, hala ere, gure asmoa hurbilpen horiek bereiztea
bada ere, askotan, arlo hauetan ibiltzen direnek ere zenbait testuingurutan bata zein bestea sinonimo gisa
erabiltzen dituztela. Kontzeptu horien arteko mugak lausoak dira. Beraz guk emango ditugun ñabardurak
modu malguan hartu behar dira.
Bestalde, termino horien baitan, lantzen denari erreparatuz gero, denek dute helburu nagusi bera:
ordenagailuaz baliatuz hizkuntza tratatzea. Kontua da, hizkuntza tratatzerakoan nagusitzen den
ikusmoldearen arabera desberdintzen direla:
· Ingeniaritza linguistikoa (IL)/(Language Engineering, LE). Hizkuntzari buruzko ezagutza batez ere
aplikazioetara eta produktu komertzialetara zuzenduta dago. Hizkuntza ezagutzeko, ulertzeko,
Hizkuntzalaritza Konputazionala 14
interpretatzeko eta sortzeko gai diren sistema informatikoak garatzea du jomuga. Honi hizkuntza-
teknologia ere (Human Language Technology, HLT) esaten zaio.
· Hizkuntzalaritza konputazionala (HK)/(Computational Linguistics, CL). Ikuspegi abstraktuago
batetik ekiten dio hizkuntzaren modelizazioari ordenagailuek hizkuntza uler dezaten. Hau da,
hizkuntza formalizatzen dute ordenagailuek ulertu ahal izateko moduan.
· Lengoaia Naturalaren Prozesamendua (LNP)/(Natural Language Processing, NLP). Hizkuntzaren
tratamendu automatikoaren inguruko ikerrarloari Lengoaia Naturalaren Prozesamendua (LNP) esaten
zaio, eta, batez ere, erabiliko diren teknika informatikoei erreparatzen die: ezagutza linguistikoa nola
adierazi konputagailuan, nola erabili ezagutza hori (algoritmoak, estrategiak, inferentziak sortzeko
metodoak, etab.), nola uztartu programetan ezagutza linguistikoa eta hizketa-gaiari dagokion
ezagutza, nola banatu tratamendu linguistiko osoa modulu sinpleago eta independentetan horietako
bakoitza egingarriagoa izan dadin...
Bereizi behar izatekotan zer bereizi beharko litzatekeen irudikatu dugu, eta ez hitz horien aipamen guztiak
modu ziurrean bereizteko araua.
Beste alde batetik, hizkuntzaren tratamendu automatikoaren barruan badira beste bi kontzeptu, bereizi
izan direnak: hizkuntza idatziaren eta hizkuntza mintzatuaren tratamenduak. Azken horren azterketa
konputazionalari erreferentzia egiteko hizketaren tratamendua terminoa erabili ohi da. Horregatik,
hizkuntzaren tratamendua terminoa, arrunki, hizkuntza idatzizkoarekin lotu ohi da. Bereizketa hori
gertatu izan da urtetan arlo diferenteak izan direlako, problematika eta metodologia oso bestelakoak
erabili dituztelako. Baina mende bukaeratik aurrera atal bi horiek gero eta modu koordinatuagoan lantzen
ari dira. Egun, askoz harreman handiagoa dago hizketa eta testua aztertzen dituzten ikertzaileen artean,
lehen hain bereizita lan egiten zuten ikerketa-komunitateek elkarren beharra nabaritu baitute.
1.1.2 Arlo konputazionala hizkuntzalaritzan
Hizkuntzalaritza orokorrak teoria gramatikal dotorea, murriztua eta unibertsal linguistikoen berri emango
duena du helburu; hizkuntzalaritza konputazionalak, berriz, aplikagarritasuna duen sistema eraiki nahi du,
hots, egitura linguistikoa eraginkortasun konputazionalarekin prozesatzea du jomuga.
Hizkuntzalaritza orokorra hiztunen konpetentzia aztertzeaz arduratzen da bereziki, eta datuak erdiesteko,
batez ere, introspekzioa du iturri nagusi. Ondorioak dedukzio-metodoen bidez erdiesten ditu.
Hizkuntzalaritza konputazionala, berriz, erabilera linguistikoan zentratzen da, komunikazio-egoera
errealetatik datuak erdietsiz. Ikertzeko, dedukzio- zein indukzio-metodoak baliatzen ditu. Oro har, esan
dezakegu hizkuntzalaritza orokorra teoriaren dotoretasunaz arduratzen dela gehiago, eta hizkuntzalaritza
konputazionala, sistemaren erabilgarritasunaz eta eraginkortasunaz.
Dena dela, hizkuntzalaritzaren baitan, teoriak garatzeko datu objektiboetatik abiatzen diren hurbilpenek
gero eta indar handiagoa dute. Ildo honetatik, aurrerapen handiak lortu dira ordenagailuen erabilerari
esker, esate baterako, corpusean oinarritutako hizkuntzalaritzan.
Hizkuntzalaritza Konputazionala 15
Bestalde, Sparck Jones-en lanean (1996:14) esaten denez, oro har, hizkuntzalaritzaren, eta bereziki
hizkuntzalaritza teorikoaren eragina HKn oso ahula izan da. Horrez gain, informazio-teknologiaren
eragina hizkuntzalaritzan, HKtik kanpo oso zaila dela aurkitzen ere esaten du, eta uste duela
hizkuntzalaritzak asko duela irabazteko arlo konputazionaletik:
"..., there is much for linguistics to gain from looking both at how computation does
things and at what it finds".
Ikusmoldearen gorabeherak alde batera utzita, denen oinarrian ikerkuntza dago, hizkuntza naturalaren
tratamendu automatikoaren arloko ikerkuntza, alegia. Guk liburuan aztertuko dugunari hizkuntzalaritza
konputazionala deituko diogu oro har, eta horren bidez alderdi teorikoak eta teknologikoak, biek,
garrantzia dutela azpimarratu nahi dugu.
Ikuspuntu horretatik hizkuntzalaritza konputazionalaren xedea guretzat honako hau izango da: hizkuntza-
ulermenaren eta sorkuntzaren teoria konputazional ulergarri, taxutu eta linguistikoki motibatua eraikitzea.
1.1.3 Datu linguistikoak vs programak
Hizkuntzaren tratamendu automatikoaren arloan, edozein dela ere aplikazio mota, komeni da bereiztea
aplikazio ororen oinarrian dauden bi osagai :
· Datu linguistikoak. Baliabide lexikal hauetan ager daitezte: lexikoiak, hiztegiak eta gramatikak,
besteak beste.
· Programak. Datu linguistiko horien (hots, baliabide lexikaletan ditugunak) gainean aplikatzen
diren programak informazio linguistikoa prozesatu ahal izateko: analizatzaileak,
desanbiguatzaileak, programa estatistikoak...
Horiek dira aplikazioen oinarriak; hasieratik argi utzi behar dugu, ordea, ez garela ariko programei1
buruz.
Hizkuntzaren tratamendu automatikoaren lehenengo urteetan, programak eta ezagutza linguistikoa (hots,
datu linguistikoak) ez ziren bereizten. 80ko hamarkadaren erdialdera, bi informazio mota horien
bereizketa hasiko da. Horrela, ezagutza linguistikoaren (gramatika batean eta lexikoan kodetuta) eta datu
horien gainean lan egingo duten prozedurak bereiziko dira. Hartara, bereizketa horren abantailak hauek
izango dira:
· Ekonomia: deskribapen linguistiko berak balia daitezke prozesamendu desberdinetarako
(analisirako zein sorkuntzarako, esaterako).
· Baliotasun teorikoa: deskribapen gramatikala programaren exekuzio-prozeduretatik
independentea baldin bada, hizkuntzalaritza teorikoaren emaitzak hobeto balia daitezke.
1 Informazio linguistikoa prozesatu edo tratatu ahal izateko modelo eta algoritmoei buruzko oinarrizko informazioa
jaso nahi duenak jo beza liburu honetara: Daniel Jurafsky & James H. Martin, Speech and Language Processing,
5-6. or.
Hizkuntzalaritza Konputazionala 16
· Deklaratibotasuna: ezagutza linguistikoa modu deklaratibo batez deskriba daiteke, hau da,
kasuan kasuko hizkuntzari dagozkion egitura linguistikoak adieraziz.
1.2 Hizkuntza prozesatzeko arazoak
Hizkuntza naturalaren tratamendu konputazional osoa ezinezkoa da, etengabeko aldaketak eta erabilera
mugaezinak ditu eta. Atal honetan konplexutasun hori sortzen duten arazo nagusiak azaltzen saiatuko
gara: anbiguotasuna, errepresentazio konplexuaren beharra eta tratamendu independentea onartzen ez
duten ezagutza mota asko denak batera aldi berean erabili beharra.
1.2.1 Anbiguotasuna
Hizkuntzaren berezko ezaugarrien artetik, tratamendu automatikoari begira, anbiguotasuna da arazo
gehien sortzen dituena. Hitz batek adiera bat baino gehiago izan ditzake, batzuk gainera kategoria
morfologiko desberdinetakoak dira; esaldi batek analisi sintaktiko bat baino gehiago onar ditzake;
egoeraren arabera esaldi berak esangura desberdinak eskain ditzake. Guk, gizakiok, gehienetan, egoeraren
arabera ondo dakigu une bakoitzean adiera, kategoria eta analisi egokiak aukeratzen, askotan gainera
hainbeste aukera burutik ere ez zaizkigu pasatzen, baina hori ez da lan samurra konputagailuarentzat. Izan
ere, ordenagailuan pilatutako informazio guztia (lexikala, morfosintaktikoa, semantikoa nahiz
pragmatikoa) prozesatzean, askotan pentsatu ezinezko emaitzak sortuko dira (sarreran aipatu dugun
adibidea ekarriz, nork pentsatuko luke lehenengotik, aditzaz gain zituen forma zitu izenaren genitibo
plurala dela?).
Tratamendu automatikoari begira errazena litzateke esaldiaren eta bere interpretazioaren arteko
korrespondentzia bijektiboa (bat-bat) izatea, informatikako lengoaietan gertatzen den bezala. Horrela,
esaldi bakoitzarentzat interpretazio posible bakarra egongo litzateke, eta interpretazio bat adierazteko
esaldi bakarra sor liteke.
Adibidez, programazio-lengoaia baten bidez adierazpen matematikoa idatzi nahi dugunean
korrespondentzia bijektibo bat ezar daiteke adierazpen matematikoaren eta bere zuhaitz-errepresentazioen
artean. Esaterako A+B*C adierazpen matematikoari honako errepresentazio hau dagokio;
e1
e2
e3
....
ei
ej
i1
i2
i3
....
ii
ij
Hizkuntzalaritza Konputazionala 17
+
/ \
A *
/ \
B C
Baina hizkuntzaren erabilera zailagoa da. Eta zailagoa da alde bietatik: batetik, hainbat esaldik
interpretazio bera izan dezaketelako (hainbat-bat erako korrespondentzia), eta, bestetik, esaldi berak
interpretazio bat baino gehiago izan ditzakeelako (bat-hainbat erako korrespondentzia).
Batetik, hainbat-bat erako korrespondentzia gertatzen da esaldiak ulertzerakoan, hainbat esaldik
interpretazio bera dutenean; adibidez, interpretazio bera lortu beharko litzateke unibertsitateko araudiak
biltzen dituen datu-base bati honako galdera hauetako bat, edozein, eginda:
· Klaustroko hauteskundeei buruz dagoen guztia nahi dut.
· Ezer daukazu klaustroko hauteskundeei buruz?
· Emango didazu klaustroko hauteskundeen arautegia?
· Mesedez, klaustroko hauteskundeena!
Eta bestetik, bat-hainbat erako korrespondentzia ere gerta daiteke esaldiak ulertzerakoan, esaldi bakar
batek testuinguru desberdinetan hainbat interpretazio dituenean; adibidez, ondoko bi esaldiek
interpretazio bat baino gehiago eduki dezakete:
Bosgarren udako unibertsitatea
1. (Bosgarren udako) unibertsitatea. Bosgarren udan antolatu zen unibertsitatea
2. Bosgarren (udako unibertsitatea). Bosgarren aldian antolatu zen udako unibertsitatea
I see a man in the park with the telescope
1. Interpretazio ohikoena: Gizon bat ikusten dut parkean teleskopio batekin.
I see (a man)
(in the park)
(with the telescope)
2. Teleskopio batekin parketik dabilen gizon bat ikusten dut.
I see (a man (in the park))
(with the telescope)
3. Teleskopio bat duen parkean gizon bat ikusten dut.
I see (a man)
(in the park (with the telescope))
4. Teleskopio bat duen parketik dabilen gizon bat ikusten dut.
I see (a man (in the park (with the telescope))
e1
e2
e3
ei
...
ej
i1
i2
...
ii
ij
Hizkuntzalaritza Konputazionala 18
Zailtasun horiexek bihurtzen dute anbiguotasuna LNPko arazo nagusietako bat. Hala ere, esan dugun
bezala, ez da soilik LNPren arazoa, izatez hizkuntza baita anbiguoa. Horren ildotik, ikusi besterik ez dago
zenbait hizkuntzalariren hitzak gai honen inguruan:
"Que la ambigüedad es connatural al lenguaje común ­a lo que llamamos lengua a
secas--en cualquiera de sus variadísimas especies es un hecho tan conocido que no hace
falta apelar a refinadas técnicas dialécticas y retóricas para traer a los incrédulos al buen
camino (...). La ambigüedad es, sin lugar a dudas, uno de los universales más patentes del
lenguaje natural (...)" (Michelena, 1972).
"Por lo que al lenguaje atañe, el sistema (en sus diversos niveles) tiende a ser
distintivo, incluso con notables grados de redundancia. A pesar de ello, queda abierta la
puerta para que se introduzca la posibilidad de ciertos sincretismos (morfológicos, léxicos
y sintácticos) con los que se crea una perturbación en el proceso comunicativo". (Tusón,
1975:325).
Gai honi buruz asko idatzi da, dudarik gabe, eta ikuspuntu diferenteetatik planteatu da arazoa. Izan ere,
oso eremu zabala denez, mota askotako alterazio linguistikoak egon daitezke definizio horren barruan.
Ikus bestela Padró-ren tesian (Padró, 1997):
"Ambiguity in natural language is mainfold. We find part-of-speech ambiguity (e.g.
past vs. Participle in regular verbs), semantic ambiguity in polysemic words, syntactic
ambiguity in parsing (e.g. PP-attachment), reference ambiguity in anaphora resolution,
etc.".
Horrela, alderdi teorikotik zein konputazionaletik azter daiteke anbiguotasunaren arazoa. Anbiguotasun
morfologikoa, sintaktikoa, semantikoa eta pragmatikoa ere trata daitezke.
Karlsson-ek (Karlsson et al., 1995) proposatzen duen eskemari jarraituz, hiru multzo nagusitan bereizten
dira azaleko mailako anbiguotasun motak: gramatikala (egiturazkoa edo sintaktikoa ere deitua),
semantikoa eta pragmatikoa.
Anbiguotasun semantikoak direla eta, ezagunena eta gehien gertatzen dena polisemia dugu edo bestela
deituta "anbiguotasun lexikala" (Cristal, 1991, s.v. ambiguity). Oso aztertua izan da fenomeno hori
hurbilpen konputazionaletan, lexikografia konputazionalaren eremuan batez ere; ingeleserako,
erreferentzia hauek ditugu, besteak beste: Kelly-Stone, 1975; Hirtst, 1987; Cottrell, 1989; Ravin, 1990;
Rigau, 1999. Euskarazko lexikografia konputazionalean ere anbiguotasun lexikalak bere tokia izan du;
Agirre (1999) dugu erreferentzietako bat. Polisemiaz gain, badira anbiguotasun semantikoan kasu
gehiago, baina hemen ez dugu gehiago sakonduko berorietan.
e1
e2
e3
ei
...
ej
i1
i2
i3
i4
...
ii
Hizkuntzalaritza Konputazionala 19
Era berean, anbiguotasun pragmatikoa aipatu baino ez dugu egingo. Anbiguotasun pragmatikoa ebazteko
denbora- eta espazio-testuinguruaren ezagutza behar da, edota informazio metatestuala. Ingelesez,
horrelakoak tratatu izan dituztenen artean hauek ditugu: Litman-Hirchberg (1990) eta Hinkelman-Allen
(1989).
1.2.2 Errepresentazioaren konplexutasuna
Hizkuntza-teknologian, lortu nahi den aplikazioa edo tratatu behar den mezua sinplea bada, konputagailu
barruan esaldiak errepresentatzeko behar den adierazpidea sinplea izan daiteke. Baina gizakion ulermena
simulatu nahi bada, orduan oso errepresentazio konplexuak behar dira. Adimen artifiziala deritzon arloan
hainbat proposamen sortu dira ezagutza asko bildu eta erabili ahal izateko, baina oraindik utopia hutsa da
pentsatzea konputagailu batek erabiliko duela pertsona batek eguneroko bizimoduan behar duena. Beraz,
eraiki nahi den aplikazioak hizkuntzaren erabilera sinplea egiten badu, posible izango da martxan jartzea,
baina konplexua bada (ezagutza asko, planifikazioa, dedukzioa, ohiko egoeren tratamendua...) oso zaila
izango da hizkuntza erabiltzea gizakiok egiten dugun modura.
Aplikazio sinplearen adibidea. Arestian aipatu dugun unibertsitateko araudiak biltzen dituen datu-base
bati galderak egitea hitz gako batzuk detektatuz egin daiteke, eta gero hitz horiek datuetan bilatuz.
Horretarako aski izan daiteke hitz gakoen errepresentazioa, besterik ez da behar.
Esaldia:
Ezer daukazu klaustroko hauteskundeei buruz?
Lortu behar dena:
(SEARCH KEYWORDS= HAUTESKUNDE & KLAUSTRO)
Errepresentazio konplexuaren adibidea. Testu bat emanda, edukiari buruzko galderei erantzuteko gai
diren eta era berean dedukzioak egiteko ahalmena exijitzen duten galderei erantzuteko gauza den sistema.
Adibidez:
Testua:
Jonek Mireni esan zion zinemara berarekin joango zela
Miren poztu egin zen
Galdera:
Zergatik poztu zen Miren?
Horrelako sistema batean esaldien adierazpide oso konplexua behar dugu. Adibidez, Schank
ikertzailearen ereduak esaldi bakoitza diagrama baten bidez adierazten du. Esaldiko aditza ekintza baten
bidez adierazten da eta bere osagarriak ere (objektua, subjektua, nondik, nora...) grafikoki, erlazioen
bitartez azaltzen dira. Gainera 12 ekintza posible baino ez dago (mugimendu fisikoa, mugimendu
psikologikoa...), eta beraz, aditz bakoitzari ekintza primitibo horietako bat dagokio proposatutako
ereduaren arabera. Honela errepresentatu beharko lirateke goiko esaldiak eta haien arteko erlazioa.
Hizkuntzalaritza Konputazionala 20
1. irudia. Esaldietan aurki ditzakegun harremanen errepresentazioa
Eskema horretan adierazi da Jonek hitz egin zuela (SPEAK ekintza). Ekintza horren objektua ("o"
erlazioa) hitzak zirela. Hitz horiek Mirenengandik Jonengana joan zirela ("R" erlazioa). Jonek esan zuen
mugimendu fisiko bat gertatu zela (PTRANS ekintza, Physical TRANSlation). Mugimendu fisikoa izan
zen Jonek eta Mirenek beren burua ("o" erlazioa) zinemara ("D" erlazioa) eramatea. Eta errepresentatu
behar izan da bigarren esaldia (Miren poztu egin zen) lehenengoaren ondorio gisa gertatu zela: alegia,
Jonek aldaketa psikologiko bat (MTRANS ekintza bat, Mental TRANSlation) sortu zuela Mirenengan,
horren poztasun-egoera mailarik altuenera igo zela (-10). Eta hori ez dago esplizitu testuan, deduzitu egin
behar izan da.
Beraz, gizakiontzat ohiko diren hizkuntza-tratamendu batzuk ordenagailu bidez egin nahi ditugunean oso
errepresentazio konplexuak erabili behar dira, eta oraindik konputagailuek ez dute behar besteko tresna
sendorik horrelako zailtasunekin egoki jokatzeko.
1.2.3 Tratamendu independentea onartzen ez duten ezagutza mota
asko erabili behar dira
Arazo handiei ekin nahi diegunean, banatze-estrategia aplikatzea egokia izaten da. Estrategia horren
arabera, problema handia hainbat azpiproblema independentetan banatzen dugu, ebazteko errazagoak
direlakoan. Azpiproblemetarako lortuko ditugun ebazpenak, geroago, era egokian konbinatuko beharko
ditugu problema osoaren ebazpena lortzeko. Estrategia hori oso lagungarria izaten da, baina aplikagaitza
izaten da hizkuntzaren tratamendu automatikoan, erabili behar diren ezagutza motek elkarren artean
mendekotasun handia izaten dutelako, hau da, azpiproblema independenteak bereiztea oso zaila delako.
Saiatuko gara hori erakusten adibide baten bitartez:
Informatikako programazio-lengoaia bateko agindu bat analizatu badugu, eta agindu horretan osagai bat
bere kategoriako beste osagai batekin ordeztuz gero, bere analisiaren emaitza berdina izango da, nahikoa
izango da osagaia ordeztea. Adibidez, ondoko aginduan aldagai bati espresio matematiko bat esleitzen
Hizkuntzalaritza Konputazionala 21
zaio eta dagokion analisia ezkerreko zuhaitza da; baina agindu horrexetan sinuaren osagaia (SIN) bere
kategoriakoa den beste osagai batekin (kosinuaren funtzioa: COS) ordezten badugu, agindu berriaren
analisian osagai berriaren ordezte hutsa eginez lortuko dugu (eskuineko zuhaitza):
X := A * B + C * ( D + ( COS(Q) * SQRT (SIN(R) ))
Hori informatikako programazio-lengoaietan gertatzen da, ez ordea hizkuntza tratatzerakoan. Esaldi
bateko hitz bat aldatuz gero, esaldi berriaren analisia beti ez da izango esaldi zaharraren egitura berekoa.
Hitz bat aldatuta esaldi osoaren egitura aldatzen da batzuetan, horrelakoetan ez da aldatzen hitzaren
esanahia bakarrik, egitura ere aldatzen da. Adibidez, ondoko bi esaldiak oso antzekoak dira, izen bat
bakarrik aldatzen da batetik bestera. Biek bina interpretazio sintaktiko eduki litzakete, baina, batzuetan,
pertsona batek berehala baztertzen du bietako bat:
· Gizon bat egunkari batekin ikusten dut
· Gizon bat teleskopio batekin ikusten dut
Normalean pertsonak ez dabiltza kaletik teleskopio batekin besapean!
Kasu bakoitzean egin den interpretazio sintaktikoa diferentea da, nahiz eta bi esaldiak oso antzekoak izan.
Teleskopio hitzak ikusteko tresna adierazten du eta egunkari hitzak ez. Hori jakitea ezinbestekoa da
interpretazio sintaktiko egokia zein den jakiteko. Are gehiago, pentsa genezake beste egoera bat non
gizonak teleskopioa alboan duen, behatoki astronomiko bateko argazki batean, adibidez; horrela, bigarren
esaldiko lehen interpretazio sintaktikoa ere zuzena litzateke. Hau da, oso zaila da bereiztea ezagutza
lexikala (teleskopio eta egunkari hitzak), ezagutza sintaktikoa, semantikoa (teleskopioa, ikusteko tresna
da, egunkaria ez) eta munduari buruzkoa (ea teleskopioa edo egunkaria besapean daraman edo alboan
daukan). Lau ezagutza mota horiek batera erabili behar ditugu hizkuntzaren tratamendu automatikoan.
ikusi
gizon bat
egunkari batekin
nik
ikusi
gizon batnik egunkari batekin
ikusi
gizon bat
teleskopio batekin
nik
ikusi
gizon bat teleskopio batekinnik
Egunkaria ez dut erabili ikusteko !
Hizkuntzalaritza Konputazionala 22
1.3 Bilakaera
Hastapenetan, lengoaia naturalaren prozesamenduaz (LNP) arduratzen zirenak (1950 eta 1960ko
hamarkadetan), aplikazio zehatzetara mugatzen ziren batez ere, aplikaziotik aplikaziora helburuak
aldatuz. Bi aplikazio multzo nagusi nabarmendu izan dira ordudanik:
1. Gizakien eta ordenagailuaren arteko komunikazioa errazten dutenak :
· datu-baseen galdeketa-sistemak
· elkarrizketarako interfazeak
2. Giza komunikaziorako aplikazioak :
· testuen eduki-araketa
· testu-edizioa
· itzulpen automatikoa
· hizketaren ezagutza eta sorkuntza
Garai haietatik hizkuntzaren teknologiak mota askotariko sistema informatikoak garatu nahi izan ditu,
baina arlo horiek duela gutxi arte, batez ere, aplikazioetara lerratuta zeuden.
Hasieran sistema konputazional gehienek jostailuzko lexikoiak lantzen zituzten, oso aplikazio-domeinu
konkretuei lotuak eta sarrera kopuru murritzekoak. Askotan zerrenda soilak baino ez ziren izaten.
(Boguraev eta Briscoe, 1989:1)-n esaterako, hau diote:
"Knowledge of words underlies these tasks, yet until very recently dictionaries (or
lexicons, as linguists usually call them) for natural language processing systems have by
and large been the poor sisters of computational linguistic research".
Bestalde, oro har, teoria linguistikoek sintaxi eta erregela gramatikaletan jartzen zituzten beren indarrak.
70 eta 80ko hamarkadetan LNPrekiko interesa areagotzeaz gain, azpimarratzekoa da epe horretan
hurbilpen-aldaketa gertatu zela. Hau da, alderdi linguistikoan arreta handiagoa jarri zen. Hasieran, alderdi
linguistikoak ez zuen garrantzi handirik, eta arestian aipatu dugun legez, aplikazioetara lerraturik zegoen
hizkuntzalaritza konputazionala. Horrela, bada, garaturiko hainbat sistema aplikazio espezifikoetarako
baino ez ziren baliagarri. Horren ondoren garaturiko beste bi joera nagusi ere aipatu beharrekoak dira.
Batean, ordenagailuaz baliatuko dira modelo linguistiko teorikoak frogatzeko. Hots, teoriak sorrarazitako
sistemak ditugu, eta garatu izan dira zenbait teoria frogatzeko; beste batzuen artean: gramatika
transformazionalak (Transformational Grammars) (Friedman, 1969), Montague-ren gramatikak
(Friedman, 1978), Generalized Phrase Structure Grammars (GPSG) (Evans, 1985; Phillips eta
Thompson, 1985). Ikuspegi hau lantzen duten ikertzaileek tresna konputazionalak erabiltzen dituzte
honakoa egiaztatu ahal izateko: ea proposaturiko eredu gramatikalak benetan sortzen dituen sortu beharko
lituzkeen esaldiak . Ondorengoan, joera nagusia (egun ere dirauena) corpusetan oinarritzean datza. Horien
artean ere ikuspegi ugari aurki ditzakegu, jakina, baina denak bat datoz hizkuntza aztertzeko corpusak
ordenagailuez baliatuz ikertzerakoan.
Ondorengo urteetan, zenbait faktoreren eraginak ingeniaritza linguistikoko baliabideak eta aplikazioak
ezinbesteko bilakatu ditu informazioaren gizartean. PCen agerpenak, haien kostua jaisteak eta prestazioak
Hizkuntzalaritza Konputazionala 23
hobetzeak (memoria eta prozesadorea) informatika eskuragarriago egin dute hainbat erabiltzailerentzat.
Horrek ekarri du baliabide linguistikoen eskaeraren hazkundea, eta horrekin batera dokumentuen edizioan
laguntzen duten testu-prozesadoreak. Nagusiki tresna hauek jokatuko dute paper nagusia: zuzentzaile
ortografikoek, estilo-zuzentzaileek, sintaxi-zuzentzaileek eta sinonimoen hiztegiek. Baina, testu-edizioko
tresna horiek baino askoz ere laguntza hobeak daude merkatuan eskuragarri, eta are laguntza bereziagoak
bilatzen dira ikertokietan. Ordenagailuaren bitartez hizkuntzaren tratamendua egiten duten aplikazioak eta
programak gero eta gehiago dira, ordenagailuarekiko komunikazioa egunero erabiltzen dugun
hizkuntzaren bitartez egin ahal izatea gero eta normalagoa baita. Beste alde batetik, gizarte eleaniztunek
hizkuntza diferenteen artean egin behar izaten dituzten joan-etorriak leuntzeko ere aparteko laguna izango
dugu ordenagailua. Gainera, telekomunikazioetan gertatutako aurrerapen izugarriak eragin duen Internet
fenomenoak izugarri areagotu egin du hizkuntzaren tratamendu automatikoaren beharra. Izan ere, nahiz
eta informazio kopuru izugarria lortu ahal izan, ez da erraza bilatzen dugun informazioa aurkitzea, eta
informazioa ondo selekzionatzeko tratamendu linguistikoa lagungarria baino areago ezinbestekoa da.
Gaur egungo joera, ordea, hastapenetakoarekin alderatuz gero, erabat aldatu dela esan dezakegu.
Hizkuntzalaritza teorikoaren zein HKren egungo joeraren arabera, hizkuntza-ezagutza gramatikaren
arlotik lexikoarenera lerratzen baita. Teoria linguistikoan eragin handiena izan duten formalismoek (UG,
LFG, HPSG... aurrerago azalduko ditugunak dagokien atalean) erregela gramatikalak erraztera jotzen
dute, eta lexikoa muina izango dute. Alderdi teorikoari dagokionez, segur aski, Chomsky-k eman zion
abiada joera horri (Chomsky, 1970). Ildo beretik jardungo dute aplikazioei loturiko LNPko arlokoek ere.
Hau da, sistema errealetarako ezagutza lexikala eskuratzea ezinbestekotzat jotzen da laborategiko saioak
gaindituz arlo honetan aurrera egin nahi bada. LNPko sistemek neurri errealeko osagai lexikalak behar
dituzte, aplikazio-eremua hedatu eta sendotzeko. Baina osagai lexikal horiek eskuz egitea hain da lan
handia, ezen ezinezkoa baita ia. Horrela, bada, LNPko aplikazioen problemarik larriena lexikoi
konputazionalak hornitzeko ezagutza lexikalaren eskuratze-prozesuak garatzean datza. Gauzak horrela,
LNPrako lexikoien eraikuntzarako laguntza automatikoak garatzea eta dauden baliabide lexikalez
baliatzea dira harturiko irtenbide nagusiak.
Bestalde, hizkuntzen teknologiako aplikazioak diseinatzerakoan, ikertzaile asko datu estatistikoek
gidaturiko metodoetara lerratu da azken hamarkadan. Zenbait hamarkadatan, kognizio-egiturak eta giza
hizkuntzaren erabiltzailearen prozesuen azterketatik teknologiak aurrera egin zezakeelako itxaropena izan
ondoren, gizakiek sorturiko datu linguistikoetan eta hizkuntzaren teknologiak prozesatu beharrekoetan
jarri dute ikusmira.
Dena dela, hizkuntzaren tratamendu automatikoaren arloan izandako lorpenek muga handiak dituzte
oraindik, hizkuntza ulertzea eta sortzea oso zaila baita. Baina horrek ez du esan nahi hizkuntza lantzeko
tresna automatikoak utopia direnik, hizkuntzaren oinarrizko ezagutza minimo batekin laguntza
interesgarriak eskain daitezke eta. Emaitza probetxugarriak lortzeko, ordenagailuaren lana aztergai
espezifiko eta mugatu batean kokatu behar da. Egun aurretiko hitzordua ematen duten sistema gehienek
zenbakiak eta astegunen izenak besterik ez dute ulertzen, baina hala ere ekonomikoki oso interesgarriak
diren aplikazioak antolatu dira horrekin. Etorkizunean, aplikazio mugatuko sistemak bilduz, ahalmen
Hizkuntzalaritza Konputazionala 24
handiagoko sistema berriak lor litezke, baina egun ibili dabiltzan aplikazioek helburu espezifikoak
dituzte.
1.4 LNPko sistema batean landu behar diren ezagutza
motak2
LNPko sistema batek hizkuntzaren tratamendu osoa egin behar badu, honako ezagutza mota hauek erabili
beharko ditu:
· Fonetikoa eta fonologikoa. Zehazten dute nola ahoskatu behar diren hitzak eta letra bakoitzari
zein fonema dagokion. Hizketaren tratamenduaz aritzerakoan, bi sistema nagusi garatzen dira:
hizketaren ezagumendua edo analisia (Speech Recognition, SR), eta sintesia edo sorkuntza.
· Lexikala. Hizkuntzan erabil daitezkeen morfemak zehazten dira hemen (lemak, aurrizkiak,
artizkiak eta atzizkiak), eta bakoitzarentzat bere hizkuntza-ezaugarriak zehazten dira.
· Morfologikoa. Hitz posibleen osaketa definitzen da morfemak erabiliz. Zein morfema-kate dira
posible eta zeintzuk ez? Morfema pare bat biltzen direnean letrarik galtzen da? edo gehitu behar
da? edo aldatu? Aplikazio batzuetan ez da beharrezkoa, adibidez, ingeleserako askotan ez da
kontuan hartua izaten (hala ere, bada bestela pentsatzen duenik ere). Baina, morfologia aberatsa
duten hizkuntzen prozesamenduan oso garrantzitsua da, esate baterako, euskara, suomiera, etab.
· Sintaktikoa. Esaldien egitura ezagutzeaz arduratzen da, hau da, hitz bakoitza zeinekin datorren.
Hitzen arteko harremanak definitzen dira hemen, haien kategoria sintaktikoen arabera.
· Semantikoa. Hitzen esanahia lortu eta hitzen esanahietatik abiatuz, beraiek osatzen duten
esaldiaren esanahia lortu.
· Testuinguruari dagokiona. Pragmatika gisa ezagutzen dena. Berez linguistikoa ez den, eta
igorpen linguistikoen prozesamenduan eta interpretazioan eragina duten informazioez arduratzen
da. Bi atal bereiz daitezke:
· Diskurtsoaren ezagutza. Hizkuntza erabiliz komunikatzeko gizakioi suposatzen
zaigun ezagutza. Lehenago igorri diren esaldien interpretazioak kontuan hartzen dira
izenorde, elipsi eta denbora-aspektuak egoki ulertu ahal izateko. Hizketako parte-
hartzaile bakoitzak besteek dakitenari buruz edo nahi dutenari buruz suposatzen duena
ere jakin behar da, elkarrizketa bat konputagailu bidez eraman ahal izateko.
· Munduaren gaineko ezagutza. Hizkuntza bateko hiztunek elkarren artean
komunikatzerakoan, munduari buruz duten ezagutza kontzeptual guztia hartu behar da
kontuan, alegia, mintzagaiari berari buruz jakin behar dena. Horrelako ezagutzak
esaldietan esplizituki adierazten ez den eta bistan den informazioa ulertzeko balio du.
Jakina, goian aipatu ditugun modulu horietako informazio guztia ez da beharrezkoa lexikoi espezifiko
2 Joerak azkar ari dira aldatzen, eta jasotzen diren atalak tradizionalki jasotzen direnak dira. Bereziki, atal hau
lantzeko ondoko liburu hau baliatu dugu: Survey of the State of the Art in Human Language Technology, Edited
by Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Batista Varile, Annie Zaenen eta Antonio Zampolli.
Hizkuntzalaritza Konputazionala 25
baterako. Lexikoi bakoitzak LNPko sistema espezifiko baterako beharren araberako informazioa izango
du eta. Hain zuzen, liburuaren atal nagusi bat osatuz, 2. kapitulutik 5.era ezagutza mota hauetan landu
beharreko informazioan sakonduko dugu. Esan behar da, hala ere, fonetika/fonologiaren alorrak ez
ditugula garatuko, horrekin loturiko oinarri, tresna eta aplikazioak gutxi direlako. Horretaz gain,
ahozkoarekin lotuago dago, eta idatzizkoaren gainean lan egiten dutenek ez dute horretan lan egiten, eta
orobat alderantziz. Alor hauek besteetatik nahiko bereizita ikertzen direla esan daiteke.
Joerak azkar ari dira aldatzen, eta aipatzen diren atalak tradizionalki landu direnak dira. Guk, atal hau
lantzeko, bereziki Cole et al. (1998) liburua erabili dugu. Autore askoren artean idatzitako liburu honetan
LNPri buruzko ikuspegi zabala jasotzen da.
1.5 Analisiaren faseak eta beraien arteko koordinazioa
Beti horrela egiten ez bada ere, argigarria izaten da hiru fase nagusi identifikatzea esaldien tratamendu
automatikoan: 1) analisi sintaktikoa, 2) interpretazio semantikoa, eta 3) testuinguruko interpretazioa.
Fase bakoitzean zenbait ezagutza mota erabiltzen dira. Atal honen bukaeran ikusiko dugunez, sistema
guztietan ez dira errespetatzen fase hauek, eta gainera, beti ez dira egiten linealki bata bestearen atzean.
Esaldien ulerkuntza egin behar denean, ordena horretan burutu ohi dira, eta, esaldien sorkuntza egin behar
denean, alderantzizkoan.
Fase bakoitzaren zeregina deskribatzeko sarrera (zer datu hartzen du?) eta irteera (zer lortzen du? zein da
emaitza?) deskribatuko ditugu hasieran; gero, adibide batzuk eman, eta bukaeran, saiatuko gara definitzen
fase horretan nola mozten den anbiguotasuna.
1.5.1 Analisi sintaktikoa (lexiko-morfosintaktikoa)
Analisi sintaktikoa esaten dugu hemen, baina zuzenagoa litzateke analisi lexiko-morfosintaktikoa esatea.
Sarrera: Esaldi bat.
Irteera: Hitzen arteko erlazio sintaktikoak adierazten dituen egitura. Emaitza esaldi osorako egitura
bakarra izan daiteke (gehienetan zuhaitza), edo esaldi osorako zenbait egitura baldin zenbait interpretazio
sintaktiko posible onartzen baditu. Ez bada lortzen esaldi osorako analisirik; hau da, esaldia gramatikala
ez bada (gure gramatikaren arabera, noski), esaldi barruko zati zuzen handienen edo osagai sintaktikoen
lista lortzen da.
1. adibidea: Esaldia hau bada: Nereak oilaskoa eskatu du,
emaitza hauetako bat izan daiteke.
(perp (erg (is (izb nerea (num s) (mug m)))
(abs (is (ize oilasko (num s) (mug m)))
(aditza (ad eskatu) (aldi lehen) ...
...)
Cambridge University Press. 1998. Autore askoren artean idatzitako liburu honetan LNPri buruzko ikuspegi
zabala jasotzen da.
Hizkuntzalaritza Konputazionala 26
2. adibidea: Esaldia hau bada: *Beltz etorri zenbait gizon dira,
esaldi ezegoki hori analizatuz gero, ez da analisi osorik lortuko eta zati hauek eskainiko dira emaitza gisa:
(Beltz) (etorri) (zenbait gizon) (dira)
Anbiguotasunaren murrizketa: Anbiguotasun lexikala eta morfologikoa mozten saiatzen da.
· Hitzen analisi morfologikoa (morfosintaktikoa) egiten da fase honen barruan.
· Hitzaren analisi bat baztertu egingo da lexikoian lema ez badago (*kerekere), bateraezinak diren
morfemak lotuz osatu bada (*zenbaitgo= zenbait+ago), edo bateratzean egin beharreko
letra-aldaketak ondo egin ez badira (*amaek=ama+ek).
· Inguruko hitzen artean egoki ez diren interpretazio morfosintaktikoak baztertu egiten dira.
Adibidez "ama gorri hori duen katuak" perpauseko hitzek bakoitzak bere aldetik, modu
isolatuan, izan ditzakeen interpretazioen arteko zenbait ez dira posible testuinguru horretan:
ama gorri hori zuen katuak
ADI ADI ADI ADL(3) IZE(2)
IZE(3) ADJ(2) ADJ(2) ADT
IZE DET IOR(4)
1.5.2 Interpretazio semantikoa
Sarrera: Esaldi baten egitura sintaktikoa.
Irteera: Esaldiaren esanahiaren errepresentazioa, baina esanahi abstraktua, testuingurua oraindik kontuan
hartu gabe. Kontuan hartzeko elementuak hauexek lirateke:
· Lexikoian jar daitekeen informazio semantikoa (hitzen esanahia).
· Hitz batek hainbat esanahi eduki ditzakeela.
· Esaldiaren esanahiaren errepresentazioa eraikitzen da bere osagaien interpretazioekin.
Adibidea: Nereak oilaskoa eskatu du esaldiaren analisi sintaktikoa honako hau bazen:
(perp (erg (is (izb nerea (num s) (mug m)))
(abs (is (ize oilasko (num s) (mug m)))
(ad (ad eskatu) (aldi lehen) ...
...)
Analisi hori datu gisa interpretazio semantikora eramanda emaitza hau litzateke:
(ESKATU4 ?V (AGENTE (IZB ?Y (IZB NEREA1))
(TEMA (MS ?Z OILASKO2)))
non ezagutu diren eskatu, oilasko eta Nerea hitzen adiera egokiak (eskatu4, oilasko2 eta
Nerea1),3 non eskatu4 aditzaren kasu semantikoak identifikatu diren eta semantikoki posibleak
3 Eskatu4: eskatu aditzaren 4. adiera da, oilasko2: oilasko hitzaren 2. adiera, ...
perp
erg absaditza
eskatu oilaskoNerea
Hizkuntzalaritza Konputazionala 27
direla egiaztatu den (eskatu4 ekintzetan agentea pertsona bat izan behar da; gure esaldian
Nerea1 pertsona da. Bestalde, eskatu4 ekintzetan tema janari mota bat izan behar da eta Oilasko2
semantikoki janaria da).
Anbiguotasuna murrizten:
· Baztertzen dira esanahi ulergarria ez duten egitura sintaktikoak. Adibidez:
*Asmo berde kolorebakoak bortizki lo egiten zuten,
baztertuko genuke ondoko arrazoi semantiko hauengatik:
asmoek kolorerik ez dutelako, ez baitira objektu fisikoak
berdea eta kolorebakoa ez dira bateragarriak
ezin da bortizki lo egin
asmoek ezin dute lo egin, ez baitira izaki bizidunak
· Baztertzen dira hitzen esanahi ezegokiak. Adibidez perpaus honetan ba al dago zubia hitzaren
esanahiren bat baztertzea? Posibleak al dira Zubia-eraikuntza eta zubia-asteburu luzea adiera
biak testuinguru honetan?
Londresera joan naiz abenduko zubian
Kasu honetan, zubia asteburu luze bat bezala ulertu behar da.
1.5.3 Testuinguruko interpretazioa
Sarrera: Esaldiaren esanahiaren errepresentazioa.
Aurreko esaldien interpretazioak.
Eta ezagutza hizketa-gaiari buruzkoa (munduari buruzkoa) eta hizketari buruzkoa.
Irteera:
· Esaldiaren esanahi konkretuaren errepresentazioa (testuingurua kontuan hartuta).
· Aurreko esaldien interpretazioak kontuan hartuta, izenorde, elipsi eta denbora-aspektuak era
egokian osatu dira.
· Esaldian esplizituki adierazten ez dena, baina munduari buruzko ezagutza edo diskurtsoari
buruzkoa erabiliz zentzuzkoa dena, esplizitu egin da azken interpretazio honetan
Adibidea: Nereak oilaskoa eskatu du esaldiaren interpretazio sintaktikoa honako hau bazen:
(perp (erg (is (izb nerea (num s) (mug m)))
(abs (is (ize oilasko (num s) (mug m)))
(ad (ad eskatu) (aldi lehen) ...
...)
eta bere interpretazio semantikoa hau:
(ESKATU1 ?V (AGENTE (IZB ?Y (IZB NEREA1))
(TEMA (MS ?Z OILASKO2)))
testuinguruko interpretazioaren emaitza berbaldia edo diskurtsoaren egoera berri bat sortzea litzateke, non
aurreko egoerari informazio berria gehitu zaion. Gure adibidean azkeneko bi klausula gehitu dira: eskatu
(nerea1, oilasko23, denb23) eta lehen (denb23).
Hizkuntzalaritza Konputazionala 28
2. irudia. Diskurtsoan dauden egoeren errepresentazioa
Anbiguotasuna murrizten:
· Baztertzen dira egoera konkretu horretan zentzurik ez duten interpretazio semantikoak.
Batzuetan esaldiaren esanahia berrinterpretatu behar da testuinguruko informazioarekin osatuz.
Adibidez, Badakizu zer ordu den? galderari erantzun desberdinak emango dizkiogu testuinguru
desberdinetan, egiten dugun interpretazioa oso bestelakoa baita:
­Zazpi t'erdiak
Kalean noala erlojurik ez daukan neskato batek galdetzen badit.
­Bai
Kalean noala erlojurik ez daukan lagun adarjotzaileak galdetzen badit.
­Autobusa galdu dut
Zinemako atean sarrerak eskuan zituela ordubetez nire zain egon den lagunari.
Adibidez, lehen esan dugu bosgarren udako unibertsitatea anbiguoa dela, baina testuinguru
konkretu batean baldin badakigu udako unibertsitate hori behin bakarrik antolatu dela eta
gehiagotan ez dela antolatuko (munduko ezagutza), argi dago testuinguru horretan bigarren
interpretazioak ez duela zentzurik eta ken dezakegula:
o (Bosgarren udako) unibertsitatea. Bosgarren udan antolatu zen unibertsitatea
o Bostgarren (udako unibertsitatea). Bosgarren aldian antolatu zen udako unibertsitatea
1.5.4 Faseen arteko koordinazioa
Definitu ditugun hiru fase horiek beti ez dira egikaritzen edo egiten bata bestearen atzetik sekuentzialki.
Klasikoki bai, baina badira alternatibak, eta gainera egungo LNPko sistema batzuetan, paradigma
estokastikoa erabiltzen duten sistemetan fase horiek ez dira inondik ere agertzen kasu honetan, ezagutza
linguistikoa zeharo baztertzen baitute.
Hori aurretik argituta, hemen hiru aukera nagusi aurkeztuko ditugu fase horiek koordinatzeko:
A) Faseen egikaritze sekuentziala. Faseen adibideekin suposatzen genuena, fase berri bat ez da
bukatzen aurrekoa guztiz bukatu arte. Fase bakoitzean erabiltzen diren ezagutzak eta tresnak zeharo
independenteak dira.
Testuinguru-
interpretatzailea
Diskurtsoaren
n. egoera
pertsona (nerea1)
janari (oilasko23)
eduki (Diru1)
Diskurtsoaren
(n+1). egoera
pertsona (nerea1)
janari (oilasko23)
eduki (Diru1)
eskatu (nerea1, oilasko23,
denb23)
lehen (denb23)
Hizkuntzalaritza Konputazionala 29
B) Faseen egikaritze paraleloa. Fase guztiak paraleloan egikaritzen dira. Ezagutza linguistikoak
(sintaktiko, semantiko eta pragmatikoa) eta tresnak ez daude bereizita. Modulu horiek elkarren artean lan
egiten dute.
C) Faseen egikaritze modularra. Fase guztiak paraleloan egikaritzen dira. Ezagutza linguistikoak
(sintaktiko, semantiko eta pragmatikoa) eta moduluak bereizita daude. Modulu horiek elkarren artean lan
egiten dute.
1.6 Hizkuntza-teknologiako produktuak
Hizkuntza-teknologiako produktuetan aplikagarritasun maila hauek bereizten ditugu:
· Aplikazioak: erabiltzaile arruntarentzat salgai diren programak.
· Tresnak: hizkuntza-teknologiako ekoizleentzat bakarrik interesgarriak direnak, produktu berriak
garatzeko baliagarriak.
· Oinarriak: ikerketarako edota edozein aplikazio edo tresna garatzeko behar-beharrezkoak diren
oinarri linguistikoak.
Produktuei buruzko berri zehatzagoa liburu honen hirugarren atal nagusian (produktuak) emango dugu.
Hemen, gainbegiratu baino ez dugu egingo.
Analisi
sintaktikoa
Interpretazio
semantikoa
Testuinguru-
interpretazioa
Testua
Egitura
sintaktikoa
Analisi sintaktikoa
Interpretazio semantikoa
Testuinguru-interpretazioa
Testua Egitura sintaktikoa
Azken interpretazioa
Analisi
sintaktikoa
Interpretazio
semantikoa
Testuinguru-
interpretazioa
Hizkuntzalaritza Konputazionala 30
1.6.1 Erabiltzaile arruntentzako aplikazioak
Modu eskematiko batez, hauek dira erabiltzaile arruntentzako zenbait produktu (Alegria et al., 1997):
· Testuen edizioa eta kudeaketa. Egun, badira testu-egileari eskaintzen zaizkion laguntza bereziak.
Ikus ditzagun orain zein diren garrantzitsuenak.
· Ortografia-zuzentzaileek bete dituzte urte batzuk merkatuan, eta gaur egun hizkuntza
askotarako aurki daitezke. Euskarari dagokionez, 1994tik dago dendetan XUXEN
euskararako egiaztatzaile/zuzentzaile ortografikoa.
· Idazkera- eta sintaxi-zuzentzaileak ere merkaturatu dira zenbait hizkuntzarentzat.
Testuingurua kontuan hartzen dute eta, adibidez, "nik joan naiz" esaldia prozesatuz
gero, ortografia-zuzentzaileak ez luke errorerik salatuko, hiru hitzok isolatuta posible
baitira, baina sintaxi-zuzentzaileak testuinguru horretan "nik" hitza gaizki dagoela
salatuko luke eta "ni" izan beharko lukeela proposatu.
· Laguntza lexikaletan edozein hitzen sinonimo edo antonimoak lor daitezke testu-
prozesaketako programatik atera gabe, baita taxonomikoki konkretuagoak edo
orokorragoak diren antzeko hitzak ere (adibidez: intsektu hitzetik orokorragoa den
animalia edo konkretuagoak diren iñurri, euli...), thesaurusa kontsultatuz.
· Testu eleaniztunak lantzeko, prozesadore zabalduenetan zenbait programa integratzen
dira. Programa horietan, glosategi, hiztegi eta itzulpenen berrerabilerarako laguntzak
eskaintzen dira. Adibide gisa Siemens-en Eurolang Optimizer, IBMren
TranslationManager/2 eta Trados-en Translation Workbench programak ditugu.
· Testu-masa handiak tratatzeko edo kudeatzeko aplikazio nagusiak lau dira:
· Kontzeptu-bilatzaileak. On-line moduko kontzeptu-bilatzaileen inguruan mila milioi
dolarreko industria antolatuta zegoen 1994an. Euskararako ere bada berriki
Ametzagaina taldeak kaleratutako Kapsula softwarea, euskarazko dokumentu-baseen
kudeaketara zuzendua.
· Kategorizazio-sistemak oso baliagarriak dira makina bat dokumentu (adibidez:
telefonoetako matxura-parteak, albisteak, hildako militarren parteak, marketineko
datuak...) kategoria multzo txiki baten arabera sailkatu behar izanez gero.
· Informazio-erauzketarako sistemek lengoaia naturalez idatziriko testuetatik datu-base
egituratu bat osatzen dute. Azken helburua albiste multzo handi batetik abiatuz fitxa
konkretuak betetzea litzateke, nork-nori-zer egin dion jakiteko.
· Testu-sorkuntza automatikoa informazio-erauzketaren kontrakoa da. Kasu honetan
ordenagailu barruan dauden datu konplexuetatik abiatuta (inprimakiak, datu kodetuak
edo zenbakizko formatuan dauden informazioak...), datu horien edukia azalduko zaio
erabiltzaileari bere hizkuntzan.
· Itzulpen automatikoa. Produktu ugari dago merkatuan salgai testu-itzulpenean laguntza emateko,
baina euskara tratatzen duen sistemarik ez dago. Itzulpenaren automatizazioa ez da inoiz
erabatekoa, eta automatizazio mailaren arabera ondoko sailkapena egiten da: 1) erabateko
Hizkuntzalaritza Konputazionala 31
itzulpen automatikoa; 2) giza laguntzaz buruturiko ordenagailu bidezko itzulpena; 3)
ordenagailuz lagunduriko giza itzulpena; 4) datu-banku terminologikoak.
· Ordenagailuen erabilera lengoaia naturalaren bidez. Aplikazio mota honetako sistemek
ordenagailuaren eta gizakiaren arteko komunikazioa errazten dute, erabiltzaileek bere hizkuntzaz
lan egiteko aukera du eta. Helburu orokorrekorik ez da luzaroan salgai egongo, baina badira
dagoeneko aplikazio konkretuei lotuta dauden batzuk. Datu-baseetarako galdeketa-sistema ugari
dago, batez ere ingelesez.
· Ahozko hizkuntzaren tratamendua. Sistema gehienek oso hitz gutxi ezagutzen dituzte, eta horien
artean beti daude zenbakiak. Beste alde batetik, gero eta arruntago bihurtzen ari zaigu makinen
ahots sintetizatuak entzutea gasolindegietan edo tabako-edariak saltzen dituzten makinetan.
Ahozko hizkuntzaren tratamenduko teknikak antzeko beste aplikazioetan ere erabiltzen dira:
eskuz idatzitako testuak ezagutzeko edota testu elektronikoen bertsio elektronikoa lortzen duten
OCR (Optical Character Recognizer, karaktere-ezagutzaile optikoak) izenekoetan.
1.6.2 Tresnak
Atal honetan hizkuntzaren tratamendurako aplikazio-ekoizleentzat edo arloko ikertzaileentzat
interesgarriak diren tresnak aipatuko ditugu. Tresna horiek ez daude diseinaturik, oro har, erabiltzaile
arruntarentzat.
· Analizatzaile morfologikoak. Hizkuntza flexionatu eta eranskarien kasuan ­hala nola euskara­
ezinbestekoak dira ondorengo aplikazioetarako:
o Zuzentzaile ortografikoa.
o Tutore-sistema automatikoak hizkuntza ikasten ari den jendearentzat.
o OCR dokumentuen irakurketan (eskanerrak erabiltzean) sor daitezkeen erroreak
detektatzeko.
o Hizketaren sintesia edo testu-sorkuntza lortzeko sorkuntza morfologikoa funtsezko
osagarria da.
o Hizkuntza-aplikazio sofistikatuagoetarako ­sintaxian oinarritutakoak, itzulpen
automatikoa, etab.-- lehen urrats gisa.
· Lematizatzaile/etiketatzaileak. Etiketatzaileek testuko hitz bakoitzak dituen analisi guztien artean
zuzena dena aukeratu behar dute; lematizatzaileek, aldiz, lema posibleen artean dagokiona.
Tresna hauek izan duten arrakasta beren aplikazioetan datza, oso aplikazio interesgarri eta
aktualak baitituzte:
o Indexazioa: testuak indexatu nahi direnean ez zaigu forma interesatzen, lema eta
kategoria baizik. Indexazioa da oinarria gaur egun hain modan dauden datu-base
dokumentaletan eta Interneteko bilatzaileetan. Adibidez, testu batean kalekoak, kalera
eta kalejiratik agertzen badira, lehen biek azaldu behar dute kaleaz galdetzen dugunean,
baina hirugarrenak kalejiraz egiten dugunean.
Hizkuntzalaritza Konputazionala 32
o Terminologia/lexikografia: automatikoki lemak ondo identifikatzen badira eta
dagozkien etiketak egokitzen bazaizkie lan lexikografikoa erruz errazten da, eta testu
batetik terminologia automatikoki erauzteak ez dirudi oso lan zaila.
· Analizatzaile sintaktikoak. Analizatzaile sintaktikoen zeregina testuetako osagai sintaktikoak
ezagutzea da: hitz isolatuez osatu sekuentzietan elkarri lotuta dauden egitura sintaktikoak
(perpausak, izen-sintagmak, aditz-sintagmak, izenlagunak, eta abar) ezagutuko dira.
1.6.3 Baliabide linguistikoak
Atal hau euskarari lotutako baliabide linguistikoen bidez azalduko dugu, eta gehienbat IXA taldean garatu
diren baliabide linguistikoen bidez. Izatez, IXA taldeak euskararako garatu dituenak dira hizkuntzaren
tratamendu automatikoan, oro har, aurkitzen ditugunak:
· Datu-base lexikala eta morfologiaren deskribapena. Datu-base lexikala da hizkuntzaren
lexikoaren biltegi erraldoia. Hiztegi elektronikoen moduko bat da, hizkuntzaren tratamendu
automatikoari begira eraikia, eta, beraz, hizkuntzaren tratamendua automatizatu nahi horrek
dituen eskakizunak kontuan harturik antolatua. EDBL, Euskararen Datu-Base Lexikala dugu
IXA taldeak garatutako oinarri lexikala, etengabe eguneratuz doana, eta gaur edo bihar
komunitate zabalago bati bere ateak irekiko dizkiona, oinarriak prestatze-bide honetaz beste
batzuk ere balia daitezen.
· Hiztegi elektronikoak. Hizkuntzaren datu-base lexikal orokorra oinarri dela, horren inguruan
biltzen ahal dira beste zenbait tresna lexikal ere: definizio-hiztegiak, hiztegi terminologiko
berezituak, hiztegi elebidunak, eta beste. Hor ditugu UZEIren Euskalterm datu-banku
terminologikoa, Sinonimoen hiztegia eta Atzekoz aurrera (hitz-bukaeren hiztegia); I. Sarasolaren
Euskal Hiztegia; eta Elhuyarrek, Harluxet Fundazioak eta Adorez taldeak, besteak beste,
euskarri elektronikoan kaleratutako hiztegi-lanak .
· Gramatika konputazionalak. Bi hurbilpen desberdinetatik, euskararako bi gramatika
konputazional landu dira IXA taldean:
o PATR-II izeneko baterakuntza-formalismoaz (Shieber, 1987) baliatuz. Izen-sintagma
eta perpaus bakunen egitura deskribatzen duen gramatika.
o Murriztapen Gramatika formalismoa (Karlsson et al., 1995) baliatuz. Batez ere,
desanbiguazio morfosintaktikorako erabili da.
· Taxonomia semantikoak. Kontzeptuen artean hainbat motatako harremanak ezarriz egiten diren
sare semantikoak dira. Ingelesezko, Wordnet izenekoa (Miller, 1990) da sare semantiko
ezagunena, eta hori abiapuntutzat hartuz, euskararako halako sarea (EuskalWordNet) eratzen
dihardu IXA taldeak.
· Hizkuntza-corpusak. Hizkuntza-corpusak testu-masa handiak dira, informazio linguistikoaren
iturri nagusietariko bat eta arestian aipatutako aplikazio, tresna eta oinarrietarako probaleku
ezinbestekoak. Lexikografiarako bezalaxe, LNPrako ere ezinbestekoak ditugu hizkuntza-
corpusak. Aipagarrienen artean dugu XX. mendeko euskararen corpus estatistikoa
Hizkuntzalaritza Konputazionala 33
(www.euskaracorpusa.net). Baita berezituagoa den Ereduzko prosa gaur ere
(http://www.ehu.es/euskara-orria/euskara/ereduzkoa). Corpus hauek, ordea, ez dira nahikoak.
Beste hizkuntzetarako daudenekin konparatuta, eskas samar geratzen dira gure corpusak, bai
tamaina aldetik bai testu barruan etiketatzen denaren aldetik (lemak, hitzen kategoria
desanbiguatuak, osagai sintaktikoak, hitzen adiera desanbiguatuak...):
Testuak ondo aukeratuz gero, azterketaren emaitzak hizkuntzaren egoeraren adierazgarriak eta
eredugarriak izan daitezke, erreferentzia estandarra hizkuntza lantzeko. Informazioaren
gizartean, hizkuntza batek duen garrantzia neurtzeko garaian, aplikazioak garatzeko dituen
baliabide linguistikoak aztertzen dira gaur egun. Baliabide horien artean, corpus handien
garapena lehenetariko helburua izan ohi da.
Horregatik, euskarazko corpusen biltze-lan eta antolaketa sistematikoari ekin behar zaio
lehenbailehen, modu planifikatu batean. Lan horretan toki askotako jendeak hartu behar luke
parte ­Euskaltzaindia, UZEI, komunikabideak, argitaletxeak, eta abar-- uste baitugu halako lan
bat behar-beharrezkoa dela, honetan ari garenontzat ez ezik, baita beste ikertzaile askorentzat
ere.
Corpusa Hitz kopurua Hizkuntza
British National Corpus 100 milioi
hitz
Ingelesa
Bank of English (COBUILD) 300 milioi
hitz
Ingelesa
FRANTEXT 150 milioi
hitz
Frantsesa
CRAE 130 milioi
hitz
Gaztelania
CORDE 136 milioi
hitz
Gaztelania
XX. mendeko corpus estatistikoa 5 milioi hitz Euskara

Hizkuntzalaritza konputazionala