Dau fyfyriwr doethurol deallusrwydd artiffisial yn ennill cystadleuaeth Common Voice Mozilla

Mae Preben Vangberg a Leena Farhat, sydd ill dau yn astudio am ddoethuriaeth gyda chyllid gan y Ganolfan Hyfforddiant Doethurol a ariennir gan UKRI (UK Research and Innovation) (), wedi ennill cystadleuaeth Common Voice, Our Voices, Diversity Model and Methods Mozilla.��

Mae Preben Vangberg a Leena Farhat yn fyfyrwyr sy'n astudio am ddoethuriaeth yn yr Ysgol Cyfrifiadureg a Pheirianneg Electronig ym Mhrifysgol ��ϲʹ��. Cyllidir eu hastudiaethau gan yr Artificial Intelligence, Machine Learning and Advanced Computing (AIMLAC) Centre for Doctoral Training (CDT). Cyllidir AIMLAC gan UKRI. Mae eu traethodau doethurol yn ymchwilio i ddata mawr a deallusrwydd artiffisial. Mae gwaith Preben yn gydweithrediad rhwng Cyfrifiadureg a’r Uned Technolegau Iaith yng Nghanolfan Bedwyr (data iaith mawr), ac mae ��Leena yn cydweithio gyda Chyfrifiadureg a Gwyddorau’r Eigion (data mawr gwyddorau cymdeithas).

Cyhoeddodd Mozilla gystadleuaeth fyd-eang ym mis Mehefin 2022. Mae eu cystadleuaeth,��, wedi ei chynllunio i ymchwilio i ragfarn mewn modelau iaith, yn enwedig testun-i-leferydd. Mae'r modelau hyn yn canolbwyntio ar hybu amrywiaeth a chynhwysiant. Casglwyd cyflwyniadau gan Mozilla o bedwar ban byd.��, a Preben a Leena oedd un o’r timau.

"Roedd yn anrhydedd ennill y gystadleuaeth hon, ynghyd â’r enillwyr eraill. Roedd ein model yn canolbwyntio ar yr iaith leiafrifol Romansh. Mae gan y iaith hon o’r Swistir ddwy dafodiaith, sef��Sursilvan a Vallader.” Aeth Preben ymlaen i ddweud, “Roeddem yn falch ofnadwy bod y beirniaid wedi canmol ein gwaith am ei berfformiad, a’i gyfradd gwallau bach.”��

Gan fod hon yn iaith leiafrifol, mae’r adnoddau i hyfforddi’r model, sy’n dod o recordiadau sain a thestun, yn gyfyngedig. Gwnaethom ddefnyddio hen bapurau newydd o’r Swistir o gorpws testun clir o ansawdd uchel sydd ar gael yn gyhoeddus.

Aeth Preben ymlaen��

“Mae'r dull yn gweithio mewn sawl cam. Yn gyntaf, gwnaethom hyfforddi model acwstig sy'n gyfrifol am drawsnewid y synau yn gynrychioliad testunol. Yna gwnaethom hyfforddi model iaith (model N-gram) i helpu i gynorthwyo'r model acwstig a thrwsio'r camgymeriadau sillafu yn yr allbwn. Yn drydydd, gwnaethom hyfforddi modelau pwrpasol i dafodieithoedd amrywiol Romansch, tra hefyd yn efelychu’r effaith o gael data testun da ar gyfer y tafodieithoedd unigol ond heb unrhyw ddata llafar. Perfformiodd ein modelau yn dda, ond dim ond un rhan o'r project oedd hynny. Gwnaethom ddangos eich bod yn gallu creu modelau lleferydd i destun da trwy ddefnyddio model iaith sydd wedi ei hyfforddi ar y dafodiaith darged tra’n defnyddio model acwstig wedi ei lunio ar gyfer tafodiaith wahanol.”��

�ѱ��岹��’r

Athro Jonathan Roberts, arweinydd CDT (Canolfan Hyfforddiant Doethurol) gyda chyllid ym Mhrifysgol ��ϲʹ��

“Mae’n destun balchder mawr bod ymdrech Preben a Leena wedi talu ar ei ganfed. Mae eu gwaith yn dangos ein diddordeb parhaus mewn dadansoddi testun, deallusrwydd artiffisial, a chydweithio rhwng Cyfrifiadureg a’r Uned Dechnolegau Iaith yng Nghanolfan Bedwyr. Yn wir, cyn gwneud eu doethuriaeth, bu Leena a Preben yn astudio ar ein cwrs MSc newydd mewn technolegau iaith. Rwy’n edrych ymlaen i weld sut bydd y gwaith hwn yn datblygu yn y dyfodol”.��

������ϲʹ�������

Dau fyfyriwr doethurol deallusrwydd artiffisial yn ennill cystadleuaeth Common Voice Mozilla

�ѱ��岹��’r

��ϲʹ��