Fel aelod o gr诺p ymchwil Arloesedd Ariannol a Dadansoddeg Data y Sefydliad Cyllid Ewropeaidd (IEF), cyflwynodd yr Athro Adrian Gepp bapur ymchwil cydweithredol yngl欧n 芒 dadansoddeg twyll yn 43edd gynhadledd Cymdeithas Busnes ac Economeg Ewrasia (EBES) yn Sbaen ar Ebrill 12, 2023. Cafodd y papur ei farnu trwy adolygiad gan gymheiriaid fel Papur Gorau鈥檙 gynhadledd ac iddo鈥檙 teitl "Defnyddio dadansoddeg data i wahaniaethu rhwng cwmn茂au cregyn cyfreithlon ac anghyfreithlon". Cyflwynodd fodel newydd sy鈥檔 defnyddio data i ganfod cwmn茂au cregyn sy'n cael eu defnyddio i wyngalchu arian. Dyma broblem fyd-eang ac amcangyfrifir bod y gost flynyddol yn y triliynau. Er bod sawl defnydd cyfreithlon, gellir defnyddio cwmn茂au cregyn hefyd i hwyluso gwyngalchu arian ac felly mae model sy鈥檔 defnyddio data i wahaniaethu rhyngddynt yn gyflym yn werthfawr iawn. Ymhlith y rhai a gaiff fudd o fodel o'r fath mae swyddogion y llywodraeth a gweithwyr proffesiynol ym maes cydymffurfiaeth, yn enwedig cyfrifwyr, swyddogion treth ac asiantaethau gwrth-lygredd. Defnyddiodd y model canfod a gr毛wyd gan d卯m yr Athro Gepp ddull dadansoddi data hybrid a hyfforddwyd gyda data'r Deyrnas Unedig gan ddefnyddio cynllun sampl cyfatebol. Roedd y cam cyntaf yn cynnwys cronni data o nifer o ffynonellau i'r llwyfan cronfa ddata graffiau o'r enw Neo4j. Yn ogystal 芒 chynrychiolaeth weledol syml o'r holl ddata, dewiswyd llwyfan graffiau oherwydd ei bod yn fodd i adnabod y cysylltiadau c锚l sydd rhwng rhwydwaith o gwmn茂au cregyn anghyfreithlon megis cyfeiriadau cyffredin a chyd-berchnogaeth. Yna defnyddiwyd dadansoddeg graffiau i gyfrifo sgoriau meintiol i bob nod (cwmni cragen) a oedd yn crynhoi gwybodaeth megis pwysigrwydd a dylanwad o fewn rhwydwaith y graffiau, y tebygrwydd 芒 nodau eraill a phresenoldeb cymunedau tebyg (is-rwydweithiau llai). Yna cafodd y sgorau meintiol eu bwydo i mewn i鈥檙 ail gam i hyfforddi model canfod dysgu dan oruchwyliaeth. Treialwyd a gwerthuswyd tri dull dysgu ystadegol modern: un goeden benderfyniadau, coedwig ar hap a rhwydwaith coed wedi鈥檌 hybu. Dewiswyd y tri model yn rhannol oherwydd eu bod yn amharametrig o ystyried nad oes strwythur model priodol hysbys gydag achosion cymhleth o wyngalchu arian. Yn ogystal, mae pob un o'r tair techneg yn seiliedig ar goed, ac mae manteision i hynny o ran ymdrin 芒鈥檙 cyrion, effeithiau rhyngweithiol a materion cydberthynasol.
Un o gonglfeini ymchwil dadansoddeg data cymhwysol yw gwerthusiad trylwyr o berfformiad model. Gwerthuswyd y model trwy ddefnyddio rhaniad data hyfforddi-profi safonol ac amrywiaeth o fetrigau perfformiad. Mae cywirdeb y modelau gorau鈥檔 drawiadol ac mae鈥檙 niferoedd ymhell uwchlaw 90%. Fodd bynnag, mae鈥檔 bwysig ystyried mwy na chywirdeb dosbarthu syml oherwydd gall hynny fod yn fesur camarweiniol os yw鈥檙 data鈥檔 anghytbwys. Yn y dosbarthiad ymchwil hwnnw, ymchwiliwyd i鈥檙 ardal o dan gromlin Nodweddion Gweithredu Derbynnydd (ROC), trachywiredd, adalw a鈥檙 Gwerth-F i gyd gyda鈥檙 model pennaf yn perfformio鈥檔 dda ar draws yr holl fetrigau.