Een nieuw computermodel voor het voorspellen van infraroodspectra van ionen

HFML-FELIX researchers Teun van Wieringen, Jonathan Martens, Jos Oomens and Giel Berden in the lab.

HFML-FELIX onderzoekers Teun van Wieringen, Jonathan Martens, Jos Oomens en Giel Berden.

Onderzoekers van HFML-FELIX hebben – met samenwerkingspartners van de Universiteit van Waterloo in Canada – een nieuw machine learning model ontwikkeld en gedemonstreerd, dat in staat is om infraroodspectra van ionen veel sneller en met betere nauwkeurigheid te voorspellen dan traditionele modellen.

Het brede doel van dit onderzoek is het identificeren van moleculaire onbekenden. Denk bijvoorbeeld aan bloedmonsters van een groep patiënten met een gemeenschappelijke ziekte of gemeenschappelijke symptomen. Het is al bekend dat de patiënten in deze groep moleculen in hun lichaam hebben die verschillen van gezonde mensen, zogenaamde biomarkers. De laboratoriumtesten in het ziekenhuis kunnen de massa’s van deze moleculen meten, maar ze beschikken niet over de technieken om de moleculaire structuren te bepalen. Dit vormt een probleem voor moleculen die niet eerder geassocieerd zijn met een bepaalde ziekte of die eerder onbekend waren.

‘Als je deze moleculen wilt gebruiken als biomarkers voor een specifieke ziekte’, legt Jonathan Martens van HFML-FELIX uit, ‘moet je ook hun structuren kennen. Er kunnen verschillende moleculen zijn met dezelfde massa, die zeer verschillende functies in het lichaam hebben. En daar komen wij in beeld. We gebruiken één van onze infraroodlasers – FELIX – om de structuur van deze onbekende moleculen te identificeren.’

Veel sneller

De interpretatie van infraroodspectra van ionen om moleculaire structuren te bepalen kan uitdagend zijn en was traditioneel afhankelijk van kwantumchemische modellering. ‘Daarom gebruiken we computermodellen; zodat we het infraroodspectrum van waarschijnlijke kandidaten kunnen voorspellen en dat vervolgens kunnen vergelijken met wat we in experimenten vinden.’

Het voorspellen van het infraroodspectrum of de ‘vingerafdruk’ van kandidaatstructuren kan echter tijdrovend zijn. Slechts één berekening kan variëren van enkele uren tot enkele dagen en het berekenen van de infraroodspectra voor alle kandidaatmoleculen van een onbekende stof kan zelfs weken duren. ‘Een model zoals het model dat we hier hebben ontwikkeld, geeft je elke paar seconden een spectrum. Dit stelt je in staat om een veel grotere chemische ruimte te verkennen om je match te vinden en je kunt dit doen in een fractie van de tijd.’

Vele toepassingen

Het is een veelbelovend model, niet alleen voor klinische analyse in de gezondheidssector, maar ook voor milieuanalyse en forensisch onderzoek. Dit nieuwe model is echter ontwikkeld met behulp van een zeer beperkte trainingsset. Vervolgstudies zullen daarom nodig zijn om te testen voor welke chemische datasets het wel en niet werkt. ‘We verwachten dat het zeer goed zal presteren op verschillende chemische datasets, maar we zullen meer testen moeten uitvoeren om dat zeker te weten.’

Er zijn al andere modellen die de infraroodspectra van moleculen voorspellen. Grote modellen, getraind op tienduizenden moleculen. Dat is veel meer dan de 300 die in dit nieuwe model te vinden zijn. Wat maakt het dan beter? ‘In deze grote sets zijn de moleculen bijna volledig neutraal. Het model dat we bij HFML-FELIX hebben getest, keek naar ionen. De dataset is misschien beperkter, maar de toepasbaarheid op ionen is uiterst waardevol. Massaspectrometrie is één van de meest gebruikte technieken in de moderne analytische chemie voor de analyse van complexe mengsels, en deze techniek werkt met ionen, niet met neutrale moleculen. Het model dat in deze studie is ontwikkeld, stelt ons in staat om de infraroodspectra van onbekende ionen die in massaspectrometrie-experimenten worden gedetecteerd te voorspellen en vervolgens hun moleculaire structuren te bepalen.’

Nauwkeuriger

Wat ze met deze specifieke trainings- en testset zagen, is dat het nieuwe machine learning model kwantumchemische methoden met 21 procent overtreft op het gebied van nauwkeurigheid. ‘Het zal waarschijnlijk niet representatief zijn voor alle chemische systemen’, zegt Martens, ‘maar over de beperkte testset die we hebben gebruikt, presteert het aanzienlijk beter. En ik verwacht zeker dat als we de dataset die voor training wordt gebruikt kunnen uitbreiden, het model ook veelzijdiger zal worden.’ Deze prestatie in nauwkeurigheid ondanks de schaarste aan infraroodspectra is de echte doorbraak van dit onderzoek. ‘De transfer-learning benadering die is gebruikt bij het trainen van het model lijkt zeer goed te hebben gewerkt.’

Eén van de meer uitdagende aspecten van deze studie was ervoor zorgen dat het model niet alleen dingen voorspelde die erg leken op wat in de trainingsdata zat. ‘We moesten weten of het “leerde” en verbeterde. Of het ook moleculaire types kon voorspellen die vergelijkbaar waren, maar geen exacte match van een molecuul in de trainingsgegevens. Het bleek dat het dat kon, dus toen wisten we dat het model deed wat het moest doen.’

Toekomstige doorbraken

Zoals Martens eerder zei, zal er vervolgonderzoek zijn om het model nog verder te verbeteren. Als ze daarin slagen, kunnen ze iets nog veel spannenders op het spoor zijn. Iets dat het onderzoeksveld compleet zal veranderen. ‘Het zou nog waardevoller zijn als we het hele proces konden omdraaien. Wat als we niet eindigen met een lijst van infraroodspectra, maar we daarmee beginnen? Het spectrum zou de input voor het model zijn en wat eruit komt is het molecuul. Dit is niet gemakkelijk, maar het zou een enorme doorbraak zijn als we dat voor elkaar krijgen.’

Uit een willekeurig bloedmonster kunnen we nu routinematig slechts enkele procenten begrijpen van alles wat erin zit. Het kan duizenden stoffen bevatten die je iets kunnen vertellen over iemands gezondheid, maar de meeste daarvan komen nu terug als complete onbekenden. Als ze het konden omdraaien en de infraroodspectra van de onbekenden in een model konden plaatsen dat vervolgens het molecuul voorspelt, zou dit revolutionair zijn omdat het het hele identifcatieproces enorm zou versnellen. Het zou bijvoorbeeld zeer precieze gepersonaliseerde therapieën en monitoring mogelijk maken en we zouden het lichaam en de werking ervan veel beter begrijpen dan we nu al doen.

Voorlopig hebben onderzoekers die onbekende moleculen bestuderen een zeer nuttig nieuw model gekregen dat hen veel tijd kan besparen. En dat is iets waardevols, of je nu probeert te bepalen met welke ziekte je te maken hebt, de kwaliteit van water test, of probeert nieuwe psychoactieve stoffen te identificeren.

 

De paper vind je hier: A Machine-Learned “Chemical Intuition” to Overcome Spectroscopic Data Scarcity

Contactpersoon: Jonathan Martens