Verslag FWO postdoctoraal mandaat 2005
Inleiding
Kort samengevat is de doelstelling van dit project het bruikbaarder maken van technieken uit het domein van Inductief Logisch Programmeren in de praktijk, vooral voor toepassingen in bio-medische domeinen. Het project omvat twee luiken. Het eerste vertrekt vanuit de data mining en meer bepaald het domein van Inductief Logisch Programmeren. Het is de bedoeling betere data-mining technieken te ontwikkelen die de moeilijkheden uit bio-informatica applicaties beter aan kunnen. Het tweede luik vertrekt vanuit de toepassingen zelf, van waarin dan geprobeerd wordt om met behulp van data mining technieken bij te dragen tot die applicatie-domeinen zelf.
Data mining onderzoek
Gaussiaanse processen voor data voorgesteld met grafen
Er werd een artikel aanvaard [1] dat een uitbreiding van vroeger werk [7] behandelt, nl. Guassian processes toegepast op relationeel reinforcement leren. Deze uitbreiding bevat meerdere verbeteringen, waaronder optimalisaties bij het berekenen van de kernels die de efficientie sterk verhogen. Er werd voorbereidend werk gedaan om deze techniek (supervised learning versie) toe te passen op de gegevensbank met kritiek zieke patienten (Sectie \ref{sec:icu}).
Efficiente afstand- en kernel-gebaseerde methoden voor 'gemakkelijke' klassen grafen
Er werd een studieverblijf in Bonn (Tamas Horvath, Fraunhofer institut, November 2005) voorbereid waar gewerkt zal worden rond kernels en afstanden op 'gemakkelijke' klassen van grafen. De huidige technieken in het gebied van Inductief Logisch programmeren en Graph Mining veronderstellen meestal data voorgesteld met (algemene) grafen, waardoor de computationele kost zowel in theorie (worst case) als in de praktijk exponentieel stijgt met de grootte van de grafen. In de praktijk echter, kan men vaststellen dat veel data kan voorgesteld worden met gemakkelijker klassen grafen. bv. veel moleculen kunnen met planaire grafen voorgesteld worden, en elk atoom heeft hoogstens 6 bindingen. Er bestaat een uitgebreide literatuur over klassen grafen waarvoor de operaties nodig om te leren efficient (in polynoomtijd) kunnen uitgevoerd worden. Integratie van deze technieken in leersystemen kan deze leersystemen dus potentieel veel scaleerbaarder maken.
Actief leren
Er werd tijdens een studieverblijf (2 maand) aan de computational biology groep van de University of Wales (Aberystwyth, UK) gewerkt rond actief leren. Hier willen we vooral nagaan hoe lerende algoritmen kunnen omgaan met reele wereld-experimenten (onzekerheid, real-time) en hoe ze door zelf experimenten te kiezen het leerproces kunnen verbeteren. De juiste (meest informatieve) experimenten kiezen kan zeer kostenbesparend zijn in (duur) bio-medisch onderzoek. Het in de literatuur bestaande werk i.v.m.\ actief leren heeft zich tot nu toe vooral toegespitst op een analyse van de verbetering van de complexiteit van het leren en methoden die het volgend meest informatieve experiment proberen te bepalen. Beide soorten benaderingen moeten nog sterk verbeterd worden om praktisch bruikbaar te zijn. Complexiteitsanalyses maken vaak veronderstellingen die in de praktijk niet opgaan. Methoden die enkel het volgend meest interessante experiment proberen te bepalen veronderstellen vaak dat een kwaliteitsfunctie voor experimenten gemakkelijk optimaliseerbaar is over de ruimte van alle mogelijke experimenten. Dit is vaak niet het geval, bv. voor relationele data of voor experimenten met een zeer groot aantal parameters. Dit laatste is het geval in het probleem dat in Aberystwyth bestudeerd werd (coherent laser control, zie Sectie \ref{sec:rossking}).
Bio-medisch onderzoek
Data mining onderzoek in bio-medische domeinen vereist in de eerste plaats goede databanken met accurate gegevens en samenwerking met domein experts met inzicht in de specifieke toepassingen.
Intensieve geneeskunde
in 2004 werd een samenwerkingsproject gestart met de afdeling intensieve geneeskunde van het UZ Leuven. Er werd een artikel voorbereid i.v.m. een beperkte databank met gegevens van patienten van voorbije jaren. Dit artikel beschrijft resultaten die toelaten om verschillende factoren (overleven van de patient, nierfalen, SIRS, SIRS-shock, \ldots) te voorspellen, meestal even goed als, en soms iets langer van tevoren dan de verpleegsters en artsen. Dit resultaat is bemoedigend aangezien we in de tweede faze van het project over meer informatie zullen beschikken (monitoring van parameters elke 3 minuten) en dus mogelijks dit resultaat kunnen verbeteren. Dit zou toelaten om sneller preventief op te treden tegen problemen. Het werk rond kernel-gebaseerde methoden (sectie \ref{sec:kernels}) zal in die tweede faze helpen om de grote hoeveelheden numerieke data te modelleren.
HIV onderzoek
In een samenwerkingsproject met o.a. het Rega-instituut (KULeuven) en Tulio Deoliveira (Oxford, UK) wordt onderzoek gedaan naar HIV. Dit omvat o.a.\ onderzoek naar de mutatiemechanismen en het detecteren van therapiefalen, om vanuit een beter inzicht in deze elementen tot een verbetering van de behandeling te komen. Initiele resultaten i.v.m.\ de correlaties tussen mutaties werden voorgesteld [17] in een lessenreeks gegeven in Zuid-Afrika die tot doel had bio-medici beter vertrouwd te maken met data-mining technieken. Samen met een beginnend doctoraatsstudent (Leander Schietgat) zullen deze resultaten nu verder uitgewerkt worden.
Coherente lasercontrole
In samenwerking met Ross King en Robert Burbidge (Aberystwyth, UK) werd er gewerkt rond coherente lasercontrole. Hoewel dit een eerder chemische toepassing is, zijn er perspectieven op toepassing in de biologie, en is dit een applicatie die dezelfde uitdagingen vertoont voor actief leren als een aantal biologische applicaties die in Aberystwyth bestudeerd worden, zij het in meer controleerbare vorm. Het doel in deze toepassing is om de vorm te vinden van een puls die optimaal een bepaalde chemische reactie bewerkstelligt. Om deze optimale puls te vinden, kunnen experimenten uitgevoerd worden, zij het tegen een bepaalde kost per experiment waardoor actief leren nuttig wordt. Door het grote aantal parameters dat gekozen kan worden voor de vorm van een puls is het onmogelijk om met een klassieke methode het meest informatieve experiment te vinden en hier werden dan ook alternatieven voor bedacht.
Andere resultaten
Naast project-gerelateerd onderzoek besteed ik tijd aan de dagelijkse begeleiding van en het samenwerken met een aantal doctoraatsstudenten binnen de onderzoeksgroep. Zo is er Tom Croonenborghs en Robby Goetschalckx die werkt rond reinforcement learning [8,9,18]. Samen met Daan Fierens wordt gewerkt aan probabilistische modellen in een relationele setting [4,10,19] en de toepassing ervan in bio-medische domeinen (zie bv. sectie \ref{sec:icu}).
Conclusie
In het tweede jaar van het postdoctoraal mandaat werden meerdere aspecten van het project verder uitgewerkt. Wat de applicaties betreft werd er gekozen voor een aantal uiteenlopende toepassingen waarvoor we domein-experts kennen waarmee actief kan samengewerkt worden om tot relevante resultaten te komen.
Bibliografie
De publicaties kunnen gedownload worden vanaf http://www.cs.kuleuven.ac.be/publicaties/deptgb/
A1. Artikels in internationale gereviewde tijdschriften
- K.Driessens, J. Ramon and T. Gaertner, Graph kernels and Gaussian processes for relational reinforcement learning, Machine Learning. To appear (Impactfactor = 3.050)
- J. Struyf, J. Ramon, M. Bruynooghe, S. Verbaeten, and H. Blockeel, Compact representation of knowledge bases in inductive logic programming, Machine Learning, 57 (3), pp. 305-333, December, 2004 (Impactfactor = 3.050)
C1. Artikels in proceedings van internationale conferenties
i) Artikels in proceedings met professionele uitgever
- D. Fierens, H. Blockeel, M. Bruynooghe, and J. Ramon, Logical Bayesian networks and their relation to other probabilistic logical models,
Proceedings of the 15th International Conference on Inductive Logic
Programming (Kramer, S. and Pfharinger, B, eds.), vol 3625, Lecture
Notes in Computer Science, pp. 121-135, 2005 (acceptance rate = 51%)
- D. Fierens, J. Ramon, H. Blockeel, and M. Bruynooghe, A comparison of approaches for learning probability trees, Proceedings of 16th European Conference on Machine Learning, Porto, Portugal (Camacho, R. and Gama, J., eds.), 2005, (acceptance rate = 25%)
- L. De Raedt, and J. Ramon, Condensed representations for Inductive Logic Programming, Proceedings of Ninth International Conference on the Principles of Knowledge Representation and Reasoning, Delta Whistler Resort, Canada (Dubois, D. and Welty C., eds.), 2004 (acceptance rate = 31%)
- J. Ramon, and T. Croonenborghs, Searching for compound goals using relevancy zones in the game of Go, Proceedings of Fourth International Conference on Computers and Games, Ramat-Gan, Israel (van den Herik, J. and Bjornsson, Y. and Netanyahu, N., eds.), 2004. Lecture Notes in Computer Science, Springer Verlag (acceptance rate = 51%)
- T. Gartner, K. Driessens, and J. Ramon, Graph kernels and Gaussian processes for relational reinforcement learning, Inductive Logic Programming, 13th International Conference, ILP 2003, Proceedings (Horvath, T. and Yamamoto, A., eds.), vol 2835, Lecture Notes in Computer Science, pp. 146-163, 2003 (acceptance rate = 40%)
ii) Artikels in andere proceedings
- K. Tuyls, T. Croonenborghs, J. Ramon, R. Goetschalckx, and M. Bruynooghe, Multi-agent relational reinforcement learning,
Proceedings of the First International Workshop on Learning and
Adaptation in Multi Agent Systems (Tuyls, K. and Verbeeck, K. and 't
Hoen, P. and Sen, S., eds.), pp. 123-132, 2005
- J. Ramon, On the convergence of reinforcement learning using a decision tree learner,
Proceedings of ICML-2005 workshop on Rich Representation for
Reinforcement Learning, Bonn, Germany (Driessens, K. and Fern, A., van
Otterlo, M., eds.), 2005, accepted
- D. Fierens, J. Ramon, H. Blockeel, and M. Bruynooghe, A comparison of approaches for learning first-order logical probability estimation trees,
15th International Conference on Inductive Logic Programming,
Late-breaking papers (Kramer, S. and Pfharinger, B., eds.), pp. 11-16,
2005
- L. De Raedt, and J. Ramon, Condensed representations for inductive logic programming,
Proceedings of the 14th International Conference on Inductive Logic
Programming, Work in Progress Track (Camacho, R. and King, R. and
Srinivasan, A., eds.), pp. 25-34, 2004
- T. Croonenborghs, J. Ramon, and M. Bruynooghe, Towards informed reinforcement learning, Proceedings of the ICML'04 workshop on relational reinforcement learning (Tadepalli, P. and Givan, R. and Driessens, K., eds.), pp. 21-26, 2004
- J. Ramon, and J. Struyf, Efficient theta-subsumption of sets of patterns, Benelearn 2004 - Annual Machine Learning Conference of Belgium and the Netherlands (Nowe, A. and Lenaerts, T. and Steenhaut, K., eds.), pp. 95-102, 2004
- J. Ramon, and K. Driessens, On the numeric stability of Gaussian processes regression for relational reinforcement learning, Proceedings of ICML-2004 workshop on relational reinforcement learning, Banff, Canada (Tadepalli, P. and Givan, R. and Driessens, K., eds.), 2004
- D. Fierens, H. Blockeel, J. Ramon, and M. Bruynooghe, Logical Bayesian networks, Proceedings of 3rd International Workshop on Multi-Relational Data Mining, Seattle, USA (Dzeroski, S. and Blockeel, H., eds.), pp. 19-30, 2004
- J. Ramon, and T. Gaertner, Expressivity versus efficiency of graph kernels, Proceedings of the First International Workshop on Mining Graphs, Trees and Sequences (Washio, T. and De Raedt, L., eds.), pp. 65-74, 2003
iii) Lessen
Cursustekst en presentatie beschikbaar
- J. Ramon, Association analysis,
The HIV Data Management and Data Mining Workshop, South African Medical
Research Council, 491 Ridge Road, Durban, South-Africa, December 16th,
2004, Molecular Virology and Bioinformatics Unit at Africa Centre for
Health and Population Studies, 4h
C2) Abstracten van mededelingen op conferenties en interne verslagen
- J. Ramon, On the convergence of relational reinforcement learning using a decision tree learner, Freiburg, Leuven and Friends Workshop, FLF'05, Ferrières, Belgium, March 7-9, 2005,
- D. Fierens, J. Ramon, H. Blockeel, and M. Bruynooghe, A comparison of approaches for learning probability trees, Department of Computer Science, K.U.Leuven, Report CW 418, Leuven, Belgium, July, 2005
- J. Ramon, and J. Struyf, Frequent pattern mining under generalized subsumption, Dutch Belgian Database Day 2004, DBDBD 2004, Antwerpen, Belgium, December 3, 2004
- J. Ramon, and J. Struyf, On efficient mining of compactly represented sets of frequent patterns in relational languages, Workshop on Inductive Databases and Constraint Based Mining, Hinterzarten, Germany, March 11-13, 2004,
- J. Ramon, Active learning: The domain expert is not an oracle, 5th "Freiburg, Leuven and Friends" Workshop on Machine Learning, FLF-04, Hinterzarten, Germany, March 8-10, 2004
- D. Fierens, H. Blockeel, and J. Ramon, Domain and combining rules in Bayesian logic programs, 5th "Freiburg, Leuven and Friends" Workshop on Machine Learning, FLF-04, Hinterzarten, Germany, March 8-10, 2004
- T. Croonenborghs, and J. Ramon, Informed reinforcement learning, 5th "Freiburg, Leuven and Friends" Workshop on Machine Leanring, FLF-04, Hinterzarten, Germany, March 8-10, 2004
- J. Struyf, J. Ramon, M. Bruynooghe, S. Verbaeten, and H. Blockeel, Compact representation of knowledge bases in inductive logic programming, K.U.Leuven, Department of Computer Science, Technical Report CW 377, May, 2004