Verslag FWO postdoctoraal mandaat 2004
Inleiding
Kort samengevat is de doelstelling van dit project het bruikbaarder maken van technieken uit het domein van Inductief Logisch Programmeren in de praktijk, vooral voor toepassingen in bio-medische domeinen. Het project omvat twee luiken. Het eerste vertrekt vanuit de data mining en meer bepaald het domein van Inductief Logisch Programmeren. Het is de bedoeling betere data-mining technieken te ontwikkelen die de moeilijkheden uit bio-informatica applicaties beter aan kunnen. Het tweede luik vertrekt vanuit de toepassingen zelf, van waarin dan geprobeerd wordt om met behulp van data mining technieken bij te dragen tot die applicatie-domeinen zelf.
Data mining onderzoek
Kernel-gebaseerde methoden
Er werd een tijdschrift-artikel voorbereid dat een uitbreiding van vroeger werk behandelt, nl. Guassian processes toegepast op relationeel reinforcement leren. Het basisalgoritme dat gebruik maakt van een kernel-gebaseerde methode is direct overneembaar in meer directe leersystemen. Dat zal later o.a. gebruikt worden voor het bouwen van modellen voor de gegevensbank met kritiek zieke patienten. (publicaties: [4] en [7]). Ander werk behandelt de keuze van de kernel in een relationele setting. (publicatie: [9])
Actief leren
Er werd ook aandacht besteed aan actief leren. Hier willen we vooral nagaan hoe lerende algoritmen kunnen omgaan met reële wereld-experimenten (onzekerheid, real-time) en hoe ze door zelf experimenten te kiezen het leerproces kunnen verbeteren. Tot nu toe werden eindwerken rond dit onderwerp begeleid en een aantal ideeën gepubliceerd op een workshop. Later zal dit aspect van het project belangrijk zijn voor de toepassing vermeld in sectie \ref{sec:rossking}. (publicatie: [11])
Compacte representatie van kennisbanken (I.3 van het project)
Een belangrijke eigenschap van bioinformatica databanken is dat ze vaak zeer groot zijn. Het is dan ook belangrijk om met deze grote hoeveelheid informatie op een efficiente manier om te gaan, en de resultaten van zoekacties in deze informatie op een efficiente en overzichtelijke manier voor te stellen. Een aantal van de inspanningen met betrekking tot data mining algoritmes hebben zich dan ook gericht op het verwerken van complexe grote verzamelingen gegevens in meerdere relaties. Vroeger onderzoek naar een compacte representatie van kennisbanken door gebruik van meerdere relaties en operatoren die sommige informatie impliciet weergeven, en efficient gebruik ervan door data mining systemen werd verder uitgebreid. Deze techniek laat bv. toe data mining te doen op databanken waarbij elk voorbeeld een molecule is waarbij de structuur impliciet wordt voorgesteld dmv combinatie van kleinere fragmenten (publicatie: [1,14])
Compactie van verzamelingen frequente patronen
Het ontdekken van de verzameling van alle frequente patronen in een databank is een belangrijke taak in het domein van data mining. Als men meer expressieve talen gebruikt, hetgeen nuttig is om complexe patronen te ontdekken, dan zal het aantal frequente patronen sterk toenemen. Hiervoor werd een oplossing voorgesteld. Deze past enerzijds bestaande technieken in het domein van frequent itemset discovery (de concepten ``free pattern'' en ``closed pattern'') toe in een relationele setting, en introduceert anderzijds de begrippen ``semantically free/closed''. Dit laatste laat de domein expert toe om achtergrondkennis te introduceren. Dit laat toe om een groot aantal redundante patronen te elimineren en vooral ``nieuwe'' informatie te ontdekken. (publicatie: [2]). Er werden ook een aantal methoden ontwikkeld om het query-en van voorbeelden in de context van relationele Apriori-achtige algoritmes te versnellen (publicaties: [6,10]).
Bio-medisch onderzoek
Data mixning onderzoek in bio-medische domeinen vereist in de eerste plaats goede databanken met accurate gegevens. Voor verschillende domeinen werd dan ook eerst samen gewerkt met de domein experts om een goede gegevensbank op te stellen en data te verzamelen. Een aantal van deze toepassingen gaven reeds aanleiding tot verbetering van de in de onderzoeksgroep aanwezig data mining software. Er zijn echter voor dit onderdeel nog geen publikaties.
Intensieve geneeskunde
in 2004 werd een samenwerkingsproject gestart met de afdeling intensieve geneeskunde van het UZ Leuven. Er is een beperkte databank met gegevens van patienten van voorbije jaren en men is bezig met het in gebruik nemen van een systeem dat automatisch elke 2 minuten alle parameters van elke patient opmeet. Het is de bedoeling om door de analyze van deze data meer inzicht te krijgen in de ziektepatronen die optreden bij kritisch zieke patienten, en zo mogelijk therapieverbeteringen voor te stellen. In een eerste faze van dit project werd de bestaande databank bestudeerd. Dit leidde tot suggesties voor verbeteringen van onze algoritmes en tot de formulering van een aantal interessante data mining taken.
HIV onderzoek
In een samenwerkingsproject met o.a. het Rega-instituut van de KULeuven wordt onderzoek gedaan naar HIV. Dit omvat o.a. onderzoek naar de mutatiemechanismen en het detecteren van therapiefalen, om vanuit een beter inzicht in deze elementen to een verbetering van de behandeling te komen. Er werden gegevens verzameld en een eerste reeks experimenten uitgevoerd. Deze lijken te suggereren dat we voor een aantal groepen mutaties die steeds samen voorkomen fysische verklaringen kunnen geven.
Coherente lasercontrole
Een andere toepassing zal gebeuren in samenwerking met Ross King (Aberystwyth, UK). Er zal gewerkt worden aan een systeem dat mbv. actief leren kan leren om de juiste frequenties te vinden waarmee lasers specifieke bindingen in molecules kunnen breken. Omdat de apparatuur om experimenten mee te doen pas in de loop van 2004 geinstalleerd werden, waren echter tot nog toe geen experimenten mogelijk.
Andere resultaten
Naast strikt project-gerelateerd onderzoek besteed ik tijd aan de dagelijkse begeleiding van en het samenwerken met een aantal doctoraatsstudenten binnen de onderzoeksgroep. Zo is er Tom Croonenborghs die werkt rond reinforcement learning, een onderwerp waarbij ik veel kan helpen door de ervaring door vroeger werk in dit domein (o.a. [3,5,13]). Een deel van het werk rond reinforcement leren bestaat uit het creëren van relationele regressie-algoritmes, die op zich ook voor andere leertaken bruikbaar zijn (zie sectie \ref{sec:kernels}). Samen met Daan Fierens wordt gewerkt aan probabilistische modellen in een relationele setting (zie [8,12]) en de toepassing ervan in bio-medische domeinen (zoals bv. de databank van de intensieve zorgen eenheid, cfr. supra).
Conclusie
In het eerste jaar van het postdoctoraal mandaat werden meerdere aspecten van het eerste luik van het project (vertrekkend uit de data mining kant) aangepakt. Ondertussen werden de nodige acties ondernomen om de volgende jaren in een of meer bio-medische domeinen tot resultaten te kunnen komen mbv. de bestaande of juist door die domeinen opgebouwde ervaring.
Bibliografie
De publicaties kunnen gedownload worden vanaf http://www.cs.kuleuven.ac.be/publicaties/deptgb/
A1. Artikels in internationale gereviewede tijdschriften
- J. Struyf, J. Ramon, M. Bruynooghe, S. Verbaeten, and H. Blockeel, Compact representation of knowledge bases in inductive logic programming, Machine Learning, 57 (3), pp. 305-333, December, 2004 (Impactfactor = 3.050)
C1. Artikels in proceedings van internationale conferenties
i) Artikels in proceedings met professionele uitgever
- L. De Raedt, and J. Ramon, Condensed representations for Inductive Logic Programming, Proceedings of Ninth International Conference on the Principles of Knowledge Representation and Reasoning, Delta Whistler Resort, Canada (Dubois, D. and Welty C., eds.), 2004 (acceptance rate = 31%)
- J. Ramon, and T. Croonenborghs, Searching for compound goals using relevancy zones in the game of Go, Proceedings of Fourth International Conference on Computers and Games, Ramat-Gan, Israel (van den Herik, J. and Bjornsson, Y. and Netanyahu, N., eds.), 2004, to appear (acceptance rate = 51%)
- T. Gartner, K. Driessens, and J. Ramon, Graph kernels and Gaussian processes for relational reinforcement learning, Inductive Logic Programming, 13th International Conference, ILP 2003, Proceedings (Horvath, T. and Yamamoto, A., eds.), vol 2835, Lecture Notes in Computer Science, pp. 146-163, 2003 (acceptance rate = 40%)
ii) Artikels in andere proceedings
- T. Croonenborghs, J. Ramon, and M. Bruynooghe, Towards informed reinforcement learning, Proceedings of the ICML'04 workshop on relational reinforcement learning (Tadepalli, P. and Givan, R. and Driessens, K., eds.), pp. 21-26, 2004
- J. Ramon, and J. Struyf, Efficient theta-subsumption of sets of patterns, Benelearn 2004 - Annual Machine Learning Conference of Belgium and the Netherlands (Nowe, A. and Lenaerts, T. and Steenhaut, K., eds.), pp. 95-102, 2004
- J. Ramon, and K. Driessens, On the numeric stability of Gaussian processes regression for relational reinforcement learning, Proceedings of ICML-2004 workshop on relational reinforcement learning, Banff, Canada (Tadepalli, P. and Givan, R. and Driessens, K., eds.), 2004
- D. Fierens, H. Blockeel, J. Ramon, and M. Bruynooghe, Logical Bayesian networks, Proceedings of 3rd International Workshop on Multi-Relational Data Mining, Seattle, USA (Dzeroski, S. and Blockeel, H., eds.), pp. 19-30, 2004
- J. Ramon, and T. Gaertner, Expressivity versus efficiency of graph kernels, Proceedings of the First International Workshop on Mining Graphs, Trees and Sequences (Washio, T. and De Raedt, L., eds.), pp. 65-74, 2003
C2) Abstracten van mededelingen op conferenties en interne verslagen
- J. Ramon, and J. Struyf, On efficient mining of compactly represented sets of frequent patterns in relational languages, Workshop on Inductive Databases and Constraint Based Mining, Hinterzarten, Germany, March 11-13, 2004,
- J. Ramon, Active learning: The domain expert is not an oracle, 5th "Freiburg, Leuven and Friends" Workshop on Machine Learning, FLF-04, Hinterzarten, Germany, March 8-10, 2004
- D. Fierens, H. Blockeel, and J. Ramon, Domain and combining rules in Bayesian logic programs, 5th "Freiburg, Leuven and Friends" Workshop on Machine Learning, FLF-04, Hinterzarten, Germany, March 8-10, 2004
- T. Croonenborghs, and J. Ramon, Informed reinforcement learning, 5th "Freiburg, Leuven and Friends" Workshop on Machine Leanring, FLF-04, Hinterzarten, Germany, March 8-10, 2004
- J. Struyf, J. Ramon, M. Bruynooghe, S. Verbaeten, and H. Blockeel, Compact representation of knowledge bases in inductive logic programming, K.U.Leuven, Department of Computer Science, Technical Report CW 377, May, 2004