Le Service Ingénierie Informatique et de la Décision réalise de recherches liées à la bio-informatique depuis de longues années. Certaines de ses recherches se font en collaboration avec plusieurs services de l'ULB.
La prédiction la structure d'une protéine à partir de sa séquence d'acides aminés constitue un des défis de la biologie structurale, dont la résolution permettrait à terme la conception de protéines de structure et fonction prédéterminées, avec de multiples applications entre autres dans la conception rationnelle de médicaments. Il s'agit d'un problème extrêmement complexe qui consiste à localiser le minimum absolu d'une hypersurface à un nombre élevé de dimensions. Les performances des programmes de prédiction existants sont limitées essentiellement par l'absence d'un algorithme d'échantillonnage 'intelligent', adapté aux protéines et mimant leur reploiement réel, qui permette d'atteindre le minimum global de la surface d'énergie libre protéique en un temps raisonnable.
Le projet consiste en l'adaptation, la comparaison et l'analyse de deux algorithmes, celui par colonies de fourmis et celui par essaims particulaires, en vue d'obtenir un programme performant de recherche dans l'espace des conformations et de prédiction de structure protéiques.
Les programmes de prédiction de structure de protéines à partir de leur séquence et les programmes d'amarrage protéine-ligand utilisent généralement une représentation simplifiée de la structure des protéines, négligeant les degrés de liberté des chaînes latérales des acides aminés qui la composent. Cette simplification est nécessaire pour permettre la recherche efficace dans l'espace conformationnel en un temps raisonnable. Toutefois, le positionnement correct des chaînes latérales est nécessaire dans un deuxième temps, afin de permettre de raffiner les structures prédites et d'aborder les mécanismes fonctionnels.
Le positionnement des chaînes latérales est un problème combinatoire complexe, qui doit rendre compte des préférences conformationnelles de chaque chaîne latérale, des interactions préférentielles entre ces chaînes, de leur empilement optimal et d'une certaine flexibilité de la chaîne principale. Différents algorithmes d'optimisation seront envisagés (colonies de fourmis, essaims particulaires,…). L'algorithme le mieux adapté sera implémenté et testé.
One of the greatest challenge facing biology researchers today is dealing with huge quantities of experimental data stored in various databases with heterogeneous data models and querying interfaces. Making sense of new experimental data requires comparing it to existing results that are often stored in publicly available databases. Querying those data sources and interpreting results by hand is frustrating, error-prone and time-consuming.
Knowledge representations paradigms inspired by the semantic web provide an elegant solution to streamline those data integration processes. Using automatic translation and reasoning, it is theoretically possible to build querying interfaces that allow researchers to obtain relevant information more quickly and with less manual work. Until now, most automatic reasoning platforms have been built inside academia and until now few of them have been transfered to production use.
However, industry-strength databases with semantic querying capabilities are starting to appear. The combination of a solid, scalable relational database system with a modern knowledge representation system and inference engine promises to make data access and integration far easier than it has ever been. The goal of this master's thesis is to explore the possibilities for data integration in the life sciences domain provided by the RDBMS Oracle 11g. The work will follow a three phases plan: