This is an old revision of the document!


Table of Contents

MFE 2011-2012 : Intelligence Artificielle

Introduction

Le laboratoire IRIDIA aborde des problèmes dans le domaine de l'Intelligence Artificielle. Si l'on reprend les dires d'un de ses pioniers Marvin Lee Minsky, l'Intelligence Artificielle est définit comme “la construction de programmes informatiques qui s'adonnent à des tâches qui sont, pour l'instant, accomplies de façon plus satisfaisante par des êtres humains car elles demandent des processus mentaux de haut niveau tels que : l'apprentissage perceptuel, l'organisation de la mémoire et le raisonnement critique”. L'IA a beaucoup évolué depuis et s'inspire largement de phénomènes biologiques, physiques, cognitifs ou encore écologiques. C'est donc définitivement une approche transdisciplinaire qui s'accorde principalement à traîtrer des problèmes très complexes. Les domaines principaux de compétence d'IRIDIA sont : l'intelligence en essaim, les métaheuristiques, l'étude des réseaux biologiques et l'application de Business Intelligence. C'est dans cette perspective que les sujets de MFE présentés ci-après s'inscrivent.

Ces sujets sont prêt à être encadrer, mais il va s'en dire qu'ils ne sont pas uniques. Les étudiants sont vivement encouragés à prendre contact avec Hugues Bersini (bersini AT ulb.ac.be) ou Marco Dorigo (mdorigo AT ulb.ac.be) afin de discuter de l'une ou l'autre initiative inspirée pouvant faire l'objet dun autre sujet de MFE ou de préciser le cadres, le contenu et les attentes relatives au sujets présentés.

Exploration, exploitation and evaluation of the .Net Linq library for the problem of object permanence.

The MFE will consist in a deep exploration of the very new microsoft Linq library which aims at resolving the classical problem of mapping between the OO and the relational and the XML world. The different additions of .Net necessary to the implementation of this library will be studied. The library will also be tested in terms of robustness and performance as compared with the previous existing solutions coming from other technological platforms (Java, PHP, …). This memoire will be a follow up of a previous memoire.

Développer un programme informatique permettant une analyse statistique en vue de l'évaluation d'un module psychothérapeutique.

Ce mémoire se fera en collaboration avec l'équipe médicale du centre pour l'anorexie et la boulimie de l'hôpital Erasme. Il consistera en l'analyse informatisée des données récoltées lors d'entretiens avec le patient et sa famille au cours du traitement.

Etude et réalisation orientée objet d'une cellule minimale

Le MFE consistera en un développement orienté objet d'une cellule biologique minimale avec son métabolisme chimique interne, un génome élémentaire et sa membrane. L'idée est de réaliser le logiciel minimal capable de simuler un organisme vivant. Cette cellule devra être capable de croître et de spontanément se dupliquer. Il fera suite à une succession de MFE déjà réalisés ces dernières années.

Data/text mining - Traitement automatique de documents sur base de leur contenu

Ce sujet est destiné aux étudiants en Informatique ou en Sciences Appliquées. Il pourrait être traité par un groupe de deux étudiants.

Au cours de ce travail, nous nous interesserons a l'application d'algorithmes de traitement automatique de documents dans le cadre d'un projet (projet STRATEGO) avec les sociétés IRIS, Mentis et Denali. Nous serons confrontés par exemple à la categorisation (classification) de documents sur base de leur contenu ainsi qu'au clustering de documents.

Les developpements seront effectués en Java, C++, Perl, Python, Matlab ou S-Plus (R).

Il s'agit donc d'un travail de recherche et développement.

Etude de la topologie de réseaux lexicaux extraits de documents

De plus en plus de scientifiques sont convaincus qu’une même topologie de réseaux (c'est-à-dire la manière dont les nœuds en sont connectés) se retrouve dans de nombreux réseaux, pourtant extraits de réalités très diverses (Web, Internet, réseaux sociaux, biologiques, épidémiques). Cette topologie leur conférerait des propriétés intéressantes comme une plus grande robustesse ou une communication réduite entre les nœuds. Il est possible de construire des réseaux lexicaux à partir d’un document quelconque, par exemple, en connectant deux mots qui apparaissent dans une même phrase. Le MFE consistera en un développement logiciel ayant pour but la réalisation automatique de ces réseaux lexicaux à partir d’une variété de documents et l’étude automatisée de leur topologie : distance inter-nœuds, degré de clustering, etc …

Expérimentation des designs patterns pour la modélisation de systèmes biologiques complexes

Tout bon informaticien se doit aujourd’hui de maîtriser ces recettes de conception OO que sont les designs patterns. Au-delà des langages de programmation ou de modélisation (UML), ils sont devenus le sujet d’étude et de développement le plus prisé de la communauté informatique. Leur maîtrise permet à ces mêmes informaticiens d’attaquer la simulation de procédés complexes avec plus de facilité. Le MFE consistera en la mise en pratique de ces designs patterns pour la modélisation de systèmes biologiques complexes comme le système immunitaire ou les mécanismes de régulations génétiques. Le travail devrait déboucher sur une adaptation de ces mêmes designs patterns au monde et aux problèmes de la biologie.

Etude de la topologie de réseaux de musiciens de Jazz

De plus en plus de scientifiques sont convaincus qu’une même topologie de réseaux (c'est-à-dire la manière dont les nœuds en sont connectés) se retrouve dans de nombreux réseaux, pourtant extraits de réalités très diverses (Web, Internet, réseaux sociaux, biologiques, épidémiques). Cette topologie leur conférerait des propriétés intéressantes comme une plus grande robustesse ou une communication réduite entre les nœuds. Il est possible de construire un réseau de musiciens de Jazz connectant deux musiciens dès lors qu’ils ont joué sur un même disque ou participé à un même concert. Le MFE consistera en un développement logiciel ayant pour but la réalisation automatique de ces réseaux de musiciens à partir de documentations sur les disques ou les concerts téléchargés automatiquement de sites de vente en ligne. Le mémorant devra réaliser un logiciel capable d'extraire ces informations sur le Web et ensuite exploitera un ensemble d'outils existant lui permettant d'étudier la topologie du réseau ainsi obtenue.

Evolution de circuits logiques

Depuis quelques années, de nouvelles techniques d'optimisations comme les algorithmes évolutionnistes servent de méthodologie d'aide à la conception. De par leur nature, ces techniques offrent une approche “bottom-up” qui peut sortir des sentiers battus que sont les les approches classiques dite “top-down”. C'est par exemple le cas en conception de circuits logiques et électroniques. Ainsi, cette nouvelle méthodologie de conception assistée par des algorithmes d'optimisation permet de parfois souligner de nouvelles idées inconnues de l'homme jusqu'à ce jour. Ce mémoire se concentrera sur les algorithmes évolutionnistes comme aide à la conception de circuits logiques. Il s'inscrira dans la continuité d'un mémoire effectué en 2007-2008 sur le même sujet. Il s'agira, par exemple, de mettre en oeuvre des techniques pour détecter des motifs récurrents de portes qui peuvent apparaitre, et ainsi permettre une construction automatique de la modularité de la solution. Ou encore de développer une approche multi-objective de la question.

Mise au point d’un système automatique de génération de code à partir d’un diagramme d’état-transition

Le diagramme d’état-transition représente le cycle de vie d’un objet, de sa naissance à sa disparition, en suivant les différents états par lesquels cet objet transite. Il est par exemple très largement mis à l’œuvre dans la modélisation des procédures parlementaires (l’évolution des décrets de loi). C’est le cas dans plusieurs parlements belges avec lesquels IRIDIA collabore. Le MFE étudiera la possibilité d’une génération automatique de code fidèle à ces diagrammes et tout ce qui les compose. Le code généré respectera le design pattern d'état associant une classe à chaque état possible. Des problèmes tels les états compositionnels ou les transitions s'effectuant simultanément seront étudiés.

Mise au point d’un langage de modélisation de systèmes biologiques inspiré des diagrammes de classe et d'état/transition UML

En général, les biologistes par manque de formation recourent très difficilement à la programmation des systèmes qu'ils étudient. Nous souhaitons les assister en mettant à leur disposition un langage qualitatif de modélisation sur base des diagrammes de classe et d'état/transition UML. Ce langage pourrait finalement aboutir à une forme exécutable, par une génération de code Java appropriée et son exécution. Le système sera mis au point en collaboration avec des immunologistes internationnaux avec lesquels IRIDIA entretient des collaborations suivies depuis très longtemps. Ainsi l'idée est de créer un langage de simulation de systèmes biologique qualitatif et graphique qui soit bien plus facile d'utilisation pour les biologistes que les langages de programmation actuels.

Comparaison via la simulation informatique d'une économie de marché de nature concurrentielle et une autre plus redistributive

Les économistes nous assènent à l'envi que l'économie se doit d'être compétitive et parfaitement concurrentielle. Est-ce si vrai ? L'économie de marché ne peut-elle exister que sur un mode concurrentiel pour assurer au mieux le bonheur du plus grand nombre d'agents économiques ? Nous adresserons cette question par l'entremise de modèles économiques multi-agents mettant en présence des producteurs,acheteurs, consommateurs et vendeurs, et les faisant se comporter d'abord sur un monde compétitif (économie de marché de type enchère) et ensuite aléatoire. Nous étudierons la manière dont le bien-être cumulé par les agents consommateur est distribué parmi eux. Ce mémoire fait suite à un mémoire réalisé par un étudiant de Solvay l'année passée et donc il pourra repartir d'un logiciel existant.

Détection de modularités appliquée à la biochimie

En biochimie, la simulation et l'optimisation des systèmes font intervenir tant et tant de variables que les dimensions sont plus que nombreuses. Ce caractère hyperdimensionnel fait exploser d'une part l'espace de recherche, mais augmente également la difficulté de l'espace de recherche. En effet, les variables d'états du système sont souvent corrélées non-linéairement. La force de ces dépendances délimite d'ailleurs souvent des modules fonctionnels qui, une fois détectés, peuvent être mis à profit. Les nouvelles techniques d'optimisation trouvent ainsi un écho logique dans le domaine de la bioinformatique ou de la chimie pharmaceutique. Au cours de ce mémoire, l'étudiant mettra en oeuvre diverses techniques se basant sur un principe de modularité. Il les analysera et les comparera sur un problème appliqué dans les domaines précités (diverses possibilités envisageables). Ce travail se constitue donc principalement comme une recherche appliquée où une méthodologie expérimentale rigoureuse sera requise.

Software framework for Ant Colony Optimization

Ants have inspired a number of computational techniques and among the most successful is ant colony optimization (ACO). ACO is an optimization technique that can be applied to tackle a wide variety of computational problems that arise in computer science, telecommunications, and engineering. While ACO has a very wide applicability, the development times for effective ACO algorithms can be relatively high. This is due to the fact that each time a new problem is to be tackled by an ACO algorithm, a researcher needs to implement the algorithms almost from scratch.

The goal of the project is to provide a software framework to support the application and the implementation of ACO algorithms to new problems. The software framework will offer all the standard procedures that are used in ACO algorithms and will allow for the rapid prototyping of ACO algorithms. The application of this software framework will be tested on a number of optimization problems.

Required skills: The candidate should be well acquainted with programming in object oriented languages.

Optimising Ant Colony Algorithms for Performance

Ants have inspired a number of computational techniques and among the most successful is ant colony optimization (ACO). ACO is an optimization technique that can be applied to tackle a wide variety of computational problems that arise in computer science, telecommunications, and engineering.

The goal of this project is to improve the performance of ACO algorithms by investigating and testing various implementation techniques: intrinsic functions (MMX/SSE floating-point operations), CPU cache effects, or GPU programming.

Required skills: knowledge of C programming. Some knowledge about computer architecture.

Graphical Tools for analysing Multi-Objective Data.

In multi-objective problems, not only one objective function must be minimised but several, often conflicting, objectives must be taken into account. The result is often a set of solutions modelling the trade-off between the objectives of the problem.

The goal of this project is to develop graphical tools to interactively examine and compare the results of algorithms for multi-objective problems.

Required skills: The candidate should be well acquainted with programming in object oriented languages.

Stochastic local search algorithms for weighted maximum clique problems.

The Maximum Clique Problem is an NP-hard combinatorial optimisation problem that asks to find the biggest completely connected component of a graph. It has relevant applications in information retrieval, computer vision, social network analysis, computational biochemistry, bioinformatics and genomics.

Among the possible generalisations of the problem there is the Vertex Weighted and Edge Weighted Maximum Clique which asks to find the clique of maximum weight. Being generalisations they are also NP-hard. The goal of the project is to devise heuristic algorithms or adapt existing algorithms of the Maximum Clique for weighted version.

Required skills: good knowledge of C or C++ programming.

Stochastic Local Search heuristics for solving NP-complete puzzles.

This project is about single player games (puzzles) and the design of algorithms for tackling hard combinatorial optimisation problems. Example puzzles are: Light Up, Mastermind, Minesweeper, etc.

The student will learn how to design and implement a Stochastic Local Search algorithm to solve NP-complete puzzles. The student will also learn how to analyse the performaces of the algorithm and perform statistically sound comparisons with the other algorithms available in literature.

Required skills: good knowledge of C or C++ programming.

Experiments with the e-puck robot and the IRIDIA TAM

At IRIDIA, we are conducting many experiments with the e-puck robot and a task abstraction device, the IRIDIA TAM. The topic of the master thesis would be integrate the TAM with the e-puck robot and our simulation environment, ARGoS. The final goal is to have the TAM tested in real-robot experiments.

The subject is practical and requires a dedicated student that is able to program in C++. A possible candidate should be willing to work with hardware and real robots. Additionally, the candidate must be very motivated and creative. The working language is English.

  • Contacts: Mauro Birattari, Marco Dorigo, Arne Brutschy, Giovanni Pini (IRIDIA)

Collaboration between flying robots and ground-based robots

Current research in self-assembling robots mainly focuses on systems composed of identical (i.e., homogeneous) robots. In this thesis, however, we consider a system composed of robots with varying capabilities and different sensors. In particular, we consider a heterogeneous self-assembling system composed of both ground-based robots and flying robots. The ground-based robots can respond to various task contingencies by autonomously connecting to each other and forming collective structures. The flying robots can use their large field of view (from their elevated positions) to assist the ground-based robots in their tasks.

In this thesis, the student will focus on the flying robots in the system. The student will explore how the flying robots can i) run internal simulations on possible connections between the ground-based robots to determine the response structure to a task and ii) apply machine learning techniques to let the flying robot use previous, successful experiences to learn about tasks and their possible response structures. The results of the study can be tested on real flying and ground-based robots.

Concrete ideas will be developed together with the student. A candidate student must be very motivated, independent, have a good knowledge of machine learning techniques, and have a good grasp of C++. The working language is English.

Recruitment strategies for collective decision making in swarm robotics

Studies of ants and bees have led to different models of collective decision making methods in social insects. Swarms of cooperating robots also have to find consensus decisions and thus face similar problems as social insects. It is an interesting research question if the biological models can be applied to create decentralized and robust decision making methods for swarms of robots. More precisely, we assume that robots are able to estimate their confidence about their own decision. Thus, if a group of robots is unsure about a decision they shall recruit more robots into the decision process to assure a certain quality in the overall decision.

The goal of this master thesis project is to study different recruitment strategies for decision making in swarms of robots. The following application scenario will be implemented. A group of robots need to classify an object in order to operate on it. Through its sensors the single robots can classify an object with a certain accuracy. This opinion can then be shared in a group to reach consensus. If the individual robot's opinions differ strongly from the one of other robots or the robots do not have the necessary skills/sensors they might not be able to reach a final decision. In this case they can recruit other robots and involve them in the decision making process.

Required skills: the candidates should be acquainted with C/C++ programming and have a working knowledge of the English language.

* Contact: Mauro Birattari, Marco Dorigo, Manuele Brambilla, Alexander Scheidler (IRIDIA)

Scalable aggregation in swarm robotics without global information or environmental clues

Several studies in biology have shown that group of social insects are able to gather to a particular spot. This process is usually driven by environmental clues such as shadows projected by a shelter (cockroaches) or temperature gradients (bees). These studies have been a source of inspiration for several algorithms in swarm robotics. Is it possible to achieve the same result without an environmental clue? Do we need global information in order to let a group of robot gather in one place?

The goal of this project is to study how to solve an aggregation task without relying on environmental clues or global signaling. The problem can be seen as an exploration-exploitation trade-off tackled by a single robot. The robot has to select between keeping exploring, that is, finding the the largest aggregate, or exploiting, that is join a previously created aggregate. The study will be conducted only in simulation and will concern comparing different approaches for decision making or different communication strategies.

Required skills: The candidates should be acquainted with C++ programming and have a working knowledge of the English language.

  • Contact: Mauro Birattari, Marco Dorigo, Eliseo Ferrante, Ali Emre Turgut (IRIDIA)

A comparison of decision-making strategies for adaptive foraging in swarm robotics

Group of social insects are able to efficiently find the (shortest) path to the a food source and even to differentiate between the quality of two food sources. Studies with ants showed that this mechanism is driven by the perception of stimuli from chemical substances like pheromone. Moreover ants are able to collectively modify their choices if there are changes in the environment, that is, if a source becomes better than another. These ideas have been a source of inspiration for several algorithms in swarm robotics which solves a similar problem (retrieval of objects) by using different types of stimuli such as the encounter rate of objects.

The goal of this project is to perform a study on how to solve a foraging task in which robots have to choose between staying at the nest or go foraging for different energy sources. The optimal strategy might change over time. What happens if all the robots go to the best source? Will these “traffic jams” slow the process? Is it possible to avoid this problem? What if source quality changes over time? The study will be conducted only in simulation and will concern comparing different approaches and different metrics to measure stimuli.

Required skills: The candidates should be acquainted with C++ programming and have a working knowledge of the English language.

  • Contact: Mauro Birattari, Marco Dorigo, Eliseo Ferrante, Manuele Brambilla (IRIDIA)

Kaleidoscope: Creating temporal motion patterns in a swarm of robots

In swarm robotics, agents are programmed in such a way that local actions and simple interactions among agents result in complex, swarm-level dynamics. At present, the design of swarm robotic control systems is more of a craft than a science, mainly because significant design patterns are still to be identified and studied. This project aims to discover and study temporal patterns in robot motion, and subsequently to encode them into reusable design patterns. Each robot is assumed to possess a limited set of capabilities, such as the ability to change body color and to perceive other robots and their colors in a short range. Individual controllers are derived from a very simple but powerful mathematical model. The work of the student will be to code and analyze robot controllers, both with simulated and real robots. The most important required skills are a good knowledge of C and C++ and no fear of mathematics. The working language is English.

Automatic fitness function definition in evolutionary robotics

Evolutionary robotics is a fascinating approach to the design of robot controllers that takes inspiration from natural evolution.

In order to obtain a robot that is able to perform a desired task, the evolutionary robotics approach considers a population of robots that evolves in time. Each robot is characterized by a genotype that defines somehow its behavior. Each robot is evaluated according to a fitness function that measures the ability of the robot to perform the desired task. Robots with a low fitness are eliminated. Robots with a high fitness remain in the population and generate offsprings – e.g., robots with a similar genotype obtained via mutation and/or cross-over. Through this process, generation by generation, the evolutionary robotics approach is able to obtain robots that present higher and higher fitness and that are therefore able to perform the desired task more and more effectively.

One of the main open problems in evolutionary robotics is that the definition of an appropriate fitness function is a very complex, labor-intensive, and time-consuming activity that requires the attention of an expert researcher.

The goal of this master thesis is to devise an automatic method to define a fitness function in order to obtain a robot that is able to perform a desired task. This automatic method will be based on machine learning and metaheuristic algorithms. In particular, it will draw ideas from the fields of reinforcement learning and of on-line adaptation of parameters in optimization algorithms.

Required skills: The candidates should be acquainted with C/C++ programming and have a working knowledge of the English language.

* Contact: Mauro Birattari, Marco Dorigo, Vito Trianni (IRIDIA)

Simulation et optimisation de trafic routier

Mentis, spin-off du laboratoire IRIDIA, est une société de consultance spécialisée en Data Mining et en Text Mining. Mentis cherche actuellement des mémorants pour lancer diverses études d’optimisation dans le domaine de la simulation de trafic routier.

Dans le cadre d’un projet pour un de ses clients, Mentis travaille actuellement dans le domaine de la simulation de trafic routier. L’objectif du mémoire proposé consiste à lancer plusieurs études d’optimisation pour évaluer l’impact de différentes politiques routières sur le trafic. Il sera demandé à l’étudiant de mettre en œuvre diverses techniques d’optimisation afin de déterminer les politiques routières optimales. Une grande partie du mémoire sera faite dans les bureaux de Mentis ainsi qu’en interaction directe avec le client.

Outil de visualisation géographique de potentiel prédictif

Le développement de cet outil se fera en collaboration avec Business-Insight, une société commerciale principalement active dans le domaine de la business-intelligence. Business-Insight est le leader technologique européen de la recherche en matière de datamining prédictif pour les banques, les assurances et les opérateurs télécoms. Business-Insight a démontré la supériorité technologique de ses outils lors de nombreux concours de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil de classification automatique nommé « TIM ». TIM crée des modèles prédictifs qui permettent de prédire la probabilité qu’une personne (un prospect) achète un produit donné (“propensity to buy predictive modeling”). L'objectif de ce MFE est de réaliser en C++ (et avec les librairies Qt + éventuellement OpenGL) un logiciel qui “projette sur une carte vectorielle de la Belgique, la France, le Luxembourg,… le potentiel commercial de chaque commune, tel qu'évalué par analyse prédictive”. C’est un projet qui nécessite de manipuler de grands volumes de données (par exemple, l’Allemagne est, au départ, un base de donnée d’environ 1 GB) et il devrait intéresser tout étudiant avec un penchant pour les algorithmes de visualisations temps réel et la programmation C++ « avancée ». Plus de détails sont disponibles ici: PDF (page 2).

Amélioration de la visualisation 3D temps-réel de la segmentation de la clientèle d'une société commerciale

Le développement de cet outil se fera en collaboration avec la société Business-Insight. Business-Insight est le leader technologique européen en matière de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil de segmentation automatique nommé « StarDust ». StarDust « découpe » la base de données des clients en plusieurs segments, de façon à pouvoir réaliser des campagnes marketing adaptées à chaque segment de clientèle. La visualisation de la segmentation obtenue est une partie importante (si pas la plus importante) d’un logiciel de Segmentation. L'objectif de ce MFE est d'améliorer substantiellement la qualité de la visualisation en utilisant des effets de “transparence”. Ces effets de “transparence” seront basés sur du “order independent transparency” et codés en “OpenGL shading language” et intégré dans une application en C++ (+Qt). Plus de détails ici: PDF (page 3)

Outil d'analyse de réseau social

Le développement de cet outil se fera en collaboration avec la société Business-Insight. Business-Insight est le leader technologique européen en matière de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil de manipulation et de mise en forme des données nommé « Anatella ». Avant de créer de nouveaux modèles prédictifs, il est nécessaire de “mettre en forme les données” dans un seul et unique “tableau” qui regroupe toute les informations connues sur le processus à prédire. Cette mise en forme est réalisée classiquement grâce à des outils d'“ETL”. Actuellement, ces ETL sont tous capables de manipuler des tableaux de données (jointure, filtrage, etc.) mais ils sont incapables de manipuler de données structurées sous forme de “réseaux”. L'objectif de ce MFE est de mettre à disposition dans Anatella de nouveaux opérateurs de transformations de données spécialisés dans la manipulation des “réseaux”. Les algorithmes développés seront appliqués à des réseaux sociaux construits à partir de réseaux de « coups de téléphones » (un noeud=une personne; un arc=un coup de fil entre 2 personne). La taille des réseaux analysés est donc très grande : plusieurs millions de noeuds et plusieurs centaines de millions d’arcs sont des choses courantes. Ce projet implique de l’algorithmique de haut vol et nécessite de développer C++ (+Qt). Plus de détails sont disponibles ici: PDF (page 4)

Intégration d'un capteur haptique dans l'outil d'exploration multidimentionnelle de base de données de clientèle

Le développement de cet outil se fera en collaboration avec la société Business-Insight. Business-Insight est le leader technologique européen en matière de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil nommé « StarDust ». StarDust réalise des segmentations. StarDust permet aussi de se “déplacer” dans un espace 3D qui représente la base de données des clients. Actuellement, ce “déplacement” s'effectue grâce à la souris. L'objectif de ce MFE est d'intégrer au sein de StarDust la possibilité d'utiliser un « pointeur 3D haptique » (plutôt qu'une simple souris) pour “explorer” les données. Plus de détails ici: PDF (page 5)

Outil de manipulation de données non-structurées en vue d'une analyse de type "datamining prédictif"

Le développement de cet outil se fera en collaboration avec la société Business-Insight. Business-Insight est le leader technologique européen en matière de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil d'ETL nommé « Anatella ». Avant de créer de nouveaux modèles prédictifs, il est nécessaire de “mettre en forme les données” grâce à un “outil ETL”. Actuellement, tous les ETL sont capables de manipuler des données sous forme de tableaux mais ils sont incapables de traiter des données non-structurées (qui ne sont pas en “colonne”): comme classiquement du “texte brut”. L'objectif de ce MFE est de mettre à disposition dans Anatella de nouveaux opérateurs de transformations de données spécialisés dans la manipulation de “texte brut”. Plus de détails sont disponibles ici: PDF (page 6)

Dimensionality reduction for Segmentation analysis

Le développement de cet outil se fera en collaboration avec la société Business-Insight. Business-Insight est le leader technologique européen en matière de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil de segmenation nommé « StarDust ». Dans “StarDust”, le dataset à segmenter est représenté par un nuage de points en 3D. Chaque point représente un individu. Pour obtenir la coordonnée des points en 3D, il est nécessaire de réaliser une PCA, qui “projette” dans un espace 3D des points qui, au départ, sont dans un espace bien plus large à “d” dimension (d»3). Dans “StarDust”, le code qui réalise la PCA est très primitif et fonctionne de façon satisfaisante sur des dimensions de départ “d”<300.

L'objectif du TFE est d'intégrer un code dans “Stardust” qui calcule la projection lorsque de d>300. Il faudra investiguer plusieurs librairies informatiques disponibles sur internet pour calculer la PCA et “benchmarker” chacune. Note: La PCA est réalisée sur une matrice pleine (et donc la matrice n’est pas “creuse”).

C’est un Project à forte composante mathématique et il devrait intéresser tout étudiant avec un penchant pour les mathématiques très avancées appliquées à des cas concrets.

Comparison of fast heuristics for the longest common subsequence problem

The longest common subsequence (LCS) problem has important applications in Computational Biology. Several heuristic methods have been proposed to obtain approximate solutions. These methods require different computation time and obtain solutions of varied quality. In this project, the student will learn several methods that have been proposed in the literature to tackle a difficult optimization problem, and compare them in terms of computation time and quality of the resulting solutions. The final goal is to propose appropriate combinations of existing methods that solve diverse instances of the LCS problem.

Applications of the Multi-objective ACO framework

We have recently developed a software framework of Ant Colony Optimization algorithms for multi-objective optimization problems. This framework has only been applied to a few problems. The goal of this project would be to extend this framework to other problems and compare its results with the methods proposed in the literature. The student will learn to solve multi-objective optimization problems with ACO algorithms, automatic configuration of optimization algorithms, and analysis and comparison of optimization algorithms for multi-objective problems.

A graphical interface for the optimisation of Water Distribution Networks

The optimization of the operations of Water Distribution Networks may save important amounts of energy and its associated costs, and, therefore, it is an important problem in practice. There are graphical tools and simulators available. In addition, several optimization methods based on evolutionary algorithms and ant colony optimization have been proposed in the literature. The goal of this project is to integrate the optimization algorithms into a graphical environment that can be used by water engineers and operators. No knowledge about water distribution networks is necessary. The optimisation algorithms and toolkit libraries for handling water distribution networks will be available to the student.

Automatic fine-tuning of an evolutionary multi-objective framework

The goal of this project is to explore the possibilities of using automatic configuration tools for fine-tuning an existing evolutionary multi-objective framework. The student will learn about automatic configuration tools, evolutionary algorithms for multi-objective optimization problems and analysis and comparison of multi-objective algorithms.

 
teaching/mfe/ia.1300895689.txt.gz · Last modified: 2011/03/23 16:54 by mdorigo