This is an old revision of the document!


Table of Contents

MFE 2017-2018 : Intelligence Artificielle

Introduction

Le laboratoire IRIDIA aborde des problèmes dans le domaine de l'Intelligence Artificielle. Si l'on reprend les dires d'un de ses pioniers Marvin Lee Minsky, l'Intelligence Artificielle est définit comme “la construction de programmes informatiques qui s'adonnent à des tâches qui sont, pour l'instant, accomplies de façon plus satisfaisante par des êtres humains car elles demandent des processus mentaux de haut niveau tels que : l'apprentissage perceptuel, l'organisation de la mémoire et le raisonnement critique”. L'IA a beaucoup évolué depuis et s'inspire largement de phénomènes biologiques, physiques, cognitifs ou encore écologiques. C'est donc définitivement une approche transdisciplinaire qui s'accorde principalement à traîtrer des problèmes très complexes. Les domaines principaux de compétence d'IRIDIA sont : l'intelligence en essaim, les métaheuristiques, l'étude des réseaux biologiques et l'application de Business Intelligence. C'est dans cette perspective que les sujets de MFE présentés ci-après s'inscrivent.

Ces sujets sont prêt à être encadrer, mais il va s'en dire qu'ils ne sont pas uniques. Les étudiants sont vivement encouragés à prendre contact avec Hugues Bersini (bersini AT ulb.ac.be) ou Marco Dorigo (mdorigo AT ulb.ac.be) afin de discuter de l'une ou l'autre initiative inspirée pouvant faire l'objet dun autre sujet de MFE ou de préciser le cadres, le contenu et les attentes relatives au sujets présentés.

Swarm construction: Development of remote monitoring software for intelligent structures

S-blocks are dynamically reconfigurable blocks used for autonomous construction applications. When two or more S-blocks are assembled they are capable of communicating with each other over a near field communication (NFC) wireless interface. The goal of this master thesis is to develop software to monitor (and control) the blocks in an intelligent structure remotely over the auxiliary Zigbee-based wireless interface. As only one block in the structure is fitted with this wireless interface, it is required that the other blocks communicate with the PC, via routing messages through the block-to-block NFC interfaces. This will require the software on the S-Blocks to be enhanced to use preemptive task swapping, to allow multiple blocks to communicate with each other simultaneously.

Required skills: The candidates should understand low level computer concepts such as: interrupts, timers, and registers, have some experience with C/C++ programming, and have a working knowledge of the English language.

* Contact: Marco Dorigo (IRIDIA)

Design of a holonomic drive system for autonomous robots in a swarm

Unlike a differential drive system, a holonomic drive system has the advantage of being able to move in any direction at a given instant. The goal of this master thesis is to design and evaluate the performance of a holonomic drive system. The drive system will be assembled from a combination of off-the-shelf components and 3D printed parts. In order to evaluate the drive system, close loop controllers need to be designed and evaluated in C/C++.

Required skills: The candidates should have some experience with programming in C/C++, and some experience with 3D modelling (preferably Solidworks). The candidates should be able to use basic kinematics to solve simple physics problems, and have a working knowledge of the English language.

* Contact: Marco Dorigo (IRIDIA)

Automatic design of communication protocols in swarm robotics

Automatic design methods are a promising approach to the development of control software of robot swarms. In previous research, we have developed AutoMoDe, a method that automatically generate a finite state machine to control each individual robot of the swarm. AutoMoDe automatically assembles the finite state machine starting from pre-defined behavioral modules and transition criteria. In this project, the goal is to extend AutoMoDe so as to enable the automatic generation of communication protocols.

Required skills: The candidate should have good programming skills and previous experience with C++ programming under UNIX.

* Contact: Mauro Birattari, Lorenzo Garattoni, Gianpiero Francesca (IRIDIA)

Intelligent interactive console for swarm of robots

The goal of this project is to design and implement an interactive tool for monitoring, debugging and controlling experiments in swarm robotics. Through the interface of this tool, the user can pause the experiment, monitor the state of the robots, select a robot to check the values of sensors and actuators, and modify them if needed. The tool will be integrated in ARGoS (the simulator for robot swarms developed at IRIDIA) and will feature the existing debug facilities featured by ARGoS, which currently work only in simulation. The tool will also use the IRIDIA arena's tracking system, which is equipped with 16 ceiling-mounted cameras. Finally, the tool will integrate an existing console software to monitor and control the state of the robots.

* Contact: Mauro Birattari, Lorenzo Garattoni (IRIDIA)

Efficient chain formation in a robot swarm

The goal of this project is to study and design techniques to efficiently create and maintain robust chains of robots. Chain formation is a known collective behavior in swarm robotics. In chain formation, robots place themselves in the environment to create a chain that connects two locations. The chain can be used by other robots as navigation support. Chain formation behaviors are often inspired by ants, which form chains of individuals that connect their nest to foraging sites. Although chain formation has been implemented in several different configurations (e.g., chains of moving robots, chains of aerial robots that aid the navigation of ground robots, directional chains, etc.), the definition of efficient methods to build, use, and maintain chains of robots is still missing. The ultimate goal of the project is therefore the definition of a efficient and robust chain formation behaviour.

* Contact: Mauro Birattari, Lorenzo Garattoni (IRIDIA)

Développer un programme informatique permettant une analyse statistique en vue de l'évaluation d'un module psychothérapeutique.

Ce mémoire se fera en collaboration avec l'équipe médicale du centre pour l'anorexie et la boulimie de l'hôpital Erasme. Il consistera en l'analyse informatisée des données récoltées lors d'entretiens avec le patient et sa famille au cours du traitement. Les données sont actuellement stockées dans dans une base de données SPSS. Le mémoire consistera pour l'essentiel au traitement de ces données par des approches “Machine Learning” et “Data Mining” dans une perspective de Quality Management.

Développer un programme informatique permettant une analyse statistique en vue de l'évaluation d'un module psychothérapeutique.

Ce mémoire se fera en collaboration avec l'équipe médicale du centre pour l'anorexie et la boulimie de l'hôpital Erasme. Il consistera en l'analyse informatisée des données récoltées lors d'entretiens avec le patient et sa famille au cours du traitement. Les données sont actuellement stockées dans dans une base de données SPSS. Le mémoire consistera pour l'essentiel au traitement de ces données par des approches “Machine Learning” et “Data Mining” dans une perspective de Quality Management.

Développer des solutions de text mining pour la société Procter & Gamble

Ce mémoire se fera en collaboration avec des responsables marketing de cette société. Il consistera en l'analyse informatisée des appréciations récoltées sur les produits de la firme et d'une analyse comparative avec les appréciations de concurrents. Il s'agira pour l'essentiel d'études de type “clustering”, “classification” et “sentiment analysis” au départ de nombreuses librairies déjà existantes.

Transposition en logique floue des réseaux de neurones récurrents de type GRU

Ce mémoire consistera en la conception et l'analyse de systèmes de logiques floues, capables d'apprentissage automatique, et très inspirés des réseaux de neurones récurrents de type GRU, utilisés avec succès ces jours-ci pour la traduction automatique, la labélisation automatique d'images, la génération de musique et la conduite de véhicules autonomes.

Contribution au développement de la plateforme Big Data d'IRIDIA

Dans de nombreux projets d'enseignement et d'industrie dans lesquels IRIDIA se trouvent impliqués, des demandes pressantes nous sont faites de formation et d'utilisation des outils Big Data (Map-Reduce, Cloudera, Hue, Hive, Pig, Elastic Search, HBase). Nous répondons tant bien que mal à ces demandes et tentons d'équiper notre cluster avec les logiciels demandés. Le mémoire consisterait en une étude comparative de l'existant en terme surtout logiciel et la mise en place d'un cours mettant en évidence les avantages de l'une ou l'autre solution en ce compris par rapport à des solutions plus conventionnels de type BD relationnelle.

Contribution à l'amélioration de la plateforme génomique In Silico DB

Une nouvelle spin-off a vu le jour depuis un an à IRIDIA: In Silico DB (https://insilicodb.org/) mettant à disposition sous une forme aisément exploitable des centaines de milliers d'échantillons de données génomiques permettant un meilleur diagnostic des maladies d'origine génétique et une meilleure compréhension de la biologie moléculaire. L'équipe qui s'en occupe a un besoin pressant de développeurs informatiques permettant d'en améliorer l'interface. Des connaissances en programmation Web sont souhaitées. La migration du système de stockage sur un serveur Big Data est aussi un des objectifs actuellement poursuivis par l'équipe en place et permettra au mémorant de se familiariser avec ces nouvelles technologies.

Etude de l'algorithme du Deep Learning

Les réseaux de neurones multicouches sont redevenus très à la mode depuis que Google les utilise massivement pour le traitement automatique d'images et de vidéos. Nous avons à IRIDIA étudié et réalisé plusieurs algorithmes d'apprentissage de ces réseaux multicouches. Le mémoire consistera en une comparaison des algorithmes de deep learning tels ceux utilisés chez Google et les alternatives que nous proposons ici à IRIDIA depuis plusieurs années.

* Contact : Hugues Bersini (IRIDIA)

Etude et réalisation orientée objet d'une cellule minimale

Le MFE consistera en un développement orienté objet d'une cellule biologique minimale avec son métabolisme chimique interne, un génome élémentaire et sa membrane. L'idée est de réaliser le logiciel minimal capable de simuler un organisme vivant. Cette cellule devra être capable de croître et de spontanément se dupliquer. Il fera suite à une succession de MFE déjà réalisés ces dernières années. Parmi les amélirations possibles sont en cours la parallélisation du programme suivant une technologie Big Data ou le recours aux processeurs GPU.

Réorganisation sous forme OO et UML d’un code de simulation climatique

Ce mémoire se déroulera en collaboration avec le professeur Jean-Pascal van Ypersele de l’UCL, vice président du GIEC, groupe de recherche sur l’évolution climatique. La plupart des codes de simulation climatique sont rédigés en Fortran en exploitant peu les principes de la programmation OO. Ce mémoire consistera en la sélection d’un logiciel de simulation climatique assez simple, plutôt à vocation didactique, et sa réécriture sous forme OO, en faisant un recours intensif aux diagrammes UML et aux Design Patterns.

Réorganisation sous forme OO et UML d’un code de contagion systémique d'un réseau de crédits interbancaire

La crise financière actuelle a permis de mettre en lumière les risques de contagion systémique liés à la faillite de certaines banques. En effet, la plupart du temps, les banques forment entre elles un réseau de crédit interbancaire qui, à la fois les rend plus solides, mais aussi plus vulnérables à la défection de l’une ou l’autre. De nombreux logiciels ont été écrits afin d’étudier plus en détail ce risque. Le mémoire consistera en la sélection d’un de ces logiciels déjà clairement identifiés et sa réécriture sous forme OO, en faisant un recours intensif aux diagrammes UML et aux Design Patterns.

Data/text mining - Traitement automatique de documents sur base de leur contenu

Ce sujet est destiné aux étudiants en Informatique ou en Sciences Appliquées. Il pourrait être traité par un groupe de deux étudiants.

Au cours de ce travail, nous nous interesserons a l'application d'algorithmes de traitement automatique de documents dans le cadre d'un projet (projet STRATEGO) avec les sociétés IRIS, Mentis et Denali. Nous serons confrontés par exemple à la categorisation (classification) de documents sur base de leur contenu ainsi qu'au clustering de documents.

Les developpements seront effectués en Java, C++, Perl, Python, Matlab ou S-Plus (R).

Il s'agit donc d'un travail de recherche et développement.

Etude de la topologie de réseaux lexicaux extraits de documents

De plus en plus de scientifiques sont convaincus qu’une même topologie de réseaux (c'est-à-dire la manière dont les nœuds en sont connectés) se retrouve dans de nombreux réseaux, pourtant extraits de réalités très diverses (Web, Internet, réseaux sociaux, biologiques, épidémiques). Cette topologie leur conférerait des propriétés intéressantes comme une plus grande robustesse ou une communication réduite entre les nœuds. Il est possible de construire des réseaux lexicaux à partir d’un document quelconque, par exemple, en connectant deux mots qui apparaissent dans une même phrase. Le MFE consistera en un développement logiciel ayant pour but la réalisation automatique de ces réseaux lexicaux à partir d’une variété de documents et l’étude automatisée de leur topologie : distance inter-nœuds, degré de clustering, etc …

Etude de la topologie de réseaux d'acteurs extraits à partir de romans célèbres

De plus en plus de scientifiques sont convaincus qu’une même topologie de réseaux (c'est-à-dire la manière dont les nœuds en sont connectés) se retrouve dans de nombreux réseaux, pourtant extraits de réalités très diverses (Web, Internet, réseaux sociaux, biologiques, épidémiques). Cette topologie leur conférerait des propriétés intéressantes comme une plus grande robustesse ou une communication réduite entre les nœuds. Il est possible de construire des réseaux lexicaux à partir d’un document quelconque, par exemple, en connectant deux mots qui apparaissent dans une même phrase. Le MFE consistera en un développement logiciel ayant pour but la réalisation automatique d'un réseau de personnages de romans (Harry Potter, les Misérables et autres) à partir des dialogues présents dans ces romans. Les liens seront également pondérés comme résultat d'une analyse de sentiments faite à partir de ces mêmes dialogues. On procédera ensuite à l’étude automatisée de leur topologie : distance inter-nœuds, degré de clustering, etc …

Expérimentation des designs patterns pour la modélisation de systèmes biologiques complexes

Tout bon informaticien se doit aujourd’hui de maîtriser ces recettes de conception OO que sont les designs patterns. Au-delà des langages de programmation ou de modélisation (UML), ils sont devenus le sujet d’étude et de développement le plus prisé de la communauté informatique. Leur maîtrise permet à ces mêmes informaticiens d’attaquer la simulation de procédés complexes avec plus de facilité. Le MFE consistera en la mise en pratique de ces designs patterns pour la modélisation de systèmes biologiques complexes comme le système immunitaire ou les mécanismes de régulations génétiques. Le travail devrait déboucher sur une adaptation de ces mêmes designs patterns au monde et aux problèmes de la biologie. Ce mémoire se fera en collaboration avec l'institut de recherche de Microsoft à Cambridge qui a déjà supervisé les mémorants précédents.

Etude de la topologie de réseaux de musiciens de Jazz

De plus en plus de scientifiques sont convaincus qu’une même topologie de réseaux (c'est-à-dire la manière dont les nœuds en sont connectés) se retrouve dans de nombreux réseaux, pourtant extraits de réalités très diverses (Web, Internet, réseaux sociaux, biologiques, épidémiques). Cette topologie leur conférerait des propriétés intéressantes comme une plus grande robustesse ou une communication réduite entre les nœuds. Il est possible de construire un réseau de musiciens de Jazz connectant deux musiciens dès lors qu’ils ont joué sur un même disque ou participé à un même concert. Le MFE consistera en un développement logiciel ayant pour but la réalisation automatique de ces réseaux de musiciens à partir de documentations sur les disques ou les concerts téléchargés automatiquement de sites de vente en ligne. Le mémorant devra réaliser un logiciel capable d'extraire ces informations sur le Web et ensuite exploitera un ensemble d'outils existant lui permettant d'étudier la topologie du réseau ainsi obtenue.

Evolution de circuits logiques

Depuis quelques années, de nouvelles techniques d'optimisations comme les algorithmes évolutionnistes servent de méthodologie d'aide à la conception. De par leur nature, ces techniques offrent une approche “bottom-up” qui peut sortir des sentiers battus que sont les les approches classiques dite “top-down”. C'est par exemple le cas en conception de circuits logiques et électroniques. Ainsi, cette nouvelle méthodologie de conception assistée par des algorithmes d'optimisation permet de parfois souligner de nouvelles idées inconnues de l'homme jusqu'à ce jour. Ce mémoire se concentrera sur les algorithmes évolutionnistes comme aide à la conception de circuits logiques. Il s'inscrira dans la continuité d'un mémoire effectué en 2007-2008 sur le même sujet. Il s'agira, par exemple, de mettre en oeuvre des techniques pour détecter des motifs récurrents de portes qui peuvent apparaitre, et ainsi permettre une construction automatique de la modularité de la solution. Ou encore de développer une approche multi-objective de la question.

Mise au point d’un système automatique de génération de code à partir d’un diagramme d’état-transition

Le diagramme d’état-transition représente le cycle de vie d’un objet, de sa naissance à sa disparition, en suivant les différents états par lesquels cet objet transite. Il est par exemple très largement mis à l’œuvre dans la modélisation des procédures parlementaires (l’évolution des décrets de loi). C’est le cas dans plusieurs parlements belges avec lesquels IRIDIA collabore. Le MFE étudiera la possibilité d’une génération automatique de code fidèle à ces diagrammes et tout ce qui les compose. Le code généré respectera le design pattern d'état associant une classe à chaque état possible. Des problèmes tels les états compositionnels ou les transitions s'effectuant simultanément seront étudiés.

Mise en place de solutions Big Data et Elastic Search pour les réseaux bibliométriques

Les publications scientifiques doivent se citer entres elles. Elles constituent donc un immense réseau de citations. Nous étudions à IRIDIA la nature de ce réseau et l'impact que peut avoit une publication scientifique en suivant dans le temps le nombre de nouvelles publications qui citent cette dernière. Comme ces réseaux sont de taille gigantesque (des millions de publications), des solutions technologiques harwarde et software de type Big Data et Elastic Search sont mises en place et expérimentées ici à IRIDIA. Le mémoire consistera en un développement et une expérimentation des ces possibles solutions.

* Contact : Hugues Bersini (IRIDIA)

Mise au point d’un langage de modélisation de systèmes biologiques inspiré des diagrammes de classe et d'état/transition UML

En général, les biologistes par manque de formation recourent très difficilement à la programmation des systèmes qu'ils étudient. Nous souhaitons les assister en mettant à leur disposition un langage qualitatif de modélisation sur base des diagrammes de classe et d'état/transition UML. Ce langage pourrait finalement aboutir à une forme exécutable, par une génération de code Java appropriée et son exécution. Le système sera mis au point en collaboration avec des immunologistes internationnaux avec lesquels IRIDIA entretient des collaborations suivies depuis très longtemps. Ainsi l'idée est de créer un langage de simulation de systèmes biologique qualitatif et graphique qui soit bien plus facile d'utilisation pour les biologistes que les langages de programmation actuels.

Comparaison via la simulation informatique d'une économie de marché de nature concurrentielle et une autre plus redistributive

Les économistes nous assènent à l'envi que l'économie se doit d'être compétitive et parfaitement concurrentielle. Est-ce si vrai ? L'économie de marché ne peut-elle exister que sur un mode concurrentiel pour assurer au mieux le bonheur du plus grand nombre d'agents économiques ? Nous adresserons cette question par l'entremise de modèles économiques multi-agents mettant en présence des producteurs,acheteurs, consommateurs et vendeurs, et les faisant se comporter d'abord sur un monde compétitif (économie de marché de type enchère) et ensuite aléatoire. Nous étudierons la manière dont le bien-être cumulé par les agents consommateur est distribué parmi eux. Ce mémoire fait suite à un mémoire réalisé par un étudiant de Solvay l'année passée et donc il pourra repartir d'un logiciel existant.

Etude des instabilités dynamiques des marchés boursiers

Malgré la théorie économique voyant dans le marché un processus auto-régulé et stable, le fonctionnement de la bourse et de la finance se caractérisent par d'incessantes instabilités dynamiques: bulles spéculatives et autres… Ce MFE aura pour objet une modélisation d'un marché boursier très simplifié dans lesquels seront pris en compte les mimétismes des “traders” souvent responsables de phénomènes de feedbacks positifs menant à ces instabilités.

Détection de modularités appliquée à la biochimie

En biochimie, la simulation et l'optimisation des systèmes font intervenir tant et tant de variables que les dimensions sont plus que nombreuses. Ce caractère hyperdimensionnel fait exploser d'une part l'espace de recherche, mais augmente également la difficulté de l'espace de recherche. En effet, les variables d'états du système sont souvent corrélées non-linéairement. La force de ces dépendances délimite d'ailleurs souvent des modules fonctionnels qui, une fois détectés, peuvent être mis à profit. Les nouvelles techniques d'optimisation trouvent ainsi un écho logique dans le domaine de la bioinformatique ou de la chimie pharmaceutique. Au cours de ce mémoire, l'étudiant mettra en oeuvre diverses techniques se basant sur un principe de modularité. Il les analysera et les comparera sur un problème appliqué dans les domaines précités (diverses possibilités envisageables). Ce travail se constitue donc principalement comme une recherche appliquée où une méthodologie expérimentale rigoureuse sera requise.

Utilisation de réseaux de neurones récurrents pour la détection d'arythmies cardiaques

Ce mémoire s'effectuera en collaboration avec le service de cardiologie d'Erasme et consistera en la détection automatique d'apparition d'arythmies cardiaques à l'aide des réseaux de neurones récurrents, qui semblent être très efficaces pour le traitement des séries chronologiques complexes.

Text Categorisation and quality control through automatic language processing

This thesis is developed in collaboration with the Energy Efficiency in Industrial Processes (EEIP) company. EEIP is a global industry information network. As part of their activities, they disseminate case studies to various network groups. The goal of the project is to develop an automatic language processing algorithm capable to evaluate the quality (accept / reject) of the proposed case studies and to allocate them to single/multiple categories. Testing and training the algorithm is a key part as it not only requires development and testing of concepts such as how to evaluate quality or definition of requirements for multiple category allocation but the project also has to be developed in a limited data environment (+/- 1000 case studies as training set).

Required skills: A background in machine learning would be helpful.

Software framework for ant colony optimization

Ants have inspired a number of computational techniques and among the most successful is ant colony optimization (ACO). ACO is an optimization technique that can be applied to tackle a wide variety of computational problems that arise in computer science, telecommunications, and engineering. While ACO has a very wide applicability, the development times for effective ACO algorithms can be relatively high. This is due to the fact that each time a new problem is to be tackled by an ACO algorithm, a researcher needs to implement the algorithms almost from scratch.

The goal of the project is to provide a software framework to support the application and the implementation of ACO algorithms to new problems. The software framework will offer all the standard procedures that are used in ACO algorithms and will allow for the rapid prototyping of ACO algorithms. The application of this software framework will be tested on a number of optimization problems.

Required skills: The candidate should be well acquainted with programming in object oriented languages.

Automated configuration of multi-objective continuous optimizers

Many problems arising in real-world applications involve the optimization of various, often conflicting objectives. While the design of algorithms for tackling multi-objective problems has usually done manually, over the recent years automated design methodologies have been established and proved to be very powerful.

The goal of this project is to extend the automated design to multi-objective continuous optimization problems. As the basis of the approach, a framework based on the two-phase plus Pareto local search approach will be developed into which basic search techniques for continuous optimization will be integrated. The goal is to build first a flexible framework from which then in a second step effective multi-objective optimizers will be generated exploiting automated algorithm design techniques. The final goal of this work is to participate in algorithm competitions with the goal of challenging the methodology.

Required skills: The candidate should have very good analytical as well as programming skills.

Design of a graphical interface for an automatic configuration tool.

Optimization algorithms have a number of parameters that strongly affect their efficiency. For many years the setting of these parameters was done by hand; a tedious task that requires a lot of human involvement. Nowadays, some tools are available to automatize this task by considering the setting of the parameters as a “meta”-optimization problem. One of these tools for automatic configuration (the irace package: http://iridia.ulb.ac.be/irace) has been developed at IRIDIA, and has been already applied successfully to many algorithms. The goal of this project is to design a graphical interface on top of the existing software, to help the user to set-up his particular tuning problem, to visualize information about the tuning process while it is on-going and when it has completed, and to integrate statistical tools for the analysis of the tuner results.

The student will have to implement a Graphical front-end on top of the existing software implemented in R, using a cross-platform library such as Qt (http://qtinterfaces.r-forge.r-project.org/). Some additions to the original software may be required, and the student will have to work in collaboration with the team of developers of irace at IRIDIA.

Feature Extraction and Automatic Algorithm Selection.

The performance of (Stochastic Local Search) algorithms for a given problem depends on the algorithm design and on the setting of the algorithm's parameter. Given a heterogeneous set of instances for a given problem a good algorithm design (or parameter configuration) for one instance is not necessary the best design for all instances. On the contrary a tuning of an algorithm on a specific family of similar instances may affect negatively its performance on other families of instances.

The thesis will focus on devising automatic methods for extracting features from the instances, select the relevant features, and learning (in the framework of multi-class classification) the relationship, if there is one, between the instances features and the best algorithm for the instance. The results will be instrumental for algorithm selection or the creation of portfolios of complementary algorithms suitable for large sets of diverse instances for a given problem.

Required skills: good knowledge of C or C++ programming and of a scripting language (e.g., python); good knowledge of machine learning methods would also be helpful.

Outil de visualisation géographique de potentiel prédictif

Le développement de cet outil se fera en collaboration avec Business-Insight, une société commerciale principalement active dans le domaine de la business-intelligence. Business-Insight est le leader technologique européen de la recherche en matière de datamining prédictif pour les banques, les assurances et les opérateurs télécoms. Business-Insight a démontré la supériorité technologique de ses outils lors de nombreux concours de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil de classification automatique nommé « TIM ». TIM crée des modèles prédictifs qui permettent de prédire la probabilité qu’une personne (un prospect) achète un produit donné (“propensity to buy predictive modeling”). L'objectif de ce MFE est de réaliser en C++ (et avec les librairies Qt + éventuellement OpenGL) un logiciel qui “projette sur une carte vectorielle de la Belgique, la France, le Luxembourg,… le potentiel commercial de chaque commune, tel qu'évalué par analyse prédictive”. C’est un projet qui nécessite de manipuler de grands volumes de données (par exemple, l’Allemagne est, au départ, un base de donnée d’environ 1 GB) et il devrait intéresser tout étudiant avec un penchant pour les algorithmes de visualisations temps réel et la programmation C++ « avancée ». Plus de détails sont disponibles ici: PDF (page 2).

Amélioration de la visualisation 3D temps-réel de la segmentation de la clientèle d'une société commerciale

Le développement de cet outil se fera en collaboration avec la société Business-Insight. Business-Insight est le leader technologique européen en matière de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil de segmentation automatique nommé « StarDust ». StarDust « découpe » la base de données des clients en plusieurs segments, de façon à pouvoir réaliser des campagnes marketing adaptées à chaque segment de clientèle. La visualisation de la segmentation obtenue est une partie importante (si pas la plus importante) d’un logiciel de Segmentation. L'objectif de ce MFE est d'améliorer substantiellement la qualité de la visualisation en utilisant des effets de “transparence”. Ces effets de “transparence” seront basés sur du “order independent transparency” et codés en “OpenGL shading language” et intégré dans une application en C++ (+Qt). Plus de détails ici: PDF (page 3)

Outil d'analyse de réseau social

Le développement de cet outil se fera en collaboration avec la société Business-Insight. Business-Insight est le leader technologique européen en matière de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil de manipulation et de mise en forme des données nommé « Anatella ». Avant de créer de nouveaux modèles prédictifs, il est nécessaire de “mettre en forme les données” dans un seul et unique “tableau” qui regroupe toute les informations connues sur le processus à prédire. Cette mise en forme est réalisée classiquement grâce à des outils d'“ETL”. Actuellement, ces ETL sont tous capables de manipuler des tableaux de données (jointure, filtrage, etc.) mais ils sont incapables de manipuler de données structurées sous forme de “réseaux”. L'objectif de ce MFE est de mettre à disposition dans Anatella de nouveaux opérateurs de transformations de données spécialisés dans la manipulation des “réseaux”. Les algorithmes développés seront appliqués à des réseaux sociaux construits à partir de réseaux de « coups de téléphones » (un noeud=une personne; un arc=un coup de fil entre 2 personne). La taille des réseaux analysés est donc très grande : plusieurs millions de noeuds et plusieurs centaines de millions d’arcs sont des choses courantes. Ce projet implique de l’algorithmique de haut vol et nécessite de développer C++ (+Qt). Plus de détails sont disponibles ici: PDF (page 4)

Intégration d'un capteur haptique dans l'outil d'exploration multidimentionnelle de base de données de clientèle

Le développement de cet outil se fera en collaboration avec la société Business-Insight. Business-Insight est le leader technologique européen en matière de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil nommé « StarDust ». StarDust réalise des segmentations. StarDust permet aussi de se “déplacer” dans un espace 3D qui représente la base de données des clients. Actuellement, ce “déplacement” s'effectue grâce à la souris. L'objectif de ce MFE est d'intégrer au sein de StarDust la possibilité d'utiliser un « pointeur 3D haptique » (plutôt qu'une simple souris) pour “explorer” les données. Plus de détails ici: PDF (page 5)

Outil de manipulation de données non-structurées en vue d'une analyse de type "datamining prédictif"

Le développement de cet outil se fera en collaboration avec la société Business-Insight. Business-Insight est le leader technologique européen en matière de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil d'ETL nommé « Anatella ». Avant de créer de nouveaux modèles prédictifs, il est nécessaire de “mettre en forme les données” grâce à un “outil ETL”. Actuellement, tous les ETL sont capables de manipuler des données sous forme de tableaux mais ils sont incapables de traiter des données non-structurées (qui ne sont pas en “colonne”): comme classiquement du “texte brut”. L'objectif de ce MFE est de mettre à disposition dans Anatella de nouveaux opérateurs de transformations de données spécialisés dans la manipulation de “texte brut”. Plus de détails sont disponibles ici: PDF (page 6)

Dimensionality reduction for Segmentation analysis

Le développement de cet outil se fera en collaboration avec la société Business-Insight. Business-Insight est le leader technologique européen en matière de datamining prédictif.

Business-Insight commercialise dans sa suite logicielle pour le datamining prédictif un outil de segmenation nommé « StarDust ». Dans “StarDust”, le dataset à segmenter est représenté par un nuage de points en 3D. Chaque point représente un individu. Pour obtenir la coordonnée des points en 3D, il est nécessaire de réaliser une PCA, qui “projette” dans un espace 3D des points qui, au départ, sont dans un espace bien plus large à “d” dimension (d»3). Dans “StarDust”, le code qui réalise la PCA est très primitif et fonctionne de façon satisfaisante sur des dimensions de départ “d”<300.

L'objectif du TFE est d'intégrer un code dans “Stardust” qui calcule la projection lorsque de d>300. Il faudra investiguer plusieurs librairies informatiques disponibles sur internet pour calculer la PCA et “benchmarker” chacune. Note: La PCA est réalisée sur une matrice pleine (et donc la matrice n’est pas “creuse”).

C’est un Project à forte composante mathématique et il devrait intéresser tout étudiant avec un penchant pour les mathématiques très avancées appliquées à des cas concrets.

Automated configuration of hybrid algorithms

We have recently developed a software framework from which hybrid local search algorithms can be designed automatically. This framework has only been applied to a few problems. The goal of this project would be to extend this framework to other problems, in particular, vehicle routing problems and to compare the results that can be obtained with the methods proposed in the literature. The student will learn to solve combinatorial optimization problems with heuristic algorithms, automatic configuration of optimization algorithms, and the analysis and comparison of optimization algorithms.

 
teaching/mfe/ia.1525265126.txt.gz · Last modified: 2018/05/02 14:45 by bersini