Chercheur·e du réseau


Faculté des sciences
Nadia Tahiri
Diplômé.e
Université du Québec à Montréal (UQÀM)
Faculté des sciences
Département d'informatique
Intérêts de recherche
  • Algorithmes bioinformatiques
  • Apprentissage automatique
  • Réseau neuronal profond
  • Arbres phylogéographiques
Informations générales
Numéro de téléphone : 
(514) 629-1474
Principales réalisations
Algorithmes bioinformatiques pour la reconstruction d’arbres consensus et de super-arbres multiples

We describe a new fast method for inferring multiple consensus trees from a given set of phylogenetic trees (i.e. additive trees or X-trees) defined on the same set of species (i.e. objects or taxa). The traditional consensus approach yields a single consensus tree. We use the popular k-medoids partitioning algorithm to divide a given set of trees into several clusters of trees. We propose novel versions of the well-known Silhouette and Caliński-Harabasz cluster validity indices that are adapted for tree clustering with k-medoids. The efficiency of the new method was assessed using both synthetic and real data, such as a well-known phylogenetic dataset consisting of 47 gene trees inferred for 14 archaeal organisms.

Le lien GITHUB pour ce projet: https://github.com/TahiriNadia/CKMedoidsTreeClustering

Une liste d'achats intelligente basée sur l'application des algorithmes de partitionnement et d'apprentissage automatique

Premièrement, nous proposons de développer un nouveau modèle d'apprentissage automatique et de planification permettant de prédire quels produits d'épicerie le consommateur achètera de nouveau ou essayera d'acheter pour la première fois, et dans quel(s) magasin(s) de la région il fera ses courses. Deuxièmement, nous développerons un modèle de liste d'achat intelligente pour offrir au consommateur une liste d'achats hebdomadaire personnalisée en fonction de son historique d’achats et de ses préférences connues. Comme variables explicatives, nous utiliserons des historiques d'achats d'épicerie disponibles, les informations sur les promotions dans les magasins de la région donnée, ainsi que les statistiques sur les prix des produits.

Le lien du site pour ce projet: http://mygrocerytour.com

UN NOUVEL ALGORITHME POUR RETROUVER LES RELATIONS PHYLOGÉNÉTIQUES ENTRE LA DISTRIBUTION GÉOGRAPHIQUE DES ESPÈCES ET LEURS COMPOSITIONS GÉNÉTIQUES

 L'objectif de ce projet de maîtrise est de développer un nouvel algorithme permettant de retrouver les relations phylogénétiques entre un arbre de référence (par exemple, l'arbre de la distribution géographique des espèces ou des paramètres climatiques) et un arbre caractérisant un fragment de l'alignement de séquences multiples (ASM). Pour ce faire, nous récupérerons d'abord les différents fragments d'un ASM donné. Nous les soumettrons par la suite aux différents programmes du paquet PHYLIP (Seqboot, ProtDist ou DnaDist, Neighbor et Consense) et le programme PhyML afin d'obtenir un arbre consensus avec les valeurs de bootstrap sur ses branches. À partir de chaque arbre consensus, nous calculerons son bootstrap moyen. De plus, nous comparerons topologiquement l'arbre consensus obtenu à l'arbre de référence pour connaître la distance de Robinson et Foulds (RF) normalisée entre eux. Pour chaque fragment d'un ASM, nous conserverons uniquement les données relatives à des fragments correspondant à la distance RF normalisée la plus petite (i.e., celle qui représente la plus grande similitude entre les deux arbres). Dans le cas où plusieurs fragments correspondront à la même valeur de la distance RF normalisée, l'estimation se poursuivra sur l'arbre consensus ayant le score de bootstrap le plus élevé (i.e., meilleur support de l'arbre). Pour connaître la performance de notre algorithme, nous utiliserons un jeu de données de 52 espèces appartenant au groupe des Carnivores se localisant en Amérique du Nord. Nous récupérons aussi 21 protéines issues de la base de données GenBank. La construction des arbres de référence se fera à partir de données climatiques de l'habitat de ces espèces (i.e., température, précipitation et altitude). Notre algorithme permettra de trouver des sous-séquences des gènes donnant une similarité topologique accrue entre l'arbre de référence et l'arbre phylogénétique obtenu à partir des séquences.  

Le lien GITHUB pour ce projet: https://github.com/TahiriNadia/GeoWindowsTrees

A Median-Based Consensus Rule for Distance Exponent Selection in the Framework of Intelligent and Weighted Minkowski Clustering

The intelligent Minkowski and weighted Minkowski K-means are recently developed effective clustering algorithms capable of computing feature weights. Their cluster-specific weights follow the intuitive idea that a feature with a low dispersion in a specific cluster should have a greater weight in this cluster than a feature with a high dispersion. The final clustering provided by these techniques obviously depends on the selection of the Minkowski exponent. The median-based central consensus rule we introduce in this paper allows one to select an optimal value of the Minkowski exponent. Our rule takes into account the values of the Adjusted Rand Index (ARI) between clustering solutions obtained for different Minkowski exponents and selects the clustering that provides the highest average value of ARI. Our simulations, carried out with real and synthetic data, show that the proposed median-based consensus procedure usually outperforms clustering strategies based on the selection of the highest value of the Silhouette or Calinski–Harabasz cluster validity indices.