Chercheur·e du réseau


Faculté des sciences
Arthur Charpentier
Professeur.e
Université du Québec à Montréal (UQÀM)
Faculté des sciences
Département de mathématiques
Intérêts de recherche
  • Algorithmes
  • Modélisation
  • Apprentissage machine
Informations générales
Numéro de téléphone : 
(514) 987-3000 x8234
Numéro de local : 
PK-5330
Principales réalisations
New algorithms and new data for insurance: impact of machine learning techniques in insurance ratemaking

My work aims to improve how to use new data sources in insurance (e. g. telematics or network based information), and how to do so. In addition to computer constraints (should raw data be kept, or relevant indicators created), it is a question of how to take into account legal constraints (gender should not be used as a discriminating variable for certain types of insurance, or certain information religion for example should not be predictable), it is a question of seeing the impacts on the insurance market, based fundamentally on the principle of mutualization ("the contribution of the many to the misfortune of the few") and not on the individualization of premiums. For the first part, we use different data sources: data extracted from social networks (text, with a person talking about their state of health on their Facebook page), satellite images (agricultural insurance), accident images (classification and fraud detection), telematic data (GPS box in cars or connected "watches"), etc. For the second part, we focus more on algorithms that can be used to predict claims frequency and losses severity. Recent experiences (or "games") that we've been running in Europe did prove that using more advanced machine learning techniques might create market failures.

Économétrie et Machine Learning

L’économétrie et l’apprentissage automatique semblent avoir une finalité en commun : construire un modèle prédictif, pour une variable d’intérêt, à l’aide de variables explicatives (ou features). Pourtant, ces deux approches se sont développées en parallèle, créant ainsi deux cultures différentes. La première visait à construire des modèles probabilistes permettant de décrire des phénomènes économiques. La seconde utilise des algorithmes qui vont apprendre de leurs erreurs, dans le but, le plus souvent, de classer (des sons, des images, etc.). Or, récemment, les modèles d’apprentissage se sont montrés plus efficaces que les techniques économétriques traditionnelles (bien qu’au prix d’un moindre pouvoir explicatif) et ils arrivent à gérer des données beaucoup plus volumineuses. Dans ce contexte, il devient nécessaire que les économètres comprennent ce que sont ces deux cultures, ce qui les oppose et surtout ce qui les rapproche, afin de s’approprier des outils développés par la communauté de l’apprentissage statistique pour les intégrer dans des modèles économétriques.

Optimal transport on large networks a practitioner guide

This article presents a set of tools for the modeling of a spatial allocation problem in a large geographic market and gives examples of applications. In our settings, the market is described by a network that maps the cost of travel between each pair of adjacent locations. Two types of agents are located at the nodes of this network. The buyers choose the most competitive sellers depending on their prices and the cost to reach them. Their utility is assumed additive in both these quantities. Each seller, taking as given other sellers prices, sets her own price to have a demand equal to the one we observed. We give a linear programming formulation for the equilibrium conditions. After formally introducing our model we apply it on two examples: prices offered by petrol stations and quality of services provided by maternity wards. These examples illustrate the applicability of our model to aggregate demand, rank prices and estimate cost structure over the network. We insist on the possibility of applications to large scale data sets using modern linear programming solvers such as Gurobi. In addition to this paper we released a R toolbox to implement our results and an online tutorial.

We are not alone! (At least, most of us aren't)

Your name may feel unique to you – but chances are that someone, somewhere is called the same thing. Arthur Charpentier and Baptiste Coulmont estimate the proportion of shared identities in large social groups

The Western system of identification is based on a first and last name: one a given name (John) and the other a family name (Martin), often – but not always – transmitted from father to child. Our names mean something to us; they are deeply personal. But they are by no means unique, and the pairing of first and last names has never been sufficient to identify someone without ambiguity. Historians and anthropologists have remarked that in small European villages, many individuals shared the same identity. In small settings, where everyone was known to everyone else, there was no “collective interest in the clear and unambiguous individuation of persons through their names”, writes Professor João de Pina‐Cabral.1 Instead, someone called John Martin might have been better identified by nicknames (Big John), toponyms (John from the lake) and paraphrases (the son of Jake).

Étude de la démographie française du XIXe siècle à partir de données collaboratives de généalogie

A l'ère du numérique, les données peuvent être collectées massivement, de manière collaborative et à moindre coût. Les sites de généalogie fleurissent sur Internet pour proposer à leurs utilisateurs de reconstituer en ligne leur arbre généalogique. Le travail de collecte et de saisie effectué par ces utilisateurs peut potentiellement être réutilisé en démographie historique pour compléter la connaissance du passé de nos ancêtres. Dans notre étude, utilisons les enregistrements concernant 2 457 450 individus français ou d'origine française ayant vécu au XIX e siècle. Dans un premier temps, nous étudions la qualité de ces données. Nous mettons en évidence la présence de biais importants, notamment concernant le genre des individus. Les femmes sont sous-représentées dans les données comparativement aux hommes. Des biais relatifs à la fécondité sont également observés. En dépit de ces limites dont souffrent les données collaboratives de généalogie, nous montrons dans un deuxième temps qu'il est possible de retrouver des résultats connus dans la littérature en démographie historique. Plus particulièrement, nous exploitons les dates de naissance et de décès afin d'examiner la mortalité des individus présents dans la base de données. Nous exploitons également la richesse des caractéristiques spatiales contenues dans les arbres généalogiques pour analyser les migrations internes en France.