Mes intérêts de recherche actuels incluent :

Le traitement de données massives
Le traitement du langage naturel
L’apprentissage automatique
L’intelligence artificielle

Mes activités de recherches sont financées par le CRSNG, MITACS et PROMPT. Je vous invite à me contacter si vous êtes intéressés à collaborer sur un projet.

Forage de données d'assurance : techniques, éthique, et sécurité

La compagnie d'assurances canadienne La Capitale Assurance et Services Financiers a accumulé, à travers le temps, plusieurs bases de données massives traitant de leurs clients dans leurs divers programmes d'assurances. Ils recherchent actuellement un moyen d'exploiter ces données afin de mieux comprendre leur clientèle, et ainsi personnaliser leur offre de produits d'assurance aux besoins de chaque individu. Ceci doit être réalisé dans le respect de normes éthiques strictes et des contraintes que les utilisateurs eux-même peuvent vouloir mettre sur l'utilisation de leurs données. Et, considérant la nature personnelle des informations qui seront obtenues sur les individus, la sécurité des données se doit d'être extrêmement robuste.
Ce programme de recherche s'oriente donc autour de trois axes fondamentaux. L'axe de forage des données vise à développer de nouveaux algorithmes pour inférer des informations sur les clients à partir de données d'interactions avec la compagnie. L'axe d'éthique et de l'acceptabilité sociale étudie les attentes des clients face à ce forage de données, tant du point de vue des bénéfices qu'ils veulent en tirer que de la protection de leurs vies privées. Et l'axe de sécurité des données développe de nouvelles techniques pour garantir la confidentialité, l'intégrité, la disponibilité, et la traçabilité de ces données.
L'industrie de l'assurance vaut plusieurs milliards de dollars dans l'économie canadienne, et la protection des informations personnelles est un sujet d'une grande importance pour la majorité de la population canadienne. Les outils de gestion d'information et de découverte de connaissance que nous allons développer vont donner aux compagnies canadiennes un avantage important dans ce marché international compétitif, tout en garantissant à la population canadienne un contrôle et une protection de ses informations personnelles.

Modélisation et modération des communautés en ligne

Les communautés en ligne abondent aujourd'hui, sur les réseaux sociaux, sur les sites web de communautés, dans les jeux vidéo multijoueurs, et sur les pages de commentaires. Ces communautés sociales permettent à leurs participants de communiquer avec des individus partageant les mêmes intérêts qu’eux. Certaines de ces communautés favorisent des discussions respectueuses. Mais d'autres sont "toxiques" et font place à des violences verbales, des trolls, du cyberharcèlement, de l'incitation au suicide, de la radicalisation, ou de la prédation sexuelle de mineurs. La méthode la plus courante pour limiter les comportements toxiques consiste à demander à des modérateurs de surveiller la communauté et d’appliquer des règles. Cependant, il n’existe pas de bonnes pratiques expliquant la meilleure manière de réagir lorsqu’un message inacceptable est rencontré. De plus, il est impossible de tester différentes stratégies d’intervention sur une communauté pour voir laquelle fonctionnera le mieux.
L’objectif de ce programme de recherche est de créer un nouvel outil qui permettra de simuler une communauté en ligne et de tester différentes stratégies de modération afin de développer des bonnes pratiques de modération pour cette communauté. Pour y parvenir, nous développerons des générateurs de dialogues (chatbots) reflétant les personnalités de vrais utilisateurs, nous créerons un simulateur de communauté réaliste dans lequel ces générateurs pourront interagir, et nous implémenterons des robots modérateurs pouvant appliquer différentes stratégies de modération sur cette communauté.
Ce programme de recherche aura des retombées scientifiques directes en traitement du langage naturel et en simulation de réseaux sociaux. Mais plus encore, les avancées en modération en ligne auront des retombées positives à travers la société québécoise et canadienne. Les comportements toxiques en ligne ont des impacts psychologiques importants sur les individus qui sont ciblés, et peuvent mener à la dépression et même au suicide dans les cas extrêmes. Ce programme de recherche, en permettant de mieux comprendre et combattre ces comportements, contribuera à créer un environnement en ligne plus sain.

Traitement des nanoblog

Le Traitement Automatique du Langage Naturel (TALN) a traditionnellement été fait avec de longs documents, et les tâches réalisées avec ces documents atteignent des performances très élevées et beaucoup sont même considérées comme « résolues ». La popularité de la messagerie SMS et la création de réseaux sociaux ont conduit à la popularisation de messages textes courts ou « microblogs », et de nombreuses tâches de TALN précédemment résolues sont redevenues des défis ouverts. Les nouvelles difficultés découlent de la courte longueur des messages, du peu d’information contextuelle disponible, de l’utilisation d’un langage nonconventionnel, et du caractère dynamique et social des conversations. Néanmoins, après une décennie de travaux de recherche, la majorité de ces problèmes ont été surmontés et les systèmes de traitement de microblogs atteignent régulièrement des performances comparables à celles du TALN traditionnel. Et grâce à ces avancées, les microblogs sont également devenus une ressource précieuse dans d’autres domaines de recherche.
La prochaine frontière du TALN viendra des messages de clavardage (« chat ») de plus en plus populaires dans les jeux en ligne et les communautés de jeux. Ces messages amplifient les problèmes des microblogs: ils sont encore plus courts, composés parfois d'un seul mot ou d'un acronyme et totalement dépourvus de contexte de message, ils utilisent un langage adapté au jeu auquel ils sont liés et qui est incompréhensible hors de ce contexte, et n’ont de sens que comme conversations en direct lors d’une partie. En raison de leur nature extrêmement courte, nous appelons ces conversations « nanoblogs ». L’objectif à long terme de cette proposition de recherche est d’être un pionnier dans le domaine du traitement du langage nanoblog et d’assurer le leadership du Canada dans ce domaine de recherche émergent. Pour ce faire, nous avons défini trois objectifs de recherche à court terme pour les cinq prochaines années. Objectif 1 : Nous allons concevoir, construire et étiqueter un corpus de nanoblogs obtenu à partir du monde réel. Objectif 2 : Nous allons créer des algorithmes de modélisation, de normalisation, et de détection de la langue pour le nanoblog. Objectif 3 : Nous allons créer des algorithmes de filtrage de cyberharcèlement pour les nanoblogs.