Des scientifiques du MIT construisent un système capable de générer des modèles d'IA pour la recherche en biologie
Image précédente Image suivante
Est-il possible de créer des modèles d’apprentissage automatique sans expertise en apprentissage automatique ?
Jim Collins, professeur Termeer de génie médical et de sciences au département de génie biologique du MIT et directeur de la faculté des sciences de la vie à la clinique Abdul Latif Jameel pour l'apprentissage automatique en santé (clinique Jameel), ainsi qu'un certain nombre de collègues ont décidé de s'attaquer ce problème face à une énigme similaire. Un article en libre accès sur la solution proposée, appelé BioAutoMATED, a été publié le 21 juin dans Cell Systems.
Le recrutement de chercheurs en apprentissage automatique peut être un processus long et coûteux pour les laboratoires de sciences et d’ingénierie. Même avec un expert en apprentissage automatique, la sélection du modèle approprié, le formatage de l'ensemble de données pour le modèle, puis son réglage fin peuvent modifier considérablement les performances du modèle et nécessitent beaucoup de travail.
« Dans votre projet d'apprentissage automatique, combien de temps consacrerez-vous généralement à la préparation et à la transformation des données ? » », demande un cours Google 2022 sur les fondements du Machine Learning (ML). Les deux choix proposés sont soit « Moins de la moitié du temps du projet » ou « Plus de la moitié du temps du projet ». Si vous aviez deviné cette dernière réponse, vous auriez raison ; Google affirme que le formatage des données prend plus de 80 % du temps d'un projet, sans même prendre en compte le temps nécessaire pour formuler le problème en termes d'apprentissage automatique.
"Il faudrait plusieurs semaines d'efforts pour trouver le modèle approprié pour notre ensemble de données, et c'est une étape vraiment prohibitive pour beaucoup de gens qui souhaitent utiliser l'apprentissage automatique ou la biologie", explique Jacqueline Valeri, doctorante de cinquième année. de génie biologique dans le laboratoire de Collins, premier co-auteur de l'article.
BioAutoMATED est un système d'apprentissage automatique automatisé qui peut sélectionner et créer un modèle approprié pour un ensemble de données donné et même prendre en charge la tâche laborieuse de prétraitement des données, réduisant ainsi un processus de plusieurs mois à quelques heures seulement. Les systèmes d'apprentissage automatique automatisé (AutoML) en sont encore à un stade de développement relativement naissant, leur utilisation actuelle étant principalement axée sur la reconnaissance d'images et de texte, mais largement inutilisée dans les sous-domaines de la biologie, souligne le premier co-auteur et postdoctorant de la Jameel Clinic, Luis Soenksen PhD. '20.
"Le langage fondamental de la biologie est basé sur des séquences", explique Soenksen, qui a obtenu son doctorat au département de génie mécanique du MIT. « Les séquences biologiques telles que l’ADN, l’ARN, les protéines et les glycanes ont l’étonnante propriété informationnelle d’être intrinsèquement standardisées, comme un alphabet. De nombreux outils AutoML sont développés pour le texte, il était donc logique de les étendre aux séquences [biologiques].
De plus, la plupart des outils AutoML ne peuvent explorer et créer que des types réduits de modèles. "Mais vous ne pouvez pas vraiment savoir dès le début d'un projet quel modèle sera le mieux adapté à votre ensemble de données", explique Valeri. "En incorporant plusieurs outils sous un seul outil, nous permettons vraiment un espace de recherche beaucoup plus grand que ce que n'importe quel outil AutoML individuel pourrait atteindre seul."
Le répertoire de modèles de ML supervisés de BioAutoMATED comprend trois types : les modèles de classification binaire (divisant les données en deux classes), les modèles de classification multi-classes (divisant les données en plusieurs classes) et les modèles de régression (ajustant des valeurs numériques continues ou mesurant la force des relations clés entre variables). BioAutoMATED est même capable d'aider à déterminer la quantité de données nécessaire pour entraîner correctement le modèle choisi.
"Notre outil explore des modèles mieux adaptés aux ensembles de données biologiques plus petits et plus clairsemés ainsi qu'aux réseaux neuronaux plus complexes", explique Valeri. C'est un avantage pour les groupes de recherche disposant de nouvelles données qui peuvent ou non être adaptées à un problème d'apprentissage automatique. .
« Mener des expériences nouvelles et réussies à l'intersection de la biologie et de l'apprentissage automatique peut coûter très cher », explique Soenksen. « Actuellement, les laboratoires centrés sur la biologie doivent investir dans une infrastructure numérique importante et dans des ressources humaines formées à l'IA-ML avant même de pouvoir voir si leurs idées sont sur le point de se concrétiser. Nous voulons réduire ces barrières pour les experts du domaine en biologie. Avec BioAutoMATED, les chercheurs ont la liberté de mener des expériences initiales pour évaluer s'il vaut la peine d'embaucher un expert en apprentissage automatique pour créer un modèle différent en vue d'expérimentations ultérieures.