Une introduction pratique au Machine Learning

mahine learning

Nouveaux outils, nouvelles techniques,… mais comment extraient-elles les connaissances business depuis des datasets massifs ?

Vous avez probablement entendu comment des entreprises comme Google et Facebook utilisent l’apprentissage machine (ou Machine Learning) pour conduire des voitures, reconnaitre la parole humaine, et classer des images. Trop cool, pensez-vous, mais comment cela se rapporte-t-il à votre entreprise? Eh bien, examinons comment ces entreprises utilisent le Machine Learning aujourd’hui:

  • Une entreprise de traitement des paiements détecte une fraude cachée parmi plus d’un milliard de transactions en temps réel, réduisant les pertes de 1 million d’€ par mois.
  • Un assureur automobile prévoit des pertes depuis des réclamations en utilisant des données géospatiales détaillées, en lui permettant de modéliser l’impact commercial des phénomènes météorologiques violents.
  • Travailler avec des données produites par la télémétrie automobile, un fabricant découvre des modèles dans des indicateurs opérationnels et les utilise pour induire une maintenance proactive.

2 thèmes unis ces réussites. Premièrement, chaque application dépend des Big Data: un grand volume de données, dans une grande variété de formats et à grande vitesse. Deuxièmement, dans chaque cas, l’apprentissage machine découvre de nouvelles perspectives et génère de la valeurs.

Les bases techniques du Machine Learning sont vielles de plus de 50 ans, mais jusqu’à récemment, peu de gens en dehors du milieu universitaire étaient au courant de ses capacités. Le Machine Learning exige beaucoup de puissance de calcul; les « early adopters » ont simplement manqués d’infrastructures pour le rendre rentable.

Plusieurs tendances convergentes contribuent au récent regain d’intérêt pour le Machine Learning:

  • La loi de Moore a radicalement réduit les coûts informatiques; la puissance massive de calcul est maintenant largement disponibles à un coût minime.
  • De nouveaux et novateurs algorithmes fournissent des résultats plus rapidement.
  • Des personnes « chargées de modélisation des données » (ou « Data Scientist ») ont accumulés la théorie et la connaissance pratique nécessaire pour appliquer le Machine Learning de manière efficace.

Par dessus tout cela, le tsunami du Big Data a généré des problèmes analytiques qui ne peuvent pas être résolus avec les statistiques classiques. La nécessité est mère de l’invention, et les vieilles méthodes d’analyse ne fonctionnent plus dans l’environnement business d’aujourd’hui.

Les techniques de Machine Learning

Dans tous les secteurs et disciplines commerciales, les entreprises utilisent le Machine Learning pour augmenter les revenus ou réduire les coûts, en effectuant des tâches plus efficacement que les humains ne peuvent les faire.
Ci-dessous 7 exemples qui démontrent la polyvalence et la large application du Machine Learning:

  • Prévention de la fraude: Avec plus de 150 millions de portefeuilles numériques actifs et 200 milliards de $ de paiements annuels, PayPal dirige l’industrie des paiements en ligne. Avec ce volume, même les faibles taux de fraude peuvent être très coûteux. Au début de son histoire, l’entreprise perdait 10 millions de $ par mois par des fraudeurs. Pour résoudre ce problème, PayPal a mis en place une équipe de chercheurs qui ont utilisés des techniques de Machine Learning afin de construire des modèles permettant d’identifier les paiements frauduleux en temps réel.
  • Ciblage de contenus numériques: La société Dstillery utilise le Machine Learning pour aider les entreprises comme Verizon à cibler la publicité sur des plates-formes d’enchères en temps réel. En utilisant les données recueillies au niveau de l’historique de navigation, les visites, les clics et les achats d’un individu, Dstillery exécute des prédictions des milliers de fois par seconde, captant des centaines de campagnes à la fois; ce qui permet à la société de dépasser notablement les marketeurs humains ciblant des annonces pour un impact optimal par euro dépensé.
  • Recommandation de contenus: Pour les clients de X1 (service de télévision interactive), Comcast fournit des recommandations personnalisés en temps réel basées sur les habitudes d’écoute de chaque client. Travaillant avec des milliards d’enregistrements d’historique, Comcast utilise des techniques de Machine Learning pour élaborer un profil de goûts unique pour chaque client, puis regroupes les clients ayant des goûts communs en « clusters ». Pour chaque « cluster » de clients, Comcast affiche le contenu le plus populaire en temps réel, afin que les clients puissent voir les contenus actuellement tendance. Le résultat net: de meilleures recommandations, une plus grande utilisation et des clients plus satisfaits.
  • Construire de meilleures voitures: Les nouvelles voitures construites par Jaguar Land Rover ont 60 ordinateurs de bord qui produisent pas moins de 1,5 Go de données chaque jour à travers plus de 20.000 indicateurs. Les ingénieurs utilisent le Machine Learning pour distiller les données et comprendre comment les conducteurs fonctionnent réellement avec leurs véhicules. En travaillant avec ces données relatant la vraie utilisation des voitures, les concepteurs peuvent prédire un problème dans une pièce mais aussi des problèmes de sécurité potentiels.
  • Cibler les meilleurs prospects: Les marketeurs utilisent des modèles de « propension à acheter » comme outil pour déterminer les meilleures ventes et les meilleurs produits à offrir. Avec une vaste gamme de produits à offrir, du routeurs aux câbles de télévision, l’équipe d’analyse marketing de Cisco entraine 60.000 modèles et scores 160 millions de prospects en quelques heures. En expérimentant une gamme de techniques d’arbres de décision, l’équipe a grandement amélioré la précision des modèles. Cela se traduit par plus de ventes, moins d’appels perdus, et les représentants des ventes sont plus satisfaits.
  • Amélioration de la prestation de soins de santé: Pour les hôpitaux, la réadmission des patients est une affaire sérieuse. Aux Etats-Unis par exemple, Medicare (système d’assurance-santé géré par le gouvernement) et les assureurs privés pénalisent les hôpitaux avec un taux élevé de réadmission. Ces derniers ont donc un intérêt financier à se décharger des patients qui ne nécessite plus de soins assistés pour rester en bonne santé. Certains hôpitaux ont donc recours au Machine Learning pour construire des scores de risque pour chacun des patients. Ce système permet une meilleure utilisation des infirmières et des médecins, prioriser les patients en fonction du risque et de la complexité du cas.

Exigences en matière de logiciels pour faire du Machine Learning

C’est bien beau tout cela mais cela doit couter un porte-avion pour faire du Marchine Leearning…. Et bien, ce n’est pas toujours le cas.

Les logiciels de Machine Learning sont largement disponibles, et les organisations qui cherchent à se développer dans ce domaine ont beaucoup d’options. Les exigences suivantes doivent juste être considérées:

  • Rapidité
  • Retour sur investissement (comme d’hab quoi)
  • Exactitude des modèles
  • Facilité d’intégration
  • Flexibilité de déploiement
  • Facilité d’utilisation
  • Visualisation des résultats

Revoyons ces éléments indépendamment…

Rapidité: Je ne vous le cache pas mais « Time is money! », et des logiciels rapides rendent vos « Data Scientists » hautement rémunérés 🙂 plus productifs. La science des données (ou « Data Science ») est souvent itérative et expérimentale; un projet peut nécessiter des centaines de tests, donc des petites différences de vitesse se traduisent souvent par des améliorations spectaculaires en matière d’efficacité. Compte tenu des volumes de données d’aujourd’hui, le logiciel de Machine Learning doit être exécuté sur une plate-forme distribuée, de sorte que vous pouvez répartir la charge sur plusieurs serveurs.

Retour sur investissement: La performance d’exécution est seulement une partie du retour sur investissement. La mesure clé pour votre entreprise est la quantité de temps nécessaire pour achever un projet depuis l’ingestion des données jusqu’au déploiement. Concrètement, cela signifie que le logiciel de Machine Learning devra s’intégrer avec des formats Hadoop et de cloud computing les plus populaires, et il devra exporter des modèles prédictifs que vous pourrez déployer n’importe où dans votre organisation.

Exactitude des modèles: la précision compte les gars! (surtout lorsque les enjeux sont élevés) Pour les applications telles que la détection de la fraude, de petites améliorations dans la précision peuvent produire des millions d’euros d’économies annuelles. Le logiciel de Machine Learning devra donc fournir à vos « Data Scientists » l’ensemble de vos données, plutôt que de les forcer à travailler avec des échantillons. Plus de données = plus de précision.

Facilité d’intégration: le logiciel de Machine Learning doit coexister en production avec une flopée de logiciels complexes générant une foultitude de données. Donc, idéalement, recherchez un logiciel de Machine Learning qui fonctionne sur du matériel standard et ne nécessite pas des machines HPC spécialisées ou du matériel exotique comme des puces GPU.

Déploiement flexible: le logiciel de Machine Learning doit supporter un éventail d’options de déploiement, y compris la co-implantation dans Hadoop ou dans un cluster autonome. Si le cloud est une partie de votre architecture, chercher un logiciel qui fonctionne sur une variété de plates-formes de cloud, comme Amazon Web Services, Microsoft Azure et Google Cloud Platform.

Facilité d’utilisation: Les « Data Scientists » utilisent de nombreux logiciels différents pour réaliser leurs travaux, y compris les langages analytiques comme R, Python, et Scala. Votre plateforme de Machine Learning devra facilement s’intégrer avec leurs outils. En outre, des algorithmes de Machine Learning bien conçus incluent des fonctionnalités de gain de temps telles que:

  • Capacité à traiter les données manquantes
  • Possibilité de transformer les données catégoriques
  • Techniques de régularisation pour la gestion de la complexité
  • Grille de capacité de recherche pour les tests automatisés et l’apprentissage
  • Validation croisée automatique (pour éviter surapprentissage)

Visualisation des résultats: Une modélisation prédictive réussie nécessite une collaboration entre les « Data Scientists » et les utilisateurs du business. Le logiciel de Machine Learning devra donc fournir aux utilisateurs business des outils pour évaluer visuellement la qualité et les caractéristiques du modèle prédictif.

 

En conclusion, je pense que le Machine Learning deviendra aussi omniprésent, facile à utiliser et puissant que la recherche sur internet. Google, Yahoo, et d’autres ont contribués à libérer la puissance du Web pour des utilisateurs ordinaires en rendant accessible des résultats pertinents issus d’un nombre apparemment illimité de pages. De même, le Machine Learning permettra aux entreprises de toutes sortes de tirer parti de la puissance des données en apportant de façon simple et accessible des indications précieuses sur leurs business.

Nous n’en sommes évidemment pas encore là. Cela nécessitera de nouveaux investissements – tant dans des développeurs de Machine Learning que dans des utilisateurs business dont les volumes de données et les besoins d’analyse dépasseront les méthodes conventionnelles.