Jeremy Harroch – fondateur de Quantmetry – est l’un des membres de la délégation qui a accompagné Muriel Touaty, Directrice Générale du Technion France, lors de sa mission au Technion, Israel Institute of Technology à Haïfa qui s’est déroulée du 31 mai au 2 juin 2014.

Il revient sur ce voyage et sur les moments qui l’on marqué.

 » Israel Startup Nation devient Israel Data Nation sous les yeux ébahis des 50 membres de la mission annuelle du l’association Technion France. Voici ce que j’y ai appris et que je partage avec vous.
C’est le Professeur Boaz Golany qui nous accueille pour nous rappeler ce qu’est le Technion aujourd’hui : la première université du Moyen-Orient, la seule université d’Israel à avoir un département d’ingénierie aérospatiale, la première à avoir lancé un satellite, la seule à avoir un département de nanotechnologies en Israel et plus de 40 partenariats de R&D avec l’industrie. Intel, qui s’y était implanté il y a 40 ans est maintenant devenue le premier employeur de la ville de Haifa (plus de 10 000 employés). Les entreprises francaises ne sont pas en reste avec les partenariats noués avec Total, Veolia, les laboratoires Servier, Sanofi, les Instituts Merieux, Havas, l’Inserm.

C’est enfin une université tournée vers le monde en devenant la première à créer un partenariat avec Cornell (Technion Cornell Innovation Institute) et avec l’université chinoise de Shantou (Technion Guangdong Institute of Technology)
Le Technion, c’est un budget de 500 millions USD dont 9% seulement est porté par des frais de scolarité (environ 3000 euros par an) et dont 150 millions USD sont investis chaque année en R&D.

Le voyage concernait principalement le Big Data et c’est Avigdor Gal qui est venu nous en parler.

Les enjeux de grande volumétrie avaient déjà été rencontrés au Technion comme dans le projet de décrypter l’intégralité du génome de toute la population Israélienne. Maintenant, avec le succès du buzzword « Big Data », on a tendance à oublier que le Big Data est une rupture technologique gigantesque avant d’être un mot devenu à la mode.

Le monde a eu besoin d’un système de comptage empirique afin de passer du monde de la théorie à celui  des systèmes. Ce comptage est devenu précis aujourd’hui et a fait place à des technologies matures comme la BI. Aujourd’hui pour passer des systèmes à la compréhension de la data, le monde a besoin d’un système de comptage empirique grande échelle, c’est là qu’intervient le Big Data.

Selon lui, la plupart des définitions sur les dataScientists sont fausses : non ce n’est ni un statisticien geek, comme le suggère la définition « a datascientist is a statistician leaving in San Francisco », ni un statisticien qui fait des jolies présentations, comme le voudrait la définition « a datascientist is a statistician on a Mac », ni un expert hybride comme le veut la définition « a datascientist is someone that is better in statistics than any software engineer and better at software engineering than any other statistician”. Pour lui, le dataScientist est un vrai passionné de data qui a passé plusieurs jours à rendre propre un jeu de données, plusieurs semaines à essayer de les modéliser, plusieurs mois à le retourner dans tous les sens avant de pouvoir y trouver une information à très forte valeur ajoutée et qui sait s’y retrouver comme dans sa poche. A l’entendre, le vrai dataScientist n’existe pas encore car la plupart des dataScientists aujourd’hui se sont formés sur le tas, par nécessité et viennent en réalité d’un autre domaine scientifique. Certains ont obtenu un diplôme de Master mais ce n’est qu’une spécialisation d’un an qui vise a leur ouvrir les yeux sur la taille de ce nouveau domaine en plein exploration. Le vrai dataScientist est à venir :  c’est l’élève qui aura passé toute sa scolarité (niveau undergrade) à jouer, tester, explorer, triturer des jeux de données au point d’avoir développé des instincts statistiques sur la qualité d’une base de données, des reflexes de machine learning pour apprécier la vitesse de convergence d’un algorithme, des connaissances informatiques pour comparer les capacités de stockage, de requêtage, et d’indexation d’une plateforme technique.
Le technion va ouvrir en 2015, le premier programme undergrad (niveau licence) en dataScience au monde. Dès le premier jour les élèves se confronteront à la préparation des données, à la segmentation bien avant de connaître les théories statistiques. Les phD sont les plus demandés sur le marché du travail car comme ils sont très bons, ils sauront se débrouiller, mais en réalité, les entreprises ont avant tout besoin d’ingénieurs.

Pour Avigdor Gal, les étapes d’un projet Big Data se résument en 4 phases.
La première ressemble aux fontaines dans les parcs pour enfants dont on ne sait jamais d’où le prochain jet va sortir : c’est la récupération des données.
La deuxième intervient lorsqu’on se demande s’il va falloir envoyer le sysAdmin (celui qui sera en charge d’extraire et consolider les données sur la base de données choisie) sur la lune : c’est le management des données dont les décisions vont aboutir à choisir une techno et un emplacement (local ou cloud).
Le troisième fait intervenir les fans de Rubik’s Cube : l’analyse de données peut commencer avec le dataMining, l’information retrieval, le machine learning, le natural language processing.

Enfin la quatrième est celle qui est la moins mature aujourd’hui : avec la dataVisualisation, le résultat peut s’apprécier en un seul coup d’oeil (penser à la révolution qui s’est opérée lorsque les logiciels de simulation d’éléments finis sont devenus des représentations en 3D avec couleur et animation).

Les compagnies doivent comprendre aujourd’hui que chaque source de données a une histoire, qui n’attend que d’être découverte.

L’installation d’un système de localisation de personnes dans un hôpital raccourcira les temps d’attente pour les visites, pour un stade de foot, il permettra de positionner les joueurs au mieux pour décrocher une victoire.
La mesure des consommations énergétiques permettra de faire l’équilibre entre confort et dépenses énergétiques.

La gestion des crises pourra être anticipée par l’utilisation des réseaux sociaux.
Les smart city pourront utiliser les informations sur le trafic, le passage des véhicules, la ponctualité des services de transports, l’attitude des conducteurs de bus… pour fournir des recommandations de déplacement optimal pour ses habitants.

Un des grands enjeux du Big Data actuel c’est de faire la distinction entre une stratégie qui aurait comme but d’être exhaustive dans l’analyse de tous les signaux afin de fournir une information précise au détriment de son efficacité si elle n’intervenait que trop tard et une stratégie qui serait probabiliste et n’utilisant qu’une partie de l’information disponible mais en acceptant une perte de précision qui assurerait l’efficacité de l’information obtenue au bon moment.
Dans un système de gestion d’évènements (comme pour la gestion d’un système vidéo pour la sécurité d’une ville), la variété des sources permet en se recoupant de lever le niveau d’incertitude sur la qualité d’une source afin d’obtenir un bon niveau de véracité sur l’évènement. Pendant les pertes de précision sur la véracité d’un évènement, c’est l’opérateur humain qui prend le relai. C’est une sorte d’homme augmenté par la technologie. Ce système est déjà en place dans la ville de Dublin.

Enfin, le rapport à l’éthique est toujours une question qui apparaît avec le Big Data; Avigdor repousse rapidement : « personne ne sait vraiment ce que la morale et la protection des données privées veut dire aujourd’hui avec le Big Data ».

Avigdor Gal laisse la place à Assaf Shuster qui vient nous présenter la notion de passage à l’échelle (scalabilité) pour la mise en place des métriques d’un système (les analytics).
Pour faire assez simple, même pour moi qui parle de Big Data au quotidien, le discours d’Assaf est complètement en avance sur ce qu’est le Big Data aujourd’hui qu’il faudrait lui donner un autre nom, l’envisager comme le futur du Big Data. Oubliez les problèmes de stockage ou de calcul informatique, pour lui le Big Data comencera avec le machine to machine, lorsqu’on envisagera même plus de centraliser l’information vu que le temps d’acheminement de la donnée sera plus grande que le temps de réaction des systèmes.
Assaf rappelle l’évolution de la tailles des jeux de données dont on parle :
Ca commence avec les données crées par les internautes : le texte sur les réseaux sociaux, puis les média (principalement les vidéos), puis l’internet des objets (aujourd’hui essentiellement les smartphones mais demain il faudra compter aussi sur la domotique et les capteurs que l’on portera sur nous) puis il faut ajouter les données machines : les traces laissées sur les serveurs à chacune de nos connexions, l’historique de toutes nos transactions (achats, paiements bancaires), la télémétrie (les caméra d’une ville, les capteurs d’ensoleillement et d’humidité dans les champs ou les pistes de ski, le système de sécurité de votre appartement). Et enfin il va falloir prendre en compte une source encore inexistante mais qui va dépasser de beaucoup celles qu’on vient de citer : les systèmes de négociation automatiques entre machines (penser qu’aujourd’hui par exemple une caméra qui surveille le traffic permet de compter le nombre de voiture et d’adapter le système de signalisation périodiquement, demain c’est elle qui sollicitera directement le feu d’à coté pour évacuer une congestion ponctuelle). Et là, vous allez obtenir une loghorrée en temps continu d’évaluations de l’intérêt de prendre telle ou telle décision entre toutes les  machines connectées, ce n’est plus du Big Data, c’est du Monster Data.

« Ce jeu de données dépasse par un ordre de grandeur la somme de tous les jeux de données actuels ». Quand on sait qu’aujourd’hui, 2% des dépenses énergétiques dans le monde concernent le stockage des données, on imagine bien que l’avenir du Big Data passe par la fin des dataWarehouse et dataCenter tels qu’on les connait aujourd’hui.
Avec la remise en cause de la centralisation des données, vous remettez en cause tous les adages actuels du Big Data : plus de MapReduce, il va falloir faire avec ce qu’on a sur place; plus de cloud, maintenant presque tout devient local; plus de dataCenter, il faut équiper tous les capteurs de capacités d’analyse. Ces trois points sont fortement ignorés aujourd’hui par tous les éditeurs de logiciels Big Data.
Ce n’est pas pour tout de suite mais pensez seulement que le Royaume-Uni prévoit d’équiper le pays par plus de 100 000 capteurs par personne d’ici 2020.

Ensuite, Assaf nous a parlé de problèmes actuels : aujourd’hui, l’essentiel de la gestion des systèmes se fait avec des seuils, c’est normal, on ne va pas demander au sysAdmin de commenter toutes les variations du système, c’est un travail a plein temps. En dessous d’un seuil, on ignore le problème, au delà on déclenche une alerte et on le traite. Le problème c’est qu’il y a beaucoup d’erreurs qui ne sont pas détectées et aujourd’hui posent des problèmes assez importants, alors on baisse les seuils de déclenchement d’alerte et on se retrouve avec beaucoup de fausses alertes parce que les seuils de déclenchement sont trop bas. C’est le cercle vicieux des seuils. Assaf travaille sur des systèmes de détection par comparaison et sélection des aberrations statistiques. Plus de spirale des seuils mais un système plus difficile à interpréter humainement.
Enfin, Assaf nous donne un exemple rapide de l’enjeu du Big Data pour la santé : les personnes atteintes de Parkinson sont obligées d’aller à l’hôpital pour calibrer leur système de stimulation nerveux mais demain elles le feront de chez eux avec un dispositif vidéo proche de la kinect qui évaluera la qualité de leur démarche, continuellement. Ces personnes n’observeront plus aucun moment de leur vie où elles subissent les troubles du déplacement de leur maladie.

Assaf laisse la place à Royi Ronen de Microsoft.

Pour lui le Big Data va avoir pour les entreprises le même rôle qu’a joué le microscope dans les sciences humaines : de voir avec précision les mécanismes cachés jusqu’alors.

Il cite alors quelques exemples d’application du Big Data : la série House of Cards de Netflix, le système de personnalisation de la radio Pandora, le système de detection des fraudes de Paypal. Il faut pas oublier de distinguer la notion de recherche et de recommandation qui ouvrent deux champs différents du machine learning, l’un dont l’objet est de comprendre ce que l’humain veut dire, l’autre dans lequel il faut anticiper ses désirs. A ce sujet, le Washington Post (détenu par Jeff Bezos) titrait qu’Amazon livrera les produits à ses clients avant qu’ils ne les aient commandées. Est-ce un coup de comm?, une réalité? (le client aura le choix de refuser la commande et de la renvoyer gratuitement) ou une illustration à prendre avec du recul (les stockages des produits d’amazon prendra en compte les futurs commandes des clients).

L’après midi, nous avons visité 3 laboratoires et rencontré 3 chercheurs.

Nir Ailon nous a parlé des systèmes de recommandation sur lesquels il travaille. Tout le système d’apprentissage supervisé se base sur l’utilisation de mechanical turk (un système d’organisation de tâches qui ne peuvent être complétées que par des humains, mis en place par Amazon) dans le but de reconnaître des images qui ont le même pouvoir commercial. Il est donc capable de reconnaitre deux chaises sur deux images différentes (un sujet de reconnaissance visuelle assez classique en machine learning) mais il est aussi capable de dire si elles sont interchangeables dans un magasin (est-ce le même modèle, ont-elle le même niveau d’usure, sont-elles issues d’un atelier de designer équivalent). C’est un application du machine learning à partir des travaux d’économétrie de Mc Fadden (Modelling the choice of residential location, 1970), prix Nobel d’économie en 2000 pour ses travaux sur les choix discrets.

Oren Kurland nous a présenté ses sujets de recherches en machine learning : les moteurs de recherche ou SEO (dont la nouveauté réside dans la recherche d’information dans les sous-sections de la page), le repérage d’entités nommés ou named entity retrieval (en gros comment on trouve dans un document le fait qu’on parle d’un restaurant qui sert le meilleur Houmous de la ville tout en filtrant tous les documents qui parlent de la recette pour faire le meilleur Houmous de la ville) et le metacaller (le croisement d’informations provenant de plusieurs sources de recommandation). Ils travaillent collaboration avec IBM et utilisent Lucene et Indri.

Koby Crammer travaille sur plusieurs sujets qu’il nous a présentés.
La classification des commentaires d’appréciations sur une base de films et de livres, en collaboration avec Fujitsu. Sa modélisation peut se permettre de ne conserver que les deux mots avec les pouvoirs d’expression les plus forts pour faire la catégorisation, un simple tf-idf permet de classer tout le reste des commentaires. C’est une approche méthodologique assez simple, probablement une simplification faite de cette présentation pour l’occasion.

La mesure du déplacement de population en utilisant les bornes wifi, ce qui est assez fort, c’est qu’il n’utilise pas l’identification des téléphones, donc c’est essentiellement les déplacement de foule (chose assez fréquente dans l’enceinte d’une université) qui permet de détecter les phénomène cycliques (cycle courts comme la sorte des cours, cycles longs comme la période de révision). Voila peut-être un moyen atypique de mesurer l’assiduité des élèves.

Un travail de recommandation multi plateforme pour un seul utilisateur en collaboration avec Intel. C’est une approche dont je n’avais jamais entendu parlé qui consiste à considérer que les éléments d’appréciation de la qualité d’une segmentation (pour filtrer des spams sur les mails, pour sélectionner les articles les plus lus sur internet, pour proposer des recommandations de produits sur un site de e-commerce) ont moins de points communs en prenant les plateformes de manière individuelles (usuellement tous ces algorithmes sont indépendants) qu’en réunifiant les données concernant un utilisateur sur plusieurs plateformes (si on considère que les mails sur les soldes d’apple sont des spams, autant ne pas recommander de produits informatiques sur les bannières publicitaires qu’il rencontrera).
Enfin, un joystick vocal présentait l’avancement du machine learning sur les ondes sonores.  »

Si les questions relatives au Big Data vous interessent, le Technion France organise son colloque annuel « Making Sense of Big Data » le 15 décembre 2014.

Pour plus d’informations, n’hésitez pas à contacter le Technion France