Participez
Partagez vos jeux de données et vos applications avec la communauté open data
Ces dernières années ont vu l’apparition de diverses applications qui mettent des personnes en contact pour échanger des biens et des services. De plus en plus de consommateurs ont recours à une plateforme en ligne pour réserver un hébergement de vacances ou faire livrer un repas à domicile par une entreprise de livraison à vélo. L’économie collaborative gagne dès lors rapidement en importance. C’est la raison pour laquelle Statbel, l'office belge de statistique, étudie, en étroite collaboration avec Eurostat et d’autres instituts nationaux de statistique, de quelle manière l’économie collaborative peut être intégrée dans les statistiques publiques. Les instituts nationaux de statistique sont toutefois confrontés à une difficulté majeure lors de l’analyse des entreprises actives comme plateformes. Les plus grandes d’entre elles sont des acteurs multinationaux qui gèrent souvent leurs activités en Belgique à partir d’un siège situé à l’étranger. Ces entreprises se retrouvent dès lors rarement dans les statistiques classiques sur les entreprises ou dans les répertoires. Pour obtenir les données nécessaires, les instituts nationaux de statistique seraient dès lors obligés de contacter toutes les entreprises actives comme plateformes de manière unilatérale. Cette méthode de travail est chronophage et peu efficace, tant pour les plateformes que pour les instituts statistiques. La Commission européenne a dès lors décidé de s’occuper elle-même de ces contacts et de demander les données pour tous les Etats membres de l’UE via une convention. Ces négociations se sont d’abord concentrées sur le secteur du tourisme résidentiel et ont débouché sur des accords avec les plateformes Airbnb, Booking.com, TripAdvisor et Expedia . Ces entreprises ont entretemps fourni les premiers fichiers de données à Eurostat. Eurostat subdivise ensuite les microdonnées en 27 fichiers nationaux pseudonymisés et agrégés, ce qui permet à Statbel de recevoir des informations sur l’ensemble des réservations et des nuitées qui ont été réservées sur le territoire belge via ces quatre plateformes en ligne. Ces accords entre la Commission européenne et les quatre plateformes ont permis de franchir un premier obstacle important. Le travail méthodologique ne fait toutefois que commencer. Sur la base des premiers fichiers, les instituts nationaux de statistique et Eurostat doivent encore développer une approche harmonisée permettant de relever les défis méthodologiques. Etant donné que les microdonnées des plateformes ne contiennent pas de données d’identification, les doubles comptages constituent un problème significatif. Ces doubles comptages, dans lesquels un hébergement est repris dans au moins deux fichiers différents, constituent surtout un défi pour déterminer la capacité. C’est la raison pour laquelle, cette information n’est pas reprise dans la statistique expérimentale. Actuellement, les instituts nationaux de statistique étudient, en concertation avec Eurostat, quelles sont les meilleures techniques à utiliser pour résoudre ces problèmes méthodologiques. Dans ce cadre, on se tourne surtout vers les méthodes innovantes comme le webscraping. Le webscraping collecte des informations pertinentes sur des sites internet. Cette technique, combinée à l’intelligence artificielle, est considérée comme la meilleure solution. Nous étudions concrètement les deux pistes suivantes : Reconnaissance de texte : les particuliers qui proposent la même chambre sur plusieurs plateformes en ligne, utilisent en général le même texte. En recherchant des mots-clés comme l’emplacement de l’hébergement, la taille de la chambre, les commodités présentes... Les hébergements identiques peuvent être identifiés automatiquement ; Reconnaissance de photos : cette technique compare automatiquement les photos placées dans une annonce afin d’identifier les doubles comptages éventuels. Cette technique nécessite toutefois une mémoire informatique conséquente et est dès lors gardée en réserve en tant que solution alternative. L’objectif à terme est d’intégrer les données des plateformes dans une statistique récurrente. Le timing de cette intégration dépend de la définition d’une approche harmonisée pour les problèmes méthodologiques ainsi que de la livraison plus rapide des données par les plateformes.
Partagez vos jeux de données et vos applications avec la communauté open data