Guide de révision complet
Basé sur l'intégralité des 86 pages du cours de Caroline Lioger. Tout comprendre, de la donnée brute à l'avantage compétitif basé sur la data.
"Data is the new oil" → "Data is the new soil"
Le changement de métaphore qui change tout
Pourquoi cette phrase est devenue célèbre
Ressource stratégique
La donnée est le carburant de l'économie numérique, comme le pétrole l'a été pour l'industrie.
Transformation nécessaire
Comme le pétrole brut, la donnée brute ne vaut rien sans traitement. Elle nécessite technologie et compétences.
Avantage compétitif
Les entreprises qui maîtrisent la donnée (Google, Facebook, Amazon) ont dominé leur secteur.
Mais la métaphore est imparfaite — 3 limites
- La donnée n'est pas rare par nature — elle peut être produite en quantité illimitée
- Sa valeur dépend du contexte — les mêmes données peuvent ne rien valoir ailleurs
- Elle peut être copiée — pas une ressource physique exclusive
Pétrole vs Sol — la distinction stratégique
🛢️ Pétrole → Logique extractive
- On cherche à extraire et vendre
- La valeur est dans le stock brut
- On l'épuise en l'utilisant
- Court-termiste
🌱 Sol → Logique de culture
- On cherche à cultiver un écosystème
- La valeur est dans les boucles d'apprentissage créées
- Se valorise en l'utilisant
- Long-termiste
Un entrepreneur stratégique dit : "Mon système apprend plus vite que mes concurrents."
La vraie question : quelle est la fertilité de votre système ?
Chaîne de valeur de la donnée
De la donnée brute à la décision actionnable
La donnée brute seule ne vaut rien. Ce qui crée de la valeur, c'est sa transformation progressive en décision :
| Niveau | Définition | Exemple |
|---|---|---|
| Data | Chiffres, logs, clics, transactions — brutes non interprétées | 350 000 clics sur le bouton "Payer" |
| Information | Données contextualisées et structurées avec sens | Taux de conversion = 2,1% |
| Insight | Compréhension exploitable révélant un problème ou une opportunité | Les utilisateurs mobiles abandonnent 3× plus au paiement |
| Décision | Action stratégique basée sur l'insight | Simplifier le tunnel mobile + ajouter Apple Pay → +18% conversions |
Data as a Product (DaaP)
Traiter la donnée comme un actif à gérer, pas un sous-produit
Les 4 caractéristiques d'une donnée-produit
👥 Utilisateurs identifiés
Qui consomme cette donnée ? Équipes internes (marketing, finance) ? Clients via API ?
🧑💼 Owner désigné
Propriétaire responsable de la qualité et de l'évolution de la donnée, comme un Product Manager.
🗺️ Roadmap & SLA
Plan d'amélioration dans le temps et engagements de niveau de service (fraîcheur, disponibilité, précision).
📏 Qualité mesurable
Métriques suivies : exactitude, complétude, cohérence, actualité.
Moat & Effet d'apprentissage
Comment la data crée un avantage concurrentiel difficile à copier
Le cercle vertueux de l'effet d'apprentissage
Barrières à l'entrée créées par la data
✅ Entreprise établie
- Historique de données impossible à recréer rapidement
- Algorithmes entraînés sur des millions d'exemples
- Infrastructure data éprouvée
- Talents spécialisés retenus
❌ Nouvel entrant
- Pas d'historique → algorithmes moins performants
- Cold start problem : le produit est mauvais au début
- Nécessite infrastructure, talent, exécution
- Le fossé s'élargit chaque jour
| Entreprise | Données collectées | Moat créé |
|---|---|---|
| Tesla | Conduite de chaque véhicule (capteurs, GPS, comportements) | IA Autopilot unique basée sur milliards de km de données cumulées |
| Netflix | Historique de visionnage complet | Algorithme de recommandation + décisions de production de contenus |
| Airbnb | Réservations, avis, navigation, historique prix | Confiance + prédiction dynamique des prix et fiabilité hôtes |
La fertilité du système
Mesurer la capacité à générer de la valeur à partir de la data
Les 4 indicateurs de fertilité
- Boucle d'apprentissage rapide : cycle Data→Insight→Décision→Action court et efficace
- Volume et diversité de la data exploitable : structurée, non-structurée, Big Data
- Utilisation des insights : nombre d'actions concrètes basées sur la donnée
- Impact sur le business : gains de performance, réduction de coûts, fidélisation, innovation
Échelle de fertilité — 4 niveaux
Données peu exploitées
Reporting descriptif. Décisions lentes. Boucle > 1 mois. Ex : institution publique
Données pour optimiser
Tableaux de bord. Quelques automatisations. Boucle hebdomadaire.
Data au cœur
IA pour recommandations. Décisions quotidiennes data-driven. Ex : Qonto, Zalando
Data-native
Décisions automatisées temps réel. ML continu. Boucle < 24h. Ex : Tesla, Netflix
La boucle d'apprentissage
Le cycle qui transforme la data en avantage compétitif
Collecte
Données clients, logs, transactions, capteurs…
Analyse / Insight
IA, KPI calculés, détection d'anomalies
Décision
Priorisation, hypothèse à tester
Action
A/B test, modification produit, automatisation
Nouvelles données
Résultats → retour à ①
Cycle continu
Sans ④ et ⑤ : pas de vraie boucle.
Vitesse de boucle — tableau comparatif complet
| Vitesse | Délai | Entreprise exemple | Fréquence |
|---|---|---|---|
| Très rapide | < 1 jour | Tesla : amélioration Autopilot quasi temps réel | 1000+ cycles/jour |
| Rapide | 1 jour–1 sem. | Netflix / Zalando / Qonto | Quotidien |
| Moyenne | 1 sem.–1 mois | Airbnb : prix et scoring hôtes | Hebdomadaire |
| Lente | > 1 mois | Banque traditionnelle : reporting trimestriel | Mensuel |
3 exemples sectoriels de boucles
🛍️ Zalando
Navigation + achats → tendances → recommandations personnalisées → ajustement page produit → nouvelles données.
🛴 Lime
GPS + capteurs → zones forte demande → repositionnement trottinettes + pricing dynamique → nouvelles utilisations.
❤️ Withings
Activité + cœur + sommeil → tendances et anomalies → alertes personnalisées → nouvelles données utilisateur.
La boucle d'itération
Anatomie complète et plan d'action data-driven
Anatomie — 6 phases
| Phase | Contenu | Exemples |
|---|---|---|
| 1/ Collecte | Rassembler les données pertinentes | Données clients (usage, clics, churn), logs opérationnels |
| 2/ Analyse | Transformer en compréhension | KPI calculés, modèle prédictif, détection d'anomalie |
| 3/ Décision | Choisir une hypothèse à tester | Priorisation, sélection d'un segment |
| 4/ Action | Mettre en œuvre concrètement | A/B test, modification produit, automatisation |
| 5/ Mesure d'impact | Évaluer les effets | Variation KPI, ROI, engagement |
| 6/ Réintégration | Les résultats = nouvelles données | Mise à jour des datasets, réentraînement IA |
Plan d'itération — 5 étapes
① Définir l'objectif
KPI cible précis (ex : +5% conversion). Hypothèse claire et falsifiable.
② Définir les métriques
KPI principal + secondaires. Seuil de succès.
③ Expérimentation
A/B test ? Quel segment ? Quelle durée ? Quelle taille d'échantillon ?
④ Exécution
Implémentation + monitoring en temps réel.
⑤ Stop / Continue / Scale
Stop : reformuler l'hypothèse · Continue : itérer · Scale : déployer à tous.
⚠️ Risques fréquents
- Trop d'indicateurs → bruit
- Pas d'hypothèse claire
- Ne pas fermer la boucle
- Décision politique > décision data
Data classique vs Big Data (5V)
Comprendre la différence d'échelle et de complexité
📊 Data "classique"
- Structure : SQL, tables relationnelles
- Volume : modéré (Mo, Go)
- Outils : Excel, ERP, CRM, SQL
- Usage : reporting, KPIs, analytique descriptive
- La majorité des PME travaillent avec ce type
🌊 Big Data
- Structure : hétérogène (structuré + non-structuré)
- Volume : massif (To, Po) · milliards d'événements
- Outils : Hadoop, Spark, NoSQL, Cloud
- Usage : IA, ML, recommandations, prédiction temps réel
- Ex : Netflix, Tesla, Google
Les 5V du Big Data
Volume
Quantité massive (To, Po, Eo)
Velocity
Vitesse de génération (temps réel)
Variety
Diversité : texte, image, vidéo, IoT…
Veracity
Qualité incertaine à valider
Value
Extraction de valeur complexe
Système d'Information (SI)
Le système nerveux de l'organisation moderne
5 composantes d'un SI
👥 Humains
Utilisateurs, décideurs, analystes, admins
💻 Matériel
Serveurs, ordinateurs, smartphones, réseaux
⚙️ Logiciels
ERP, CRM, BDD, applications métier
📊 Données
Brutes et structurées — le carburant du SI
📋 Procédures
Règles pour collecter et exploiter
Les principaux outils d'un SI
| Outil | Signifie | Fonction | Exemples |
|---|---|---|---|
| ERP | Enterprise Resource Planning | Planification intégrée : ventes, production, stock, finance, RH | SAP, Sage, Microsoft Dynamics |
| CRM | Customer Relationship Management | Gestion relation client : historique, opportunités, SAV | Salesforce, HubSpot, Pipedrive |
| SIRH | SI Ressources Humaines | Paie, congés, recrutement, formation, évaluations | Workday, PayFit, Lucca |
| BI / Power BI | Business Intelligence | Tableaux de bord, analyses, visualisation pour décision | Power BI, Tableau, Looker |
SQL vs NoSQL
Choisir la bonne base de données
🔷 SQL — Bases relationnelles
- Tables liées par des relations
- Schéma fixe défini à l'avance
- Transactions ACID (Atomicité, Cohérence, Isolation, Durabilité)
- Scalabilité verticale
- Idéal : ERP, CRM, comptabilité, transactions fiables
- Ex : MySQL, PostgreSQL, Microsoft SQL Server
🟢 NoSQL — Non relationnelles
- Documents, graphes, colonnes, key-value
- Schéma flexible, données hétérogènes
- Scalabilité horizontale (plusieurs serveurs)
- Optimisé flux massifs temps réel
- Idéal : Big Data, IA, temps réel
- Ex : MongoDB, Cassandra, Redis, Neo4j
Data Warehouse vs Data Lake
Architectures de stockage et comment choisir
🏛️ Data Warehouse
- Données structurées et propres
- Processus ETL (Extract, Transform, Load) avant stockage
- Optimisé pour analyse historique, reporting, BI
- Schema-on-write (schéma défini avant)
- Ex : Amazon Redshift, Google BigQuery, Snowflake
- Usage startup : décisions stratégiques (ventes, churn)
🏞️ Data Lake
- Toutes les données brutes, sans schéma fixe
- Schema-on-read (schéma défini à la lecture)
- Optimisé pour Big Data, IA, exploration
- Traitement distribué (Spark, Hadoop)
- Ex : Amazon S3 + Glue, Azure Data Lake, Databricks
- Usage startup : modèles prédictifs, alimenter IA
Recommandation par phase de développement
🌱 Démarrage
SQL + Data Warehouse — simple, rapide, moins cher. Permet KPI et reporting standard.
📈 Croissance / IA
NoSQL + Data Lake — pour flux massifs, données non structurées, IA, prédiction.
🏢 Maturité
Architecture hybride — DW pour reporting + DL pour IA et expérimentation.
Product-centric vs Data-centric
Deux approches stratégiques fondamentalement différentes
📦 Product-centric
- Le produit est central, la data l'améliore
- La valeur est dans le produit lui-même
- Moat = qualité produit, marque, distribution
🌊 Data-centric
- Le produit est conçu pour générer la data
- La data CRÉE le moat (avantage compétitif)
- Moat = données propriétaires + IA entraînée
Positionnement des 3 cas du cours
| Entreprise | Positionnement | Justification | Décision stratégique possible |
|---|---|---|---|
| Tesla | Fortement data-centric | Chaque véhicule vendu génère des données → Autopilot s'améliore automatiquement | Renforcer collecte mondiale pour accélérer le Full Self-Driving |
| Netflix | Data-centric, mais moat fragile | Historique de visionnage → recommandations + décisions de production | IA générative pour personnaliser davantage + réduire coûts de production |
| Airbnb | Hybride | Plateforme ET data se renforcent mutuellement | IA de pricing dynamique + scoring prédictif de fiabilité des hôtes |
Modèle Big Tech & CPM
Comment Google et Facebook ont bâti des empires sur la donnée
La boucle économique des Big Tech
Le CPM — définition et formule
Pourquoi la data fait monter le CPM ?
Sans ciblage → CPM bas (~2-5€)
Publicité aléatoire, taux de conversion faible (~0,1-0,5%), l'annonceur paie peu.
Avec data précise → CPM premium (~15-50€+)
Audience qualifiée, intentionniste, taux de conversion élevé (~2-5%), l'annonceur paie beaucoup plus.
Les 3 modèles de facturation publicitaire
| Modèle | Signification | Paiement déclenché par | Usage |
|---|---|---|---|
| CPM | Cost Per Mille | 1 000 affichages | Notoriété, visibilité de marque |
| CPC | Cost Per Click | 1 clic sur la publicité | Trafic vers un site web |
| CPA | Cost Per Acquisition | 1 conversion (achat, inscription) | Performance, ROI direct |
Optimiser son CPM
2 leviers concrets pour tout entrepreneur
Levier 1 — Améliorer la qualité de l'audience
Un CPM élevé vient d'une audience qualifiée, solvable et intentionniste. Un annonceur paie plus si le pouvoir d'achat est élevé, l'intention d'achat est forte, le ciblage est précis.
Actions : segmenter finement · construire des personas précis · collecter des données first-party
Levier 2 — Exploiter la data first-party
Collecter la donnée
- Créer des comptes utilisateurs
- Proposer des newsletters (opt-in)
- Collecter des préférences déclarées
- Tracker l'engagement (RGPD)
Exploiter la donnée
- Segmentation comportementale
- Personnalisation du contenu et des offres
- Look-alike audiences
- Retargeting basé sur l'historique
Gouvernance & qualité des données
Les règles du jeu pour une data fiable et utilisable
🔐 Gouvernance
- Qui possède quoi ? — ownership clair de chaque dataset
- Qui peut modifier ? — gestion des droits d'accès
- RGPD : consentement, droit à l'oubli, DPO
- Traçabilité : audit trail, historique des modifications
📏 Qualité des données — 4 critères
- Exactitude : les valeurs reflètent la réalité
- Complétude : pas de champs vides importants
- Cohérence : pas de contradictions entre systèmes
- Actualité : données à jour selon la fréquence requise
RGPD — l'essentiel pour un entrepreneur
| Principe | Ce que ça implique concrètement |
|---|---|
| Consentement | Accord explicite avant de collecter des données personnelles |
| Minimisation | Ne collecter que les données strictement nécessaires |
| Droit à l'oubli | Pouvoir supprimer toutes les données d'un utilisateur sur demande |
| Portabilité | Permettre à l'utilisateur d'exporter ses données |
| DPO | Délégué à la Protection des Données (obligatoire dans certains cas) |
Cas : Tesla, Netflix, Airbnb
Corrigé complet du cas n°1 du cours
⚡ Tesla — Fortement data-centric
Données : Flux continus capteurs véhicules → Big Data temps réel
Boucle : Très rapide (< 1 jour). Chaque véhicule améliore l'Autopilot de toutes les Tesla
Moat : Milliards de km de conduite → IA Autopilot inégalable
Décision : Renforcer collecte mondiale pour accélérer Full Self-Driving
🎬 Netflix — Data-centric, moat fragile
Données : Historique de visionnage complet → Big Data comportemental
Boucle : Rapide (quotidienne). Recommandations ajustées chaque jour
Moat : Algorithme de recommandation + décisions de production (fragile car concurrents accumulent aussi)
Décision : IA générative pour personnaliser davantage + réduire coûts de production
🏠 Airbnb — Hybride
Données : Réservations, avis, navigation, historique prix
Boucle : Moyenne (1-2 semaines). Ajustement hebdomadaire du pricing
Moat : Confiance bidirectionnelle + prédiction fiabilité hôtes/voyageurs
Décision : IA de pricing dynamique + scoring prédictif avancé fiabilité hôtes
Licornes françaises & ESN
Exemples de PME digitales et entreprises de services numériques
Licornes françaises — fertilité et usage data
| Entreprise | Secteur | Fertilité | Usage data |
|---|---|---|---|
| Qonto | Fintech | Élevée | Automatisation comptable, alertes trésorerie |
| PayFit | RH / Paie | Élevée | Détection anomalies + recommandations processus |
| Withings | Santé connectée | Élevée | Insights personnalisés activité et sommeil |
| Back Market | E-commerce reconditionné | Moyenne-élevée | Recommandations produits + gestion stock |
| ManoMano | E-commerce bricolage | Moyenne | Suggestions personnalisées + promotions ciblées |
| BlaBlaCar | Mobilité | Moyenne | Optimisation matching conducteurs-passagers |
ESN — Entreprises de Services Numériques
| Entreprise | Fertilité interne | Valeur |
|---|---|---|
| Capgemini Invent | Moyenne | Expertise + recommandations clients basées sur données projets |
| Devoteam | Moyenne-élevée | Optimisation déploiement cloud + suivi performance client |
| SQLI / Octo Technology | Moyenne | Amélioration UX et performances web, prototypage IA |
PME vs ESN vs Grands groupes
Comment la taille influence la fertilité data
| Critère | PME / Start-up | ESN | Grands groupes |
|---|---|---|---|
| Fertilité | Agile, variable. Très élevée si culture data forte dès le départ | Moyenne en interne. Forte fertilité chez leurs clients | Potentiellement très élevée, mais risque de lenteur organisationnelle |
| Type de données | Clients (CRM), produit (usage, analytics). Parfois Big Data si digital native | Données projets, logs techniques, multi-clients | Massives historiques, structurées (ERP) + non-structurées (emails, IoT) |
| Boucle | Rapide (jours/semaines). Décisions proches du terrain | Dépend des cycles clients. Capitalisation RETEX | Peut être très rapide si automatisée, mais souvent plus lente (validation, gouvernance) |
| Moat | Innovation rapide + spécialisation forte | Expertise sectorielle + capital humain + réputation | Effet d'échelle + données propriétaires massives + infrastructure |
Méthode d'analyse d'un cas data
Le template 5 dimensions à mémoriser
① Type de données
- Structurées (SQL, ERP, CRM) ?
- Non structurées (texte, image, vidéo) ?
- Big Data (volume massif, temps réel) ?
- First-party ou third-party ?
② Boucle d'apprentissage
- Où collecte-t-on la donnée ?
- Comment la traite-t-on (IA, algo) ?
- Quel insight ? Quelle décision ? Quelle action ?
- Vitesse : Très rapide / Rapide / Moyenne / Lente ?
③ Product vs Data-centric
- La data améliore le produit (product-centric) ?
- Ou le produit existe pour générer la data (data-centric) ?
- Justification concrète ?
④ Moat basé sur la data
- Quel avantage unique cette data crée-t-elle ?
- Pourquoi c'est difficile à reproduire ?
- Quelles barrières à l'entrée ?
⑤ Décision stratégique data-driven
Structure : insight identifié → décision → impact attendu → données pour mesurer. Proposer une action concrète pour renforcer l'avantage compétitif.
Management Big Data, IA & SI · Caroline Lioger · CLC Conseil
"Mon système apprend plus vite que mes concurrents."
Big Data, IA & SI
Banque de 36 questions couvrant les 86 pages du cours. Chaque session tire 12 questions au hasard dans un ordre aléatoire avec des réponses mélangées.
Score : 0 / 12