🤖 Management Big Data, IA & SI

Guide de révision complet

Basé sur l'intégralité des 86 pages du cours de Caroline Lioger. Tout comprendre, de la donnée brute à l'avantage compétitif basé sur la data.

👩‍🏫 Caroline Lioger · CLC Conseil

📄 86 pages · MS1 Entrepreneuriat

🎯 19 sections · 36 questions QCM

🛢️

"Data is the new oil" → "Data is the new soil"

Le changement de métaphore qui change tout

"Data is the new oil. It's valuable, but if unrefined it cannot really be used."— Clive Humby, 2006 · Mathématicien, programme Tesco Clubcard

Pourquoi cette phrase est devenue célèbre

Ressource stratégique

La donnée est le carburant de l'économie numérique, comme le pétrole l'a été pour l'industrie.

Transformation nécessaire

Comme le pétrole brut, la donnée brute ne vaut rien sans traitement. Elle nécessite technologie et compétences.

Avantage compétitif

Les entreprises qui maîtrisent la donnée (Google, Facebook, Amazon) ont dominé leur secteur.

Mais la métaphore est imparfaite — 3 limites

La donnée n'est pas rare par nature — elle peut être produite en quantité illimitée
Sa valeur dépend du contexte — les mêmes données peuvent ne rien valoir ailleurs
Elle peut être copiée — pas une ressource physique exclusive

"Data is not the new oil. It's the new soil."— Évolution de la métaphore dans le cours Lioger

Pétrole vs Sol — la distinction stratégique

🛢️ Pétrole → Logique extractive

On cherche à extraire et vendre
La valeur est dans le stock brut
On l'épuise en l'utilisant
Court-termiste

🌱 Sol → Logique de culture

On cherche à cultiver un écosystème
La valeur est dans les boucles d'apprentissage créées
Se valorise en l'utilisant
Long-termiste

Un entrepreneur naïf dit : "J'ai beaucoup de data."
Un entrepreneur stratégique dit : "Mon système apprend plus vite que mes concurrents."
La vraie question : quelle est la fertilité de votre système ?

🔗

Chaîne de valeur de la donnée

De la donnée brute à la décision actionnable

La donnée brute seule ne vaut rien. Ce qui crée de la valeur, c'est sa transformation progressive en décision :

📊 DATABrute, non interprétée

→

ℹ️ INFOContextualisée

→

💡 INSIGHTExploitable

→

⚡ DÉCISIONAction stratégique

Niveau	Définition	Exemple
Data	Chiffres, logs, clics, transactions — brutes non interprétées	350 000 clics sur le bouton "Payer"
Information	Données contextualisées et structurées avec sens	Taux de conversion = 2,1%
Insight	Compréhension exploitable révélant un problème ou une opportunité	Les utilisateurs mobiles abandonnent 3× plus au paiement
Décision	Action stratégique basée sur l'insight	Simplifier le tunnel mobile + ajouter Apple Pay → +18% conversions

L'objectif de tout système data : transformer la donnée en décision rapide et pertinente. Plus ce cycle est court et efficace, plus l'entreprise crée de la valeur.

📦

Data as a Product (DaaP)

Traiter la donnée comme un actif à gérer, pas un sous-produit

Définition : Traiter la donnée comme un produit — avec des utilisateurs, un responsable, une roadmap et des critères de qualité mesurables.

Les 4 caractéristiques d'une donnée-produit

👥 Utilisateurs identifiés

Qui consomme cette donnée ? Équipes internes (marketing, finance) ? Clients via API ?

🧑‍💼 Owner désigné

Propriétaire responsable de la qualité et de l'évolution de la donnée, comme un Product Manager.

🗺️ Roadmap & SLA

Plan d'amélioration dans le temps et engagements de niveau de service (fraîcheur, disponibilité, précision).

📏 Qualité mesurable

Métriques suivies : exactitude, complétude, cohérence, actualité.

Netflix ne "stocke" pas les données de visionnage. Elle les traite comme un produit : amélioration continue des recommandations, personnalisation de l'interface, décision de produire certaines séries (House of Cards est né des données).

🏰

Moat & Effet d'apprentissage

Comment la data crée un avantage concurrentiel difficile à copier

Moat data = avantage compétitif structurel créé par l'accumulation de données et d'algorithmes entraînés. Plus l'écart se creuse, moins les concurrents peuvent rattraper.

Le cercle vertueux de l'effet d'apprentissage

Plus de données

→

Meilleure IA

→

Produit plus performant

→

Plus d'utilisateurs

→

Plus de données ↻

Barrières à l'entrée créées par la data

✅ Entreprise établie

Historique de données impossible à recréer rapidement
Algorithmes entraînés sur des millions d'exemples
Infrastructure data éprouvée
Talents spécialisés retenus

❌ Nouvel entrant

Pas d'historique → algorithmes moins performants
Cold start problem : le produit est mauvais au début
Nécessite infrastructure, talent, exécution
Le fossé s'élargit chaque jour

Entreprise	Données collectées	Moat créé
Tesla	Conduite de chaque véhicule (capteurs, GPS, comportements)	IA Autopilot unique basée sur milliards de km de données cumulées
Netflix	Historique de visionnage complet	Algorithme de recommandation + décisions de production de contenus
Airbnb	Réservations, avis, navigation, historique prix	Confiance + prédiction dynamique des prix et fiabilité hôtes

🌱

La fertilité du système

Mesurer la capacité à générer de la valeur à partir de la data

Fertilité = capacité d'un système à générer de la valeur à partir de la donnée. Plus la fertilité est élevée, plus l'avantage compétitif est cumulatif et difficile à reproduire.

Les 4 indicateurs de fertilité

Boucle d'apprentissage rapide : cycle Data→Insight→Décision→Action court et efficace
Volume et diversité de la data exploitable : structurée, non-structurée, Big Data
Utilisation des insights : nombre d'actions concrètes basées sur la donnée
Impact sur le business : gains de performance, réduction de coûts, fidélisation, innovation

Échelle de fertilité — 4 niveaux

Faible

Données peu exploitées

Reporting descriptif. Décisions lentes. Boucle > 1 mois. Ex : institution publique

Modérée

Données pour optimiser

Tableaux de bord. Quelques automatisations. Boucle hebdomadaire.

Élevée

Data au cœur

IA pour recommandations. Décisions quotidiennes data-driven. Ex : Qonto, Zalando

Très forte

Data-native

Décisions automatisées temps réel. ML continu. Boucle < 24h. Ex : Tesla, Netflix

Une fertilité élevée n'est pas réservée aux géants tech. Elle peut exister dans l'e-commerce, la fintech, la mobilité, la santé. Ce qui compte : culture data forte + infrastructure adaptée + boucle fermée.

🔄

La boucle d'apprentissage

Le cycle qui transforme la data en avantage compétitif

Cycle continu : Collecte → Insight → Décision → Action → Nouvelles données. Une boucle rapide = l'entreprise apprend plus vite que ses concurrents.

①

Collecte

Données clients, logs, transactions, capteurs…

②

Analyse / Insight

IA, KPI calculés, détection d'anomalies

③

Décision

Priorisation, hypothèse à tester

④

Action

A/B test, modification produit, automatisation

⑤

Nouvelles données

Résultats → retour à ①

♻️

Cycle continu

Sans ④ et ⑤ : pas de vraie boucle.

Vitesse de boucle — tableau comparatif complet

Vitesse	Délai	Entreprise exemple	Fréquence
Très rapide	< 1 jour	Tesla : amélioration Autopilot quasi temps réel	1000+ cycles/jour
Rapide	1 jour–1 sem.	Netflix / Zalando / Qonto	Quotidien
Moyenne	1 sem.–1 mois	Airbnb : prix et scoring hôtes	Hebdomadaire
Lente	> 1 mois	Banque traditionnelle : reporting trimestriel	Mensuel

3 exemples sectoriels de boucles

🛍️ Zalando

Navigation + achats → tendances → recommandations personnalisées → ajustement page produit → nouvelles données.

🛴 Lime

GPS + capteurs → zones forte demande → repositionnement trottinettes + pricing dynamique → nouvelles utilisations.

❤️ Withings

Activité + cœur + sommeil → tendances et anomalies → alertes personnalisées → nouvelles données utilisateur.

🔬

La boucle d'itération

Anatomie complète et plan d'action data-driven

La boucle d'itération = organisation volontaire et structurée des cycles. Elle inclut la mesure d'impact et la réintégration des résultats comme nouvelles données.

Anatomie — 6 phases

Phase	Contenu	Exemples
1/ Collecte	Rassembler les données pertinentes	Données clients (usage, clics, churn), logs opérationnels
2/ Analyse	Transformer en compréhension	KPI calculés, modèle prédictif, détection d'anomalie
3/ Décision	Choisir une hypothèse à tester	Priorisation, sélection d'un segment
4/ Action	Mettre en œuvre concrètement	A/B test, modification produit, automatisation
5/ Mesure d'impact	Évaluer les effets	Variation KPI, ROI, engagement
6/ Réintégration	Les résultats = nouvelles données	Mise à jour des datasets, réentraînement IA

Sans les phases 5 et 6, il n'y a PAS de vraie boucle d'apprentissage — seulement des actions sans capitalisation.

Plan d'itération — 5 étapes

① Définir l'objectif

KPI cible précis (ex : +5% conversion). Hypothèse claire et falsifiable.

② Définir les métriques

KPI principal + secondaires. Seuil de succès.

③ Expérimentation

A/B test ? Quel segment ? Quelle durée ? Quelle taille d'échantillon ?

④ Exécution

Implémentation + monitoring en temps réel.

⑤ Stop / Continue / Scale

Stop : reformuler l'hypothèse · Continue : itérer · Scale : déployer à tous.

⚠️ Risques fréquents

Trop d'indicateurs → bruit
Pas d'hypothèse claire
Ne pas fermer la boucle
Décision politique > décision data

🗃️

Data classique vs Big Data (5V)

Comprendre la différence d'échelle et de complexité

📊 Data "classique"

Structure : SQL, tables relationnelles
Volume : modéré (Mo, Go)
Outils : Excel, ERP, CRM, SQL
Usage : reporting, KPIs, analytique descriptive
La majorité des PME travaillent avec ce type

🌊 Big Data

Structure : hétérogène (structuré + non-structuré)
Volume : massif (To, Po) · milliards d'événements
Outils : Hadoop, Spark, NoSQL, Cloud
Usage : IA, ML, recommandations, prédiction temps réel
Ex : Netflix, Tesla, Google

Les 5V du Big Data

Volume

Quantité massive (To, Po, Eo)

Velocity

Vitesse de génération (temps réel)

Variety

Diversité : texte, image, vidéo, IoT…

Veracity

Qualité incertaine à valider

Value

Extraction de valeur complexe

Pourquoi SQL ne suffit plus pour le Big Data : il est optimisé pour données structurées et ne gère pas les flux massifs temps réel. Face à des milliards d'événements/jour, il faut des architectures distribuées (Hadoop, Spark, Cloud).

🖥️

Système d'Information (SI)

Le système nerveux de l'organisation moderne

Un SI = ensemble organisé de ressources (humaines, techniques, données, procédures) permettant de : Collecter → Stocker → Traiter → Diffuser → Soutenir la décision.

5 composantes d'un SI

👥 Humains

Utilisateurs, décideurs, analystes, admins

💻 Matériel

Serveurs, ordinateurs, smartphones, réseaux

⚙️ Logiciels

ERP, CRM, BDD, applications métier

📊 Données

Brutes et structurées — le carburant du SI

📋 Procédures

Règles pour collecter et exploiter

Les principaux outils d'un SI

Outil	Signifie	Fonction	Exemples
ERP	Enterprise Resource Planning	Planification intégrée : ventes, production, stock, finance, RH	SAP, Sage, Microsoft Dynamics
CRM	Customer Relationship Management	Gestion relation client : historique, opportunités, SAV	Salesforce, HubSpot, Pipedrive
SIRH	SI Ressources Humaines	Paie, congés, recrutement, formation, évaluations	Workday, PayFit, Lucca
BI / Power BI	Business Intelligence	Tableaux de bord, analyses, visualisation pour décision	Power BI, Tableau, Looker

🗄️

SQL vs NoSQL

Choisir la bonne base de données

🔷 SQL — Bases relationnelles

Tables liées par des relations
Schéma fixe défini à l'avance
Transactions ACID (Atomicité, Cohérence, Isolation, Durabilité)
Scalabilité verticale
Idéal : ERP, CRM, comptabilité, transactions fiables
Ex : MySQL, PostgreSQL, Microsoft SQL Server

🟢 NoSQL — Non relationnelles

Documents, graphes, colonnes, key-value
Schéma flexible, données hétérogènes
Scalabilité horizontale (plusieurs serveurs)
Optimisé flux massifs temps réel
Idéal : Big Data, IA, temps réel
Ex : MongoDB, Cassandra, Redis, Neo4j

Règle de décision : SQL pour sa fiabilité et sa simplicité au démarrage. NoSQL quand les volumes deviennent massifs, les données hétérogènes, ou que l'IA nécessite une scalabilité horizontale.

🏗️

Data Warehouse vs Data Lake

Architectures de stockage et comment choisir

🏛️ Data Warehouse

Données structurées et propres
Processus ETL (Extract, Transform, Load) avant stockage
Optimisé pour analyse historique, reporting, BI
Schema-on-write (schéma défini avant)
Ex : Amazon Redshift, Google BigQuery, Snowflake
Usage startup : décisions stratégiques (ventes, churn)

🏞️ Data Lake

Toutes les données brutes, sans schéma fixe
Schema-on-read (schéma défini à la lecture)
Optimisé pour Big Data, IA, exploration
Traitement distribué (Spark, Hadoop)
Ex : Amazon S3 + Glue, Azure Data Lake, Databricks
Usage startup : modèles prédictifs, alimenter IA

Recommandation par phase de développement

🌱 Démarrage

SQL + Data Warehouse — simple, rapide, moins cher. Permet KPI et reporting standard.

📈 Croissance / IA

NoSQL + Data Lake — pour flux massifs, données non structurées, IA, prédiction.

🏢 Maturité

Architecture hybride — DW pour reporting + DL pour IA et expérimentation.

Règle d'or : La technologie doit servir le business, pas l'inverse. Commencer trop tôt avec du Big Data coûteux = gaspillage.

⚖️

Product-centric vs Data-centric

Deux approches stratégiques fondamentalement différentes

📦 Product-centric

Le produit est central, la data l'améliore
La valeur est dans le produit lui-même
Moat = qualité produit, marque, distribution

🌊 Data-centric

Le produit est conçu pour générer la data
La data CRÉE le moat (avantage compétitif)
Moat = données propriétaires + IA entraînée

Positionnement des 3 cas du cours

Entreprise	Positionnement	Justification	Décision stratégique possible
Tesla	Fortement data-centric	Chaque véhicule vendu génère des données → Autopilot s'améliore automatiquement	Renforcer collecte mondiale pour accélérer le Full Self-Driving
Netflix	Data-centric, mais moat fragile	Historique de visionnage → recommandations + décisions de production	IA générative pour personnaliser davantage + réduire coûts de production
Airbnb	Hybride	Plateforme ET data se renforcent mutuellement	IA de pricing dynamique + scoring prédictif de fiabilité des hôtes

💰

Modèle Big Tech & CPM

Comment Google et Facebook ont bâti des empires sur la donnée

La boucle économique des Big Tech

Utilisateurs génèrent des données

→

Algorithmes apprennent

→

Ciblage plus précis

→

Annonceurs paient plus cher

→

Plus d'infra data ↻

Le CPM — définition et formule

CPM = Cost Per Mille = prix payé par un annonceur pour 1 000 affichages d'une publicité (mille = 1 000 en latin).

Formule du CPMCPM = (Coût total / Impressions) × 1 000

Exemple : Campagne coûte 5 000€, affichée 1 000 000 fois. CPM = (5 000 / 1 000 000) × 1 000 = 5€

Pourquoi la data fait monter le CPM ?

Sans ciblage → CPM bas (~2-5€)

Publicité aléatoire, taux de conversion faible (~0,1-0,5%), l'annonceur paie peu.

Avec data précise → CPM premium (~15-50€+)

Audience qualifiée, intentionniste, taux de conversion élevé (~2-5%), l'annonceur paie beaucoup plus.

Les 3 modèles de facturation publicitaire

Modèle	Signification	Paiement déclenché par	Usage
CPM	Cost Per Mille	1 000 affichages	Notoriété, visibilité de marque
CPC	Cost Per Click	1 clic sur la publicité	Trafic vers un site web
CPA	Cost Per Acquisition	1 conversion (achat, inscription)	Performance, ROI direct

📈

Optimiser son CPM

2 leviers concrets pour tout entrepreneur

Optimiser son CPM ≠ "mettre plus de pubs". C'est augmenter la valeur perçue de chaque impression en améliorant la qualité de l'audience et en exploitant la donnée propriétaire.

Levier 1 — Améliorer la qualité de l'audience

Un CPM élevé vient d'une audience qualifiée, solvable et intentionniste. Un annonceur paie plus si le pouvoir d'achat est élevé, l'intention d'achat est forte, le ciblage est précis.

Un site B2B SaaS peut avoir un CPM 5 à 10× supérieur à un site généraliste — son audience est composée de décideurs professionnels avec budget dédié.

Actions : segmenter finement · construire des personas précis · collecter des données first-party

Levier 2 — Exploiter la data first-party

Avec la fin des cookies tiers (décisions Google/Apple), la donnée propriétaire (first-party) devient stratégique. Les entreprises qui ont construit leur base de données clients seront les mieux positionnées.

Collecter la donnée

Créer des comptes utilisateurs
Proposer des newsletters (opt-in)
Collecter des préférences déclarées
Tracker l'engagement (RGPD)

Exploiter la donnée

Segmentation comportementale
Personnalisation du contenu et des offres
Look-alike audiences
Retargeting basé sur l'historique

🛡️

Gouvernance & qualité des données

Les règles du jeu pour une data fiable et utilisable

Mauvaise donnée → mauvaise décision → risque financier. La gouvernance data n'est pas optionnelle.

🔐 Gouvernance

Qui possède quoi ? — ownership clair de chaque dataset
Qui peut modifier ? — gestion des droits d'accès
RGPD : consentement, droit à l'oubli, DPO
Traçabilité : audit trail, historique des modifications

📏 Qualité des données — 4 critères

Exactitude : les valeurs reflètent la réalité
Complétude : pas de champs vides importants
Cohérence : pas de contradictions entre systèmes
Actualité : données à jour selon la fréquence requise

RGPD — l'essentiel pour un entrepreneur

Principe	Ce que ça implique concrètement
Consentement	Accord explicite avant de collecter des données personnelles
Minimisation	Ne collecter que les données strictement nécessaires
Droit à l'oubli	Pouvoir supprimer toutes les données d'un utilisateur sur demande
Portabilité	Permettre à l'utilisateur d'exporter ses données
DPO	Délégué à la Protection des Données (obligatoire dans certains cas)

🔍

Cas : Tesla, Netflix, Airbnb

Corrigé complet du cas n°1 du cours

⚡ Tesla — Fortement data-centric

Données : Flux continus capteurs véhicules → Big Data temps réel

Boucle : Très rapide (< 1 jour). Chaque véhicule améliore l'Autopilot de toutes les Tesla

Moat : Milliards de km de conduite → IA Autopilot inégalable

Décision : Renforcer collecte mondiale pour accélérer Full Self-Driving

🎬 Netflix — Data-centric, moat fragile

Données : Historique de visionnage complet → Big Data comportemental

Boucle : Rapide (quotidienne). Recommandations ajustées chaque jour

Moat : Algorithme de recommandation + décisions de production (fragile car concurrents accumulent aussi)

Décision : IA générative pour personnaliser davantage + réduire coûts de production

🏠 Airbnb — Hybride

Données : Réservations, avis, navigation, historique prix

Boucle : Moyenne (1-2 semaines). Ajustement hebdomadaire du pricing

Moat : Confiance bidirectionnelle + prédiction fiabilité hôtes/voyageurs

Décision : IA de pricing dynamique + scoring prédictif avancé fiabilité hôtes

🦄

Licornes françaises & ESN

Exemples de PME digitales et entreprises de services numériques

Licornes françaises — fertilité et usage data

Entreprise	Secteur	Fertilité	Usage data
Qonto	Fintech	Élevée	Automatisation comptable, alertes trésorerie
PayFit	RH / Paie	Élevée	Détection anomalies + recommandations processus
Withings	Santé connectée	Élevée	Insights personnalisés activité et sommeil
Back Market	E-commerce reconditionné	Moyenne-élevée	Recommandations produits + gestion stock
ManoMano	E-commerce bricolage	Moyenne	Suggestions personnalisées + promotions ciblées
BlaBlaCar	Mobilité	Moyenne	Optimisation matching conducteurs-passagers

ESN — Entreprises de Services Numériques

Entreprise	Fertilité interne	Valeur
Capgemini Invent	Moyenne	Expertise + recommandations clients basées sur données projets
Devoteam	Moyenne-élevée	Optimisation déploiement cloud + suivi performance client
SQLI / Octo Technology	Moyenne	Amélioration UX et performances web, prototypage IA

📊

PME vs ESN vs Grands groupes

Comment la taille influence la fertilité data

Critère	PME / Start-up	ESN	Grands groupes
Fertilité	Agile, variable. Très élevée si culture data forte dès le départ	Moyenne en interne. Forte fertilité chez leurs clients	Potentiellement très élevée, mais risque de lenteur organisationnelle
Type de données	Clients (CRM), produit (usage, analytics). Parfois Big Data si digital native	Données projets, logs techniques, multi-clients	Massives historiques, structurées (ERP) + non-structurées (emails, IoT)
Boucle	Rapide (jours/semaines). Décisions proches du terrain	Dépend des cycles clients. Capitalisation RETEX	Peut être très rapide si automatisée, mais souvent plus lente (validation, gouvernance)
Moat	Innovation rapide + spécialisation forte	Expertise sectorielle + capital humain + réputation	Effet d'échelle + données propriétaires massives + infrastructure

Message clé : Une PME peut avoir une fertilité data supérieure à un grand groupe si elle a une culture data forte. La taille n'est pas déterminante — c'est la vitesse de la boucle qui compte.

🧑‍💼

Méthode d'analyse d'un cas data

Le template 5 dimensions à mémoriser

Méthode du cours pour analyser la stratégie data de toute entreprise : 5 questions structurantes.

① Type de données

Structurées (SQL, ERP, CRM) ?
Non structurées (texte, image, vidéo) ?
Big Data (volume massif, temps réel) ?
First-party ou third-party ?

② Boucle d'apprentissage

Où collecte-t-on la donnée ?
Comment la traite-t-on (IA, algo) ?
Quel insight ? Quelle décision ? Quelle action ?
Vitesse : Très rapide / Rapide / Moyenne / Lente ?

③ Product vs Data-centric

La data améliore le produit (product-centric) ?
Ou le produit existe pour générer la data (data-centric) ?
Justification concrète ?

④ Moat basé sur la data

Quel avantage unique cette data crée-t-elle ?
Pourquoi c'est difficile à reproduire ?
Quelles barrières à l'entrée ?

⑤ Décision stratégique data-driven

Structure : insight identifié → décision → impact attendu → données pour mesurer. Proposer une action concrète pour renforcer l'avantage compétitif.

Management Big Data, IA & SI · Caroline Lioger · CLC Conseil

"Mon système apprend plus vite que mes concurrents."

❓ QCM interactif

Big Data, IA & SI

Banque de 36 questions couvrant les 86 pages du cours. Chaque session tire 12 questions au hasard dans un ordre aléatoire avec des réponses mélangées.

Score : 0 / 12