Big Data, IA & SI

🤖 Management Big Data, IA & SI

Guide de révision complet

Basé sur l'intégralité des 86 pages du cours de Caroline Lioger. Tout comprendre, de la donnée brute à l'avantage compétitif basé sur la data.

👩‍🏫 Caroline Lioger · CLC Conseil
📄 86 pages · MS1 Entrepreneuriat
🎯 19 sections · 36 questions QCM
🛢️

"Data is the new oil" → "Data is the new soil"

Le changement de métaphore qui change tout

"Data is the new oil. It's valuable, but if unrefined it cannot really be used."— Clive Humby, 2006 · Mathématicien, programme Tesco Clubcard

Pourquoi cette phrase est devenue célèbre

Ressource stratégique

La donnée est le carburant de l'économie numérique, comme le pétrole l'a été pour l'industrie.

Transformation nécessaire

Comme le pétrole brut, la donnée brute ne vaut rien sans traitement. Elle nécessite technologie et compétences.

Avantage compétitif

Les entreprises qui maîtrisent la donnée (Google, Facebook, Amazon) ont dominé leur secteur.

Mais la métaphore est imparfaite — 3 limites

  • La donnée n'est pas rare par nature — elle peut être produite en quantité illimitée
  • Sa valeur dépend du contexte — les mêmes données peuvent ne rien valoir ailleurs
  • Elle peut être copiée — pas une ressource physique exclusive
"Data is not the new oil. It's the new soil."— Évolution de la métaphore dans le cours Lioger

Pétrole vs Sol — la distinction stratégique

🛢️ Pétrole → Logique extractive

  • On cherche à extraire et vendre
  • La valeur est dans le stock brut
  • On l'épuise en l'utilisant
  • Court-termiste

🌱 Sol → Logique de culture

  • On cherche à cultiver un écosystème
  • La valeur est dans les boucles d'apprentissage créées
  • Se valorise en l'utilisant
  • Long-termiste
Un entrepreneur naïf dit : "J'ai beaucoup de data."
Un entrepreneur stratégique dit : "Mon système apprend plus vite que mes concurrents."
La vraie question : quelle est la fertilité de votre système ?
🔗

Chaîne de valeur de la donnée

De la donnée brute à la décision actionnable

La donnée brute seule ne vaut rien. Ce qui crée de la valeur, c'est sa transformation progressive en décision :

📊 DATABrute, non interprétée
ℹ️ INFOContextualisée
💡 INSIGHTExploitable
⚡ DÉCISIONAction stratégique
NiveauDéfinitionExemple
DataChiffres, logs, clics, transactions — brutes non interprétées350 000 clics sur le bouton "Payer"
InformationDonnées contextualisées et structurées avec sensTaux de conversion = 2,1%
InsightCompréhension exploitable révélant un problème ou une opportunitéLes utilisateurs mobiles abandonnent 3× plus au paiement
DécisionAction stratégique basée sur l'insightSimplifier le tunnel mobile + ajouter Apple Pay → +18% conversions
L'objectif de tout système data : transformer la donnée en décision rapide et pertinente. Plus ce cycle est court et efficace, plus l'entreprise crée de la valeur.
📦

Data as a Product (DaaP)

Traiter la donnée comme un actif à gérer, pas un sous-produit

Définition : Traiter la donnée comme un produit — avec des utilisateurs, un responsable, une roadmap et des critères de qualité mesurables.

Les 4 caractéristiques d'une donnée-produit

👥 Utilisateurs identifiés

Qui consomme cette donnée ? Équipes internes (marketing, finance) ? Clients via API ?

🧑‍💼 Owner désigné

Propriétaire responsable de la qualité et de l'évolution de la donnée, comme un Product Manager.

🗺️ Roadmap & SLA

Plan d'amélioration dans le temps et engagements de niveau de service (fraîcheur, disponibilité, précision).

📏 Qualité mesurable

Métriques suivies : exactitude, complétude, cohérence, actualité.

Netflix ne "stocke" pas les données de visionnage. Elle les traite comme un produit : amélioration continue des recommandations, personnalisation de l'interface, décision de produire certaines séries (House of Cards est né des données).
🏰

Moat & Effet d'apprentissage

Comment la data crée un avantage concurrentiel difficile à copier

Moat data = avantage compétitif structurel créé par l'accumulation de données et d'algorithmes entraînés. Plus l'écart se creuse, moins les concurrents peuvent rattraper.

Le cercle vertueux de l'effet d'apprentissage

Plus de données
Meilleure IA
Produit plus performant
Plus d'utilisateurs
Plus de données ↻

Barrières à l'entrée créées par la data

✅ Entreprise établie

  • Historique de données impossible à recréer rapidement
  • Algorithmes entraînés sur des millions d'exemples
  • Infrastructure data éprouvée
  • Talents spécialisés retenus

❌ Nouvel entrant

  • Pas d'historique → algorithmes moins performants
  • Cold start problem : le produit est mauvais au début
  • Nécessite infrastructure, talent, exécution
  • Le fossé s'élargit chaque jour
EntrepriseDonnées collectéesMoat créé
TeslaConduite de chaque véhicule (capteurs, GPS, comportements)IA Autopilot unique basée sur milliards de km de données cumulées
NetflixHistorique de visionnage completAlgorithme de recommandation + décisions de production de contenus
AirbnbRéservations, avis, navigation, historique prixConfiance + prédiction dynamique des prix et fiabilité hôtes
🌱

La fertilité du système

Mesurer la capacité à générer de la valeur à partir de la data

Fertilité = capacité d'un système à générer de la valeur à partir de la donnée. Plus la fertilité est élevée, plus l'avantage compétitif est cumulatif et difficile à reproduire.

Les 4 indicateurs de fertilité

  • Boucle d'apprentissage rapide : cycle Data→Insight→Décision→Action court et efficace
  • Volume et diversité de la data exploitable : structurée, non-structurée, Big Data
  • Utilisation des insights : nombre d'actions concrètes basées sur la donnée
  • Impact sur le business : gains de performance, réduction de coûts, fidélisation, innovation

Échelle de fertilité — 4 niveaux

Faible

Données peu exploitées

Reporting descriptif. Décisions lentes. Boucle > 1 mois. Ex : institution publique

Modérée

Données pour optimiser

Tableaux de bord. Quelques automatisations. Boucle hebdomadaire.

Élevée

Data au cœur

IA pour recommandations. Décisions quotidiennes data-driven. Ex : Qonto, Zalando

Très forte

Data-native

Décisions automatisées temps réel. ML continu. Boucle < 24h. Ex : Tesla, Netflix

Une fertilité élevée n'est pas réservée aux géants tech. Elle peut exister dans l'e-commerce, la fintech, la mobilité, la santé. Ce qui compte : culture data forte + infrastructure adaptée + boucle fermée.
🔄

La boucle d'apprentissage

Le cycle qui transforme la data en avantage compétitif

Cycle continu : Collecte → Insight → Décision → Action → Nouvelles données. Une boucle rapide = l'entreprise apprend plus vite que ses concurrents.

Collecte

Données clients, logs, transactions, capteurs…

Analyse / Insight

IA, KPI calculés, détection d'anomalies

Décision

Priorisation, hypothèse à tester

Action

A/B test, modification produit, automatisation

Nouvelles données

Résultats → retour à ①

♻️

Cycle continu

Sans ④ et ⑤ : pas de vraie boucle.

Vitesse de boucle — tableau comparatif complet

VitesseDélaiEntreprise exempleFréquence
Très rapide< 1 jourTesla : amélioration Autopilot quasi temps réel1000+ cycles/jour
Rapide1 jour–1 sem.Netflix / Zalando / QontoQuotidien
Moyenne1 sem.–1 moisAirbnb : prix et scoring hôtesHebdomadaire
Lente> 1 moisBanque traditionnelle : reporting trimestrielMensuel

3 exemples sectoriels de boucles

🛍️ Zalando

Navigation + achats → tendances → recommandations personnalisées → ajustement page produit → nouvelles données.

🛴 Lime

GPS + capteurs → zones forte demande → repositionnement trottinettes + pricing dynamique → nouvelles utilisations.

❤️ Withings

Activité + cœur + sommeil → tendances et anomalies → alertes personnalisées → nouvelles données utilisateur.

🔬

La boucle d'itération

Anatomie complète et plan d'action data-driven

La boucle d'itération = organisation volontaire et structurée des cycles. Elle inclut la mesure d'impact et la réintégration des résultats comme nouvelles données.

Anatomie — 6 phases

PhaseContenuExemples
1/ CollecteRassembler les données pertinentesDonnées clients (usage, clics, churn), logs opérationnels
2/ AnalyseTransformer en compréhensionKPI calculés, modèle prédictif, détection d'anomalie
3/ DécisionChoisir une hypothèse à testerPriorisation, sélection d'un segment
4/ ActionMettre en œuvre concrètementA/B test, modification produit, automatisation
5/ Mesure d'impactÉvaluer les effetsVariation KPI, ROI, engagement
6/ RéintégrationLes résultats = nouvelles donnéesMise à jour des datasets, réentraînement IA
Sans les phases 5 et 6, il n'y a PAS de vraie boucle d'apprentissage — seulement des actions sans capitalisation.

Plan d'itération — 5 étapes

① Définir l'objectif

KPI cible précis (ex : +5% conversion). Hypothèse claire et falsifiable.

② Définir les métriques

KPI principal + secondaires. Seuil de succès.

③ Expérimentation

A/B test ? Quel segment ? Quelle durée ? Quelle taille d'échantillon ?

④ Exécution

Implémentation + monitoring en temps réel.

⑤ Stop / Continue / Scale

Stop : reformuler l'hypothèse · Continue : itérer · Scale : déployer à tous.

⚠️ Risques fréquents

  • Trop d'indicateurs → bruit
  • Pas d'hypothèse claire
  • Ne pas fermer la boucle
  • Décision politique > décision data
🗃️

Data classique vs Big Data (5V)

Comprendre la différence d'échelle et de complexité

📊 Data "classique"

  • Structure : SQL, tables relationnelles
  • Volume : modéré (Mo, Go)
  • Outils : Excel, ERP, CRM, SQL
  • Usage : reporting, KPIs, analytique descriptive
  • La majorité des PME travaillent avec ce type

🌊 Big Data

  • Structure : hétérogène (structuré + non-structuré)
  • Volume : massif (To, Po) · milliards d'événements
  • Outils : Hadoop, Spark, NoSQL, Cloud
  • Usage : IA, ML, recommandations, prédiction temps réel
  • Ex : Netflix, Tesla, Google

Les 5V du Big Data

Volume

Quantité massive (To, Po, Eo)

Velocity

Vitesse de génération (temps réel)

Variety

Diversité : texte, image, vidéo, IoT…

Veracity

Qualité incertaine à valider

Value

Extraction de valeur complexe

Pourquoi SQL ne suffit plus pour le Big Data : il est optimisé pour données structurées et ne gère pas les flux massifs temps réel. Face à des milliards d'événements/jour, il faut des architectures distribuées (Hadoop, Spark, Cloud).
🖥️

Système d'Information (SI)

Le système nerveux de l'organisation moderne

Un SI = ensemble organisé de ressources (humaines, techniques, données, procédures) permettant de : Collecter → Stocker → Traiter → Diffuser → Soutenir la décision.

5 composantes d'un SI

👥 Humains

Utilisateurs, décideurs, analystes, admins

💻 Matériel

Serveurs, ordinateurs, smartphones, réseaux

⚙️ Logiciels

ERP, CRM, BDD, applications métier

📊 Données

Brutes et structurées — le carburant du SI

📋 Procédures

Règles pour collecter et exploiter

Les principaux outils d'un SI

OutilSignifieFonctionExemples
ERPEnterprise Resource PlanningPlanification intégrée : ventes, production, stock, finance, RHSAP, Sage, Microsoft Dynamics
CRMCustomer Relationship ManagementGestion relation client : historique, opportunités, SAVSalesforce, HubSpot, Pipedrive
SIRHSI Ressources HumainesPaie, congés, recrutement, formation, évaluationsWorkday, PayFit, Lucca
BI / Power BIBusiness IntelligenceTableaux de bord, analyses, visualisation pour décisionPower BI, Tableau, Looker
🗄️

SQL vs NoSQL

Choisir la bonne base de données

🔷 SQL — Bases relationnelles

  • Tables liées par des relations
  • Schéma fixe défini à l'avance
  • Transactions ACID (Atomicité, Cohérence, Isolation, Durabilité)
  • Scalabilité verticale
  • Idéal : ERP, CRM, comptabilité, transactions fiables
  • Ex : MySQL, PostgreSQL, Microsoft SQL Server

🟢 NoSQL — Non relationnelles

  • Documents, graphes, colonnes, key-value
  • Schéma flexible, données hétérogènes
  • Scalabilité horizontale (plusieurs serveurs)
  • Optimisé flux massifs temps réel
  • Idéal : Big Data, IA, temps réel
  • Ex : MongoDB, Cassandra, Redis, Neo4j
Règle de décision : SQL pour sa fiabilité et sa simplicité au démarrage. NoSQL quand les volumes deviennent massifs, les données hétérogènes, ou que l'IA nécessite une scalabilité horizontale.
🏗️

Data Warehouse vs Data Lake

Architectures de stockage et comment choisir

🏛️ Data Warehouse

  • Données structurées et propres
  • Processus ETL (Extract, Transform, Load) avant stockage
  • Optimisé pour analyse historique, reporting, BI
  • Schema-on-write (schéma défini avant)
  • Ex : Amazon Redshift, Google BigQuery, Snowflake
  • Usage startup : décisions stratégiques (ventes, churn)

🏞️ Data Lake

  • Toutes les données brutes, sans schéma fixe
  • Schema-on-read (schéma défini à la lecture)
  • Optimisé pour Big Data, IA, exploration
  • Traitement distribué (Spark, Hadoop)
  • Ex : Amazon S3 + Glue, Azure Data Lake, Databricks
  • Usage startup : modèles prédictifs, alimenter IA

Recommandation par phase de développement

🌱 Démarrage

SQL + Data Warehouse — simple, rapide, moins cher. Permet KPI et reporting standard.

📈 Croissance / IA

NoSQL + Data Lake — pour flux massifs, données non structurées, IA, prédiction.

🏢 Maturité

Architecture hybride — DW pour reporting + DL pour IA et expérimentation.

Règle d'or : La technologie doit servir le business, pas l'inverse. Commencer trop tôt avec du Big Data coûteux = gaspillage.
⚖️

Product-centric vs Data-centric

Deux approches stratégiques fondamentalement différentes

📦 Product-centric

  • Le produit est central, la data l'améliore
  • La valeur est dans le produit lui-même
  • Moat = qualité produit, marque, distribution

🌊 Data-centric

  • Le produit est conçu pour générer la data
  • La data CRÉE le moat (avantage compétitif)
  • Moat = données propriétaires + IA entraînée

Positionnement des 3 cas du cours

EntreprisePositionnementJustificationDécision stratégique possible
TeslaFortement data-centricChaque véhicule vendu génère des données → Autopilot s'améliore automatiquementRenforcer collecte mondiale pour accélérer le Full Self-Driving
NetflixData-centric, mais moat fragileHistorique de visionnage → recommandations + décisions de productionIA générative pour personnaliser davantage + réduire coûts de production
AirbnbHybridePlateforme ET data se renforcent mutuellementIA de pricing dynamique + scoring prédictif de fiabilité des hôtes
💰

Modèle Big Tech & CPM

Comment Google et Facebook ont bâti des empires sur la donnée

La boucle économique des Big Tech

Utilisateurs génèrent des données
Algorithmes apprennent
Ciblage plus précis
Annonceurs paient plus cher
Plus d'infra data ↻

Le CPM — définition et formule

CPM = Cost Per Mille = prix payé par un annonceur pour 1 000 affichages d'une publicité (mille = 1 000 en latin).
Formule du CPMCPM = (Coût total / Impressions) × 1 000
Exemple : Campagne coûte 5 000€, affichée 1 000 000 fois. CPM = (5 000 / 1 000 000) × 1 000 = 5€

Pourquoi la data fait monter le CPM ?

Sans ciblage → CPM bas (~2-5€)

Publicité aléatoire, taux de conversion faible (~0,1-0,5%), l'annonceur paie peu.

Avec data précise → CPM premium (~15-50€+)

Audience qualifiée, intentionniste, taux de conversion élevé (~2-5%), l'annonceur paie beaucoup plus.

Les 3 modèles de facturation publicitaire

ModèleSignificationPaiement déclenché parUsage
CPMCost Per Mille1 000 affichagesNotoriété, visibilité de marque
CPCCost Per Click1 clic sur la publicitéTrafic vers un site web
CPACost Per Acquisition1 conversion (achat, inscription)Performance, ROI direct
📈

Optimiser son CPM

2 leviers concrets pour tout entrepreneur

Optimiser son CPM ≠ "mettre plus de pubs". C'est augmenter la valeur perçue de chaque impression en améliorant la qualité de l'audience et en exploitant la donnée propriétaire.

Levier 1 — Améliorer la qualité de l'audience

Un CPM élevé vient d'une audience qualifiée, solvable et intentionniste. Un annonceur paie plus si le pouvoir d'achat est élevé, l'intention d'achat est forte, le ciblage est précis.

Un site B2B SaaS peut avoir un CPM 5 à 10× supérieur à un site généraliste — son audience est composée de décideurs professionnels avec budget dédié.

Actions : segmenter finement · construire des personas précis · collecter des données first-party

Levier 2 — Exploiter la data first-party

Avec la fin des cookies tiers (décisions Google/Apple), la donnée propriétaire (first-party) devient stratégique. Les entreprises qui ont construit leur base de données clients seront les mieux positionnées.

Collecter la donnée

  • Créer des comptes utilisateurs
  • Proposer des newsletters (opt-in)
  • Collecter des préférences déclarées
  • Tracker l'engagement (RGPD)

Exploiter la donnée

  • Segmentation comportementale
  • Personnalisation du contenu et des offres
  • Look-alike audiences
  • Retargeting basé sur l'historique
🛡️

Gouvernance & qualité des données

Les règles du jeu pour une data fiable et utilisable

Mauvaise donnée → mauvaise décision → risque financier. La gouvernance data n'est pas optionnelle.

🔐 Gouvernance

  • Qui possède quoi ? — ownership clair de chaque dataset
  • Qui peut modifier ? — gestion des droits d'accès
  • RGPD : consentement, droit à l'oubli, DPO
  • Traçabilité : audit trail, historique des modifications

📏 Qualité des données — 4 critères

  • Exactitude : les valeurs reflètent la réalité
  • Complétude : pas de champs vides importants
  • Cohérence : pas de contradictions entre systèmes
  • Actualité : données à jour selon la fréquence requise

RGPD — l'essentiel pour un entrepreneur

PrincipeCe que ça implique concrètement
ConsentementAccord explicite avant de collecter des données personnelles
MinimisationNe collecter que les données strictement nécessaires
Droit à l'oubliPouvoir supprimer toutes les données d'un utilisateur sur demande
PortabilitéPermettre à l'utilisateur d'exporter ses données
DPODélégué à la Protection des Données (obligatoire dans certains cas)
🔍

Cas : Tesla, Netflix, Airbnb

Corrigé complet du cas n°1 du cours

⚡ Tesla — Fortement data-centric

Données : Flux continus capteurs véhicules → Big Data temps réel

Boucle : Très rapide (< 1 jour). Chaque véhicule améliore l'Autopilot de toutes les Tesla

Moat : Milliards de km de conduite → IA Autopilot inégalable

Décision : Renforcer collecte mondiale pour accélérer Full Self-Driving

🎬 Netflix — Data-centric, moat fragile

Données : Historique de visionnage complet → Big Data comportemental

Boucle : Rapide (quotidienne). Recommandations ajustées chaque jour

Moat : Algorithme de recommandation + décisions de production (fragile car concurrents accumulent aussi)

Décision : IA générative pour personnaliser davantage + réduire coûts de production

🏠 Airbnb — Hybride

Données : Réservations, avis, navigation, historique prix

Boucle : Moyenne (1-2 semaines). Ajustement hebdomadaire du pricing

Moat : Confiance bidirectionnelle + prédiction fiabilité hôtes/voyageurs

Décision : IA de pricing dynamique + scoring prédictif avancé fiabilité hôtes

🦄

Licornes françaises & ESN

Exemples de PME digitales et entreprises de services numériques

Licornes françaises — fertilité et usage data

EntrepriseSecteurFertilitéUsage data
QontoFintechÉlevéeAutomatisation comptable, alertes trésorerie
PayFitRH / PaieÉlevéeDétection anomalies + recommandations processus
WithingsSanté connectéeÉlevéeInsights personnalisés activité et sommeil
Back MarketE-commerce reconditionnéMoyenne-élevéeRecommandations produits + gestion stock
ManoManoE-commerce bricolageMoyenneSuggestions personnalisées + promotions ciblées
BlaBlaCarMobilitéMoyenneOptimisation matching conducteurs-passagers

ESN — Entreprises de Services Numériques

EntrepriseFertilité interneValeur
Capgemini InventMoyenneExpertise + recommandations clients basées sur données projets
DevoteamMoyenne-élevéeOptimisation déploiement cloud + suivi performance client
SQLI / Octo TechnologyMoyenneAmélioration UX et performances web, prototypage IA
📊

PME vs ESN vs Grands groupes

Comment la taille influence la fertilité data

CritèrePME / Start-upESNGrands groupes
FertilitéAgile, variable. Très élevée si culture data forte dès le départMoyenne en interne. Forte fertilité chez leurs clientsPotentiellement très élevée, mais risque de lenteur organisationnelle
Type de donnéesClients (CRM), produit (usage, analytics). Parfois Big Data si digital nativeDonnées projets, logs techniques, multi-clientsMassives historiques, structurées (ERP) + non-structurées (emails, IoT)
BoucleRapide (jours/semaines). Décisions proches du terrainDépend des cycles clients. Capitalisation RETEXPeut être très rapide si automatisée, mais souvent plus lente (validation, gouvernance)
MoatInnovation rapide + spécialisation forteExpertise sectorielle + capital humain + réputationEffet d'échelle + données propriétaires massives + infrastructure
Message clé : Une PME peut avoir une fertilité data supérieure à un grand groupe si elle a une culture data forte. La taille n'est pas déterminante — c'est la vitesse de la boucle qui compte.
🧑‍💼

Méthode d'analyse d'un cas data

Le template 5 dimensions à mémoriser

Méthode du cours pour analyser la stratégie data de toute entreprise : 5 questions structurantes.

① Type de données

  • Structurées (SQL, ERP, CRM) ?
  • Non structurées (texte, image, vidéo) ?
  • Big Data (volume massif, temps réel) ?
  • First-party ou third-party ?

② Boucle d'apprentissage

  • Où collecte-t-on la donnée ?
  • Comment la traite-t-on (IA, algo) ?
  • Quel insight ? Quelle décision ? Quelle action ?
  • Vitesse : Très rapide / Rapide / Moyenne / Lente ?

③ Product vs Data-centric

  • La data améliore le produit (product-centric) ?
  • Ou le produit existe pour générer la data (data-centric) ?
  • Justification concrète ?

④ Moat basé sur la data

  • Quel avantage unique cette data crée-t-elle ?
  • Pourquoi c'est difficile à reproduire ?
  • Quelles barrières à l'entrée ?

⑤ Décision stratégique data-driven

Structure : insight identifié → décision → impact attendu → données pour mesurer. Proposer une action concrète pour renforcer l'avantage compétitif.

Management Big Data, IA & SI · Caroline Lioger · CLC Conseil

"Mon système apprend plus vite que mes concurrents."

❓ QCM interactif

Big Data, IA & SI

Banque de 36 questions couvrant les 86 pages du cours. Chaque session tire 12 questions au hasard dans un ordre aléatoire avec des réponses mélangées.

Score : 0 / 12