Accueil / WillItFlop

Projet Data • Machine Learning • Full-Stack

WillItFlop

Application full-stack de prédiction du succès commercial des jeux indépendants Steam. Pipeline ETL automatisé (Prefect), modèle XGBoost entraîné sur 13 600+ jeux, API FastAPI et interface React interactive.

Python XGBoost FastAPI React Tailwind CSS dbt PostgreSQL Prefect Supabase GitHub Actions Scikit-learn Pollinations.ai Groq / Llama 3

↗ Voir l'application Repo GitHub

13 600+

Jeux analysés

0.83

ROC-AUC (5-fold CV)

Sources de données

Page d'accueil — WillItFlop, déployée sur Vercel

Projet le plus ambitieux du bootcamp — Architecture complète : ETL automatisé, ML, API REST, frontend React, CI/CD avec GitHub Actions. Tout le code est versionné et déployé en production.

Data Engineering

Pipeline ETL automatisé avec Prefect

La pipeline collecte les données depuis 3 APIs (Steam, SteamSpy, Twitch), nettoie et transforme les prix, textes et KPIs, puis alimente une base PostgreSQL. L'orchestration est assurée par Prefect Cloud, déclenchée hebdomadairement via GitHub Actions. dbt reconstruit ensuite les tables de features pour le ML et les marts d'analyse de sentiment.

COLLECT

Nouveaux jeux Steam + SteamSpy + Twitch

CLEAN

Prix NULL → médiane, textes nettoyés

UPDATE

Refresh jeux récents et anciens

DBT

Features ML + marts sentiment

DEPLOY

CI/CD GitHub Actions

Dashboard Market Intelligence WillItFlop

Dashboard Market Intelligence — analyse du catalogue Steam avec KPIs en temps réel

Machine Learning

XGBoost classifier — prédiction de succès commercial

Le modèle combine 5 types de features pour prédire si un jeu indépendant sera un succès commercial (top 17% par estimation d'owners).

Numérique — prix (log-transformé), nombre d'achievements, langues supportées
Booléen — gratuit, accès anticipé
Multi-label (MLB) — tags ×3, genres ×2, catégories ×2 (pondération par répétition de colonnes pour colsample_bytree)
Texte (TF-IDF) — description nettoyée, 200 features
Sample weighting — pondération par ancienneté du jeu (les jeux récents ont des labels moins fiables)

Le seuil de décision (0.57) est optimisé sur le F1-score. Le scale_pos_weight est calculé dynamiquement pour gérer le déséquilibre de classes (17% positifs / 83% négatifs).

0.831

ROC-AUC

0.529

F1-Score

0.452

Precision

0.638

Recall

Full-Stack

React + FastAPI — application interactive déployée

L'application combine une API FastAPI (Render) avec un frontend React 19 (Vercel). 6 pages : accueil avec prédiction interactive, dashboard Market Intelligence, catalogue de 17 000+ jeux avec recherche et filtres, fiches détaillées avec screenshots et trailers, leaderboard top/flop, et même un mini-jeu. La traduction FR est assurée par DeepL via un proxy API.

Catalogue de 17 000+ jeux indépendants — recherche, filtres, tri par Metacritic/popularité

🎮 Prédiction ML

Créez un concept de jeu fictif et obtenez un verdict Top ou Flop avec score de confiance, une jaquette générée par Pollinations.ai et une fausse review presse rédigée par Groq (Llama 3)

📊 Market Intelligence

Dashboard analytique : volume, saisonnalité, genres, Twitch, sentiment

🗂️ Catalogue 17K+

Base de données avec fiches détaillées, screenshots, trailers HLS

🏆 Leaderboard

Classement des plus gros succès et des plus gros flops

🌐 Traduction DeepL

Proxy API pour traduction EN→FR des descriptions et reviews

🎰 Mini-jeux

Quiz, slot machine et jeux interactifs pour explorer les données

Stack technique

Technologies utilisées

8 technologies clés couvrant l'ensemble de l'architecture.

🐍

Python

Pipeline ETL, ML training, API FastAPI, transformations dbt

🤖

XGBoost

Classificateur binaire avec cross-validation 5-fold et pondération d'échantillons

⚡

FastAPI

API REST async avec caching TTL, proxy DeepL, connexion PostgreSQL

⚛️

React 19

SPA avec React Router, hooks custom, Framer Motion, Recharts

🔄

Prefect 3

Orchestration ETL hebdomadaire, retry automatique, observabilité cloud

🗄️

dbt

Transformation SQL : staging, features ML, marts sentiment

🎨

Pollinations.ai

Génération de jaquette personnalisée selon le concept du jeu créé par l'utilisateur

💬

Groq — Llama 3

Rédaction d'une fausse review presse contextuelle basée sur le concept et la prédiction ML

Architecture

Stack complète — du scraping au déploiement

Architecture découplée multi-cloud : chaque composant est déployé indépendamment et communique via des interfaces standardisées.

🎮

Sources

Steam API + SteamSpy + Twitch

🔄

ETL

Prefect 3 + GitHub Actions

🗄️

Base de données

PostgreSQL (Supabase)

🔧

Transform

dbt — features ML + marts

⚡

API

XGBoost CI + FastAPI (Render)

⚛️

Frontend

React 19 (Vercel)

Bilan

Résultats & apprentissages

Un projet end-to-end complet, du scraping à l'application en production multi-cloud.

🔗

Pipeline production

ETL hebdomadaire orchestré par Prefect Cloud, déclenché par GitHub Actions. 5 étapes avec retry et monitoring.

🧠

ML en CI/CD

Le modèle se ré-entraîne automatiquement quand les features ou la config changent. Artifacts auto-commités par GitHub Actions.

🚀

Déploiement multi-cloud

Frontend sur Vercel, API sur Render, DB sur Supabase, orchestration sur Prefect Cloud. Architecture découplée et scalable.

← Projet précédent : CinéData Tous les projets →