Explore every episode of the podcast DataWatch
| Title | Pub. Date | Duration | |
|---|---|---|---|
| Décathlon déploie Polars en prod ! | 23 Dec 2025 | 00:39:12 | |
☝️ Dans cet épisode, Bertrand et Axel discutent de l'utilisation de Polars chez Decathlon, de la comparaison entre Polars et Spark, de Lance comme nouveau format de données, et de l'impact de l'IA sur l'observabilité des données avec Monte Carlo. Ils explorent comment ces outils et technologies peuvent optimiser le traitement des données et améliorer l'efficacité des équipes data. 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Newsletter de Bertrand : https://datayoka.notion.site/1355071ba1ca80189240d83808f5994d ➕ Blog de Bertrand : https://datayoka.com/blog 00:00 Introduction et présentation des sujets 00:58 Utilisation de Polars chez Décathlon 08:48 Comparaison entre Polars et Spark 16:33 Lance : un nouveau format de données 27:54 Monte Carlo et l'IA pour l'observabilité | |||
| Python 3.14, vraiment mieux ? | 18 Nov 2025 | 00:31:30 | |
☝️ Dans cet épisode, Bertrand et Axel explorent les nouveautés de Python 3.14, notamment le T-String, les améliorations de débogage, et les implications du GIL sur les performances. Ils discutent également des concepts de Data Redaction et Data Masking, ainsi que des meilleures pratiques pour la gestion des données sensibles. 👉 Les nouveautés de Python 3.14 : https://www.docstring.fr/blog/les-nouveautes-de-python-314/ 👉 Data redaction vs. data masking: What's the difference? : https://www.rudderstack.com/blog/data-redaction-vs-data-masking 00:00 Introduction au Data Engineering et Python 3.14 02:00 Les nouveautés de Python 3.14 : T-String et F-String 06:13 Améliorations de débogage et annotations différées 09:06 Le GIL et ses implications sur les performances 10:57 Just-In-Time et multi-interpréteur dans Python 16:09 Nouvelles fonctionnalités de compression et gestion des erreurs 18:37 Data Redaction vs Data Masking : Concepts et applications 27:52 Conclusion et réflexions sur la conformité des données | |||
| SQL avec Python, Airflow 2.10.0 et Vector Search : les tendances data du moment | 01 Sep 2024 | 00:11:25 | |
☝️ Dans cet épisode, je parle de l’utilisation de SQL avec python, de Apache Iceberg vs Apache Hudi, la preview du Vector Search sur MariaDB, la sortie de la version 2.10.0 d’Airflow et sur les différents niveaux de Data Engineers et Software Engineers 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Pendant le mois d'août, je serai seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Utilisation de SQL avec Python 👉 Apache Iceberg vs Apache Hudi 👉 Preview de Vector Search sur MariaDB 👉 Apache Airflow 2.10.0 👉 Les niveaux de Data et Software Engineer | |||
| BigQuery Vector Search et Ray chez Amazon : les clés du changement ? | 09 Sep 2024 | 00:16:54 | |
☝️ Dans cet épisode, je parle de ScaNN sur BigQuery Vector Search, des nouveautés de Databricks Workflows, de InstantDB, de tables de faits et de dimensions et de migration d’Apache Spark vers Ray chez Amazon. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Pendant le mois d'août, je serai seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Preview de l’algorithme ScaNN sur BigQuery Vector Search 👉 Les nouveautés de Databricks Worklfows 👉 Présentation de InstantDB utilisé dans Notion ou Figma 👉 Les tables de faits et de dimension 👉 Explication de la migration d’Apache Spark vers Ray chez Amazon | |||
| Cycle de vie du stockage : pourquoi cela peut transformer vos coûts data ? | 04 Aug 2024 | 00:21:01 | |
☝️ Dans cet épisode, je parle de 5 erreurs en Data Engineering, des bénéfices économiques dans la mise en place d’une politique de cycle de vie du stockage, de Snowflake Horizon, de l’utilisation de la simplicité pour résoudre les problèmes, et de différentes techniques de Data Modeling. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Pendant le mois d'août, je serai seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 5 erreurs en Data Engineering 👉 Les économies d’une politique de cycle de vie du stockage 👉 Snowflake Horizon pour une gouvernance unifiée 👉 L’utilisation de la simplicité pour résoudre les problèmes | |||
| Data Centers, souveraineté et qualité : les défis de la gestion des données | 27 Jul 2024 | 00:16:42 | |
☝️ Dans cet épisode, nous parlons de souveraineté des données, de Exadata Exascale de Oracle, de Data Timeliness, de 3 étapes pour la mise en place de Data Quality et de la croissance des Data Centers. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Cette semaine, je serai exceptionnellement seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles | |||
| dbt 1.8, Pandas vs Polars et réduction des coûts sur Snowflake : décryptage | 31 May 2024 | 00:32:29 | |
☝️ Pour ce premier épisode, nous parlons de la version 1.8 de dbt, de réduction des coûts sur Snowflake, de Pandas vs Polars et de Python sur SQL Server. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 DBT version 1.8 👉 Réduction des coûts sur Snowflake 👉 Pandas vs Polars 👉 Python sur SQL Server | |||
| Identification des causes racines en Data Engineering | 05 Aug 2025 | 00:23:02 | |
Dans cet épisode de DataWatch, Bertrand Fabre explore un article sur Monte Carlo, un outil de data quality et d'observabilité. Il partage ses réflexions sur les défis de la qualité des données, notamment la recherche des causes racines des anomalies, et discute des solutions possibles pour améliorer l'efficacité des équipes Data et IA. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Article : | |||
| Data Reliability et BigQuery Datasream : les clés pour vos données ! | 29 Jun 2024 | 00:50:23 | |
☝️ Dans cet épisode, nous parlons de Data Reliability, de CI/CD pour les Data Engineers, de l'utilisation du mode "append-only" de Datasream sur BigQuery et des tendances et opportunités actuelles en data. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 L'utilisation du mode "append-only" de Datasream sur BigQuery | |||
| 70% de coûts en moins en utilisant Rust ?! | 24 Jun 2025 | 00:17:10 | |
☝️ Dans cet épisode, Axel Mauroy et Bertrand Fabre abordent des sujets clés de la Data Engineering, notamment Cloud Run, l'essor de Rust dans la Data Engineering, et les améliorations de BigQuery. Cloud Run se distingue par sa capacité à s'adapter rapidement aux besoins, tandis que Rust offre des performances supérieures et des économies de coûts significatives. BigQuery, quant à lui, évolue avec des techniques de vectorisation avancées pour optimiser la gestion des données. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Articles👉 Google Cloud Run propose des GPU sans serveur pour l'IA et le traitement par lots : 👉 L'essor de Rust dans l'ingénierie des données : 👉 Améliorations de gestion de données de BigQuery et de sa vectorisation | |||
| Julien Hurault sur les Slowly Changing Dimensions et les Snowflake Native Apps | 13 Jul 2024 | 00:54:43 | |
☝️ Dans cet épisode, nous parlons des Slowly Changing Dimensions en compagnie de Julien Hurault, de Data Validation, du script bq2dbt, de BigQuery Data Canvas, de Data Sharing avec les Snowflake Native Apps. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Julien Hurault sur LinkedIn ➕ Et le lien de sa newsletter 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Les Slowly Changing Dimensions | |||
| Airflow 3.0 ! | 07 May 2025 | 00:17:52 | |
☝️ Dans cet épisode, nous parlons de la présentation du serveur MCP pour DBT, de la version 3 d'Apache Airflow, des pistes pour devenir un « meilleur » Data Engineer, et la différence entre le clustering et les partitions. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Articles 👉 Présentation du serveur MCP pour DBT | |||
| Shift Left, la data change de responsable ! | 01 Apr 2025 | 00:17:30 | |
☝️ Dans cet épisode, nous parlons de l'annonce de la prise en charge de Git dans BigQuery, du lancement de dbt copilot pour améliorer l’efficacité des développeurs, du Shift Left, du Sommet Databricks Data + AI 2025, et de l'investissement de Snowflake Ventures dans DataOps.live.🎙️ DataWatch est un podcast de veille en data.Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de BertrandArticles👉 Annonce des dépôts BigQuery 👉 DBT Labs lance un copilote d'IA 👉 Databricks Data + AI 2025 👉 Snowflake Ventures investit dans DataOps.live 👉 Le Manifeste des données de Shift Left | |||
| Polars vs PySpark et quand l'OLTP et l'OLAP convergent enfin avec Snowflake ! | 20 Jul 2024 | 01:09:38 | |
☝️ Dans cet épisode, nous parlons de Polars vs PySpark, de la création d’une couche sémantique des données, de conseils pour leader une équipe data, de la convergence de l’OLTP et de l’OLAP avec Unistore de Snowflake et de l’histoire de la Modern Data Stack. 🎙️ DataWatch est un podcast de veille en data.Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Articles 👉 Conseils pour leader une équipe data 👉 Couche sémantique des données avec dbt | |||
| Uber, IA et Data Governance : les enjeux critiques de la data d'aujourd’hui | 15 Sep 2024 | 00:58:44 | |
☝️ Dans cet épisode, nous parlons du retour d'Elasticsearch en Open Source, des risques des décisions basées uniquement sur la Data, de l'utilisation des résultats d'une procédure stockée dans un SELECT sur Snowflake, des tendances de la Data Engineering avec l'IA et de Data Governance et 324 millions d'amende pour Uber 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Blog de Bertrand Articles 👉 Le retour d'Elasticsearch en Open Source 👉 Les risques des décisions basées uniquement sur la Data 👉 Utilisation des résultats d'une procédure stockée dans un SELECT sur Snowflake 👉 Les tendances de la Data Engineering avec l'IA 👉 Data Governance et 324 millions d'amende pour Uber | |||
| 575K$ comme Staff Data Enginneer chez Airbnb ! Ses conseils pour décrocher ce poste | 06 Dec 2024 | 00:58:04 | |
☝️ Dans cet épisode, nous parlons de Microsoft Drasi, de la bascule de l’ELT vers l’esprit Graphe, de la tendance à utiliser les outils Apache Kafka, Apache Flink et Apache Iceberg en Data Engineering, des conseils de préparation d’entretien pour un post de Staff Data Engineer chez Airbnb à 575K$ et les tendances 2025 pour la Data Engineering et l’IA. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 Microsoft Drasi pour la gestion des données en streaming 👉 La bascule de l’ELT vers l’esprit Graphe 👉 La tendance à utiliser les outils Apache Kafka, Apache Flink et Apache Iceberg en Data Engineering 👉 La préparation d’entretien pour un post de Staff Data Engineer chez Airbnb 👉 Les tendances 2025 pour la Data Engineering et l’IA | |||
| Florent Jakubowski sur ETL vs ELT et l’évolution des rôles en Data Engineering | 07 Jun 2024 | 01:09:16 | |
☝️ Dans cet épisode, nous parlons de l'ETL vs ELT, du rôle d'Analytics Engineer, de l'interpréteur RustPython, du package python SQLFrame et de l'utilisation du RAG pour générer du SQL. 🤩 Nous avons également un invité qui est l'auteur d'un post LinkedIn détaillé sur la comparaison entre ETL et ELT : Florent Jakubowski. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Florent sur LinkedIn 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Les différences d’aujourd’hui entre ETL et ELT avec Florent Jakubowski | |||
| 50 ans de SQL et Liquid Clustering : les nouveautés et réflexions en Data Engineering | 31 May 2024 | 01:02:03 | |
☝️ Dans cet épisode, nous parlons des différents types de stockage, de Data Quality Management, de la disponibilité générale du Liquid Clustering sur Databricks, des 50 ans du SQL, de contrôle des coûts sur Dataflow et du dictionnaire de données vs le catalogue de données. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Les différents types de stockage 👉 Disponibilité générale du Liquid Clustering sur Databricks | |||
| Les stratégies data de Netflix, Meta, Spotify, Airbnb et Uber révélées ! | 22 Nov 2024 | 01:06:00 | |
☝️ Dans cet épisode, nous parlons des données synthétiques pour des données sécurisées avec l’IA, des règles de base et des règles métier dans la DataQuality, sur le besoin d’utiliser les bons tests dans un projet dbt, des Data Silos et des architectures de Data Engineering utilisées par Netflix, Uber, Spotify, Meta et Airbnb ; 🎙️ DataWatch est un podcast de veille en data.Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Articles 👉 Des données synthétiques pour des données sécurisées avec l’IA 👉 Les règles de base et les règles métier dans la DataQuality 👉 Le besoin d’utiliser les bons tests dans un projet dbt 👉 Les architectures de Data Engineering utilisées par Netflix, Uber, Spotify, Meta et Airbnb | |||
| OVH sort sa Data Platform ! | 08 Jul 2025 | 00:27:06 | |
☝️ Dans cet épisode, Axel Mauroy et Bertrand Fabre explorent les dernières tendances en Data Engineering et en intelligence artificielle, en mettant l'accent sur la nouvelle plateforme de données d'OVH, les innovations de BigQuery, et l'analyse des dépenses cloud qui continuent d'augmenter, notamment en raison de la demande croissante pour des solutions d'IA. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Articles 👉OVHcloud présente la Data Platform idéale 👉 Les dépenses mondiales en infrastructure cloud ont augmenté de 21 % au premier trimestre 2025 👉 Présentation de BigQuery ObjectRef | |||
| L’architecture médaillon du marketing ?! | 16 Sep 2025 | 00:19:36 | |
☝️ Dans cet épisode, Axel Mauroy et Bertrand Fabre explorent les nuances de l'architecture médaillon, un concept popularisé par Databricks. Ils discutent des couches de données bronze, silver et gold, et remettent en question la nécessité de certaines de ces couches. L'épisode aborde également l'impact du marketing sur les nouvelles technologies et l'importance de rester pragmatique dans l'adoption de nouvelles architectures. Enfin, ils partagent des nouvelles du secteur, notamment le rachat de Tobiko Data par Fivetran et l'introduction par Google Cloud de son SDK avec Rust. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Articles👉 Nouvelles du Secteur - Rachat de Tobico Data 👉 Google Cloud et le SDK Rust👉 Impact du Marketing sur les Technologies👉 Décryptage de l'Architecture Médaillon | |||
| Kafka 3.8 et Data Lake CDC : ce que les Data Engineers doivent savoir | 11 Aug 2024 | 00:18:34 | |
☝️ Dans cet épisode, je parle de la sortie d’Apache Kafka 3.8.0, de menaces cachées dans un Data Warehouse, de l’avenir des hyperscalers et des data centers, de simplicité et de composabilité en Data Engineering, et de Data Lake Change Data Capture.
🎙️ DataWatch est un podcast de veille en data.
Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data.
Pendant le mois d'août, je serai seul pour animer le podcast.
👉 Axel sur LinkedIn
👉 Bertrand sur LinkedIn
👉 Menaces cachées dans un Data Warehouse 👉 L'avenir entre hyperscalers et datacenters locaux | |||
| Le premier Data Engineer IA et la surveillance des pipelines : décryptage | 08 Nov 2024 | 01:06:49 | |
☝️ Dans cet épisode, nous parlons de l’organisation des équipes logiciel et data, des trois composants d’une stack de données non structurées, de la stratégie de surveillance des pipelines ETL, du premier data Engineer IA au monde et de la réalité des formats de tables ouverts ; 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Articles : 👉 L’organisation des équipes logiciel et data 👉 Les trois composants d’une stack de données non structurées 👉 La stratégie de surveillance des pipelines ETL | |||
| MCP, une sécurité en danger ? | 04 Nov 2025 | 00:33:24 | |
☝️ Dans cet épisode, Bertrand Fabre, Axel Mauroy et leur invité Baptiste Vlodarczyk (AI Engineer chez SFEIR, en mission chez L’Oréal) discutent de plusieurs sujets liés à l’intelligence artificielle et à l’ingénierie des données.Baptiste présente un article de Google sur la sécurisation des serveurs MCP (Model Context Protocol), standard proposé par Anthropic pour connecter les modèles de langage à des outils via des interfaces compréhensibles par les LLM. Ils abordent les risques de sécurité (exposition de données, vol de tokens, détournement de session) et la solution proposée par Google : un proxy centralisé avec des couches de contrôle telles que Model Armor, IAM et Secret Manager.La conversation se poursuit sur les différences entre API et SDK, les standards ouverts (notamment l’OpenAI SDK), et l’importance de ces outils pour unifier l’écosystème IA.Enfin, les intervenants commentent l’article de Daniel Beach sur le rôle du YAML Engineer, en débattant de la surutilisation du YAML et de Terraform dans la data et des limites en termes de flexibilité et de créativité.L’épisode se conclut sur une réflexion sur la place du code, la lisibilité, et la bonne répartition entre logique applicative et infrastructure. 🎙️ DataWatch est un podcast de veille en data.Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Liens vers les articles : | |||
| Modélisation avancée DBT : optimisez votre pipeline analytique | 12 Aug 2025 | 00:33:33 | |
Dans cet épisode de "Lecture à chaud", Bertrand Fabre explore un article de Clarisse Véron sur la modélisation avancée avec dbt, un outil incontournable dans la transformation des données modernes. Bertrand partage ses réflexions à chaud sur les pratiques de modélisation, l'importance de la documentation et les défis liés à l'utilisation de dbt dans les entreprises. Découvrez comment structurer efficacement vos pipelines de données et les meilleures pratiques pour garantir la qualité et la pérennité de vos projets. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Article : | |||
| Data Virtualisation : plus besoin de Data Warehouse ? | 02 Sep 2025 | 00:26:00 | |
Dans cet épisode, Bertrand Fabre explore le concept de data virtualisation, un mécanisme qui permet aux organisations de partager et d'exploiter des données sans les déplacer. Il discute des avantages, des défis et des implications environnementales de cette approche, tout en mettant en lumière des exemples concrets d'application et les perspectives d'avenir dans le domaine de la gestion des données. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Article : | |||
| Uber dans le cloud, DuckDB 1.1.0 et Pandas sur Snowflake : les annonces marquantes | 21 Sep 2024 | 00:39:18 | |
☝️ Dans cet épisode, nous parlons de la migration de Uber vers le cloud, de la sortie de DuckDB 1.1.0, de la sortie de Airbyte 1.0, de la classification des Data Engineers en trois groupes et de la disponibilité de Pandas sur Snowflake. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 La migration de Uber vers le cloud ; 👉 La sortie de DuckDB 1.1.0 ; 👉 La sortie de Airbyte 1.0 ; 👉 La classification des Data Engineers en trois groupes ; 👉 La disponibilité de Pandas sur Snowflake. | |||
| Disponibilité des CTEs Récursives dans Databricks ! | 19 Aug 2025 | 00:26:02 | |
Dans cet épisode de "Lecture à chaud", Bertrand Fabre explore les nouveautés des CTEs récursives sur Databricks, en les comparant avec d'autres plateformes comme BigQuery. Il partage ses réflexions en direct sur l'article, en expliquant comment ce type de CTE permet de naviguer dans des hiérarchies de données. Bertrand illustre le concept avec des exemples pratiques, notamment la construction d'un vélo à partir de sa nomenclature. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Article : | |||
| SQL automatisé, BigQuery Jobs Explorer et PostgreSQL 17 : les nouveautés à connaître | 05 Oct 2024 | 00:57:04 | |
☝️ Dans cet épisode, nous parlons de la génération automatisée de requêtes SQL, de la présentation de BigQuery jobs explorer, de l’intégration de PyCharm avec Databricks, de bonnes pratiques en SQL et de la sortie de PostgreSQL 17 ; 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 La génération automatisée de requêtes SQL 👉 La présentation de BigQuery jobs explorer 👉 L’intégration de PyCharm avec Databricks 👉 Les bonnes pratiques en SQL 👉 La sortie de PostgreSQL 17 | |||
| BigQuery Continuous Queries et Cloud SQL Studio : toujours plus de nouveautés ! | 19 Aug 2024 | 00:12:47 | |
☝️ Dans cet épisode, je parle de Data Engineering vs Software Engineering, de Cloud SQL Studio, des fonctions d’agrégat personnaliées en python sur Snowflake, de BigQuery Continuous Queries et de recommandations pour la résolution de problèmes de Data Engineering. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Pendant le mois d'août, je serai seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Est-ce que la Data Engineering est du Software Engineering ? 👉 Disponibilité générale de Cloud SQL Studio sur GCP 👉 Disponibilité des fonctions d’agrégat customisées en python sur Snowflake 👉 Sortie en preview de BigQuery Continuous Queries 👉 Recommandations pour résoudre des problèmes de Data Engineering | |||
| Des bases de données fiables pour les banques françaises | 28 Jul 2025 | 00:20:57 | |
Dans cet épisode de DataWatch, Bertrand Fabre inaugure un nouveau format plus spontané et interactif. Il explore un article récent de Decideo sur l'importance des bases de données sécurisées pour les banques françaises, partageant ses réflexions en temps réel. Découvrez pourquoi ces bases de données sont essentielles pour la conformité, la fiabilité des opérations bancaires, et la satisfaction client. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Article : | |||
| Les outils essentiels du Data Engineer ! 500Mds$ dans la data 💰 | 04 Feb 2025 | 00:43:33 | |
☝️ Dans cet épisode, nous parlons du rachat de SDF par dbt, du plan de Donald Trump de 500 milliards de $ pour l'IA, des outils essentiels en Data Engineering et de l'architecture des pipelines de données chez BlaBlaCar. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 Tobiko - dbt + SDF : Ce qui change et ce qui ne change pas 👉 Donald Trump annonce son plan de 500 milliards de $ pour l'IA 👉 Architecture des pipelines de données chez BlaBlaCar 👉 La boîte à outils en Data Engineering : Les Outils essentiels | |||
| Les différences entre SQLMesh et dbt 💪 | 23 Sep 2025 | 00:23:40 | |
Dans cet épisode, Bertrand Fabre explore les différences entre SQLMesh et dbt, deux outils de transformation de données. Il met en avant les fonctionnalités de SQLMesh, notamment son intégration de Python, son versioning et son orchestration intégrée. La discussion aborde également les tests et CI/CD, ainsi que les environnements de développement. Bertrand conclut en soulignant l'importance de SQLMesh dans le paysage des outils de transformation de données. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Article : Les différences entre SQLMesh et dbt | |||
| Polars 1.0 et Data Vaults sur Snowflake : vers une gestion optimale des données | 07 Jul 2024 | 01:13:38 | |
☝️ Dans cet épisode, nous parlons de la sortie de la version 1.0 de Polars, de Smart Data, de la gestion du cycle de vie des données avec les Data Vaults sur Snowflake, de gestion logique des données et de la preview du plugin BigQuery JupyterLab. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Gestion du cycle de vie des données avec Data Vault sur Snowflake | |||
| LakeFlow et Unity Catalog Open Source : les nouveautés de Databricks | 23 Jun 2024 | 00:35:09 | |
☝️ Dans cet épisode, nous parlons de la disponibilité de LakeFlow sur Databricks, du package python Daft, de la mise en Open Source de Unity Catalog de Databricks, du rôle du DPU dans l’informatique, de la future sortie de la version 2.0 de Numpy. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 La disponibilité de LakeFlow de Databricks 👉 La mise en Open Source de Unity Catalog de Databricks | |||
| MongoDB 8.0, Python 3.13 et Lakehouse : les annonces phares du moment | 18 Oct 2024 | 00:53:37 | |
☝️ Dans cet épisode, nous parlons de la sortie de la version 3.13.0 de Python, de la mort du Data Warehouse au profit du Data Lake House, de la Preview des Databricks Apps, de la sortie de la version 8.0 de MongoDB et de Data Strategy. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 La sortie de la version 3.13.0 de Python 👉 La mort du Data Warehouse au profit du Data Lake House 👉 La Preview des Databricks Apps 👉 La sortie de la version 8.0 de MongoDB et de Data Strategy 👉 La Data Strategy | |||
| La disparition des Data Engineers ! | 01 Mar 2025 | 00:48:23 | |
☝️ Dans cet épisode, nous parlons de l'acquisition de Voyage AI par MongoDB, de l'exécution des LLM open-source sur BigQuery ML, de l'acquisition d'Upsolver par Qlik, de la levée de fonds de 47 millions de dollars par Prophecy, de l'optimisation du moteur vectoriel d'OpenSearch, de la méthode pour simplifier votre code Python avec l'opérateur walrus, l'avenir du métier de Data Engineer face aux IA et l'avenir des données non structurées dans le Data Engineering. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Articles 👉 MongoDB annonce l'acquisition de Voyage AI pour permettre aux organisations de construire des applications d’IA fiables 👉 Prophecy lève 47 millions de dollars de fonds 👉 Optimisation du moteur vectoriel d'OpenSearch 👉 Les Data Engineers vont ils devenirs obsolètes ? 👉 Les données non structurées sont l'avenir du Data Engineering | |||
| De l’incrémental au Data Product en passant par l'IA : ce qui redéfinit le Data Engineering | 29 Nov 2024 | 00:54:09 | |
☝️ Dans cet épisode, nous parlons de la montée des traitements incrémentaux et l’impact sur la Data Quality, des Data Products pour améliorer la Data Quality des traitements incrémentaux, des Data Rooms Virtuelles, des différents design de pipelines de données, de Snowflake Intelligence et ses agents de données ; 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Articles 👉 La montée des traitements incrémentaux et l’impact sur la Data Quality 👉 Les Data Products pour améliorer la Data Quality des traitements incrémentaux 👉 Les Data Rooms Virtuelles 👉 Les différents design de pipelines de données 👉 Snowflake Intelligence et ses agents de données | |||
| Data Engineer 2.0 : clustering, IA, et plan pour 2025 | 15 Nov 2024 | 01:09:41 | |
☝️ Dans cet épisode, nous parlons des clés de clustering sur Snowflake, du rôle de l’AI Data Engineer, de la disponibilité des vues matérialisées et des tables de streaming pour AWS et Azure, de la planification de fin d’année pour les objectifs 2025 et de l’utilisation du streaming de données pour le développement des futurs services financiers ; 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Articles 👉 Les clés de clustering sur Snowflake 👉 Le rôle de l’AI Data Engineer 👉 La disponibilité des vues matérialisées et des tables de streaming pour AWS et Azure 👉 La planification de fin d’année pour les objectifs 2025 👉 L’utilisation du streaming de données pour le développement des futurs services financiers | |||
| Gaël Lemaux sur les Snowflake Dynamic Tables et DuckDB 1.0 : la Data Engineering continue d'évoluer | 16 Jun 2024 | 00:55:50 | |
☝️ Dans cet épisode, nous parlons de Dynamics Tables sur Snowflake vs ETL/ELT, la sortie de la version 1.0.0 de DuckDB, l'intégration d’Amazon OpenSearch Service avec Amazon S3, le support de Delta Lake dans BigQuery et Variant Data Type dans Databricks. 🤩 Nous avons également un nouvel invité cette semaine qui est l'auteur d'un article sur les Dynamics Tables : Gaël Lemaux. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Gaël sur LinkedIn 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Les Dynamics Table sur Snowflake avec Gaël Lemaux 👉 La sortie de la version 1.0.0 de DuckDB 👉 L'intégration d'Amazon OpenSeach Service avec Amazon S3 | |||
| Pipe Syntax en SQL, Apache Iceberg et IA générative : vers une Data Engineering plus simple ? | 27 Sep 2024 | 00:57:11 | |
☝️ Dans cet épisode, nous parlons de l’importance de la Data Engineering dans l’IA générative, de la Pipe Syntax en SQL, de Data Observability, de la déperdition du Data Modeling et de cas d’usage d’Apache Iceberg dans Snowflake. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 L’importance de la Data Engineering dans l’IA générative 👉 La Pipe Syntax en SQL 👉 Data Observability 👉 La déperdition du Data Modeling 👉 Des cas d’usage d’Apache Iceberg dans Snowflake | |||
| BigQuery, dbt v1.9 et Data Quality : les stratégies qui transforment la donnée | 25 Oct 2024 | 00:48:58 | |
☝️ Dans cet épisode, nous parlons des stratégies innovantes en Data Engineering, de la preview des datasets externes entre BigQuery et Spanner, de la preview des tables BigQuery pour Apache Iceberg, du micro batch incremental models de la v1.9 de dbt, du Data Quality Management ; 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 Les stratégies innovantes en Data Engineering 👉 La preview des datasets externes entre BigQuery et Spanner 👉 La preview des tables BigQuery pour Apache Iceberg 👉 Le micro batch incremental models de la v1.9 de dbt 👉 Data Quality Management | |||
| dbt fait sa Fusion ! | 10 Jun 2025 | 00:25:42 | |
☝️ Dans cet épisode, nous parlons du rachat de la société Informatica par Salesforce, de Google Cloud’s s'ouvrant au Lakehouse, des nouveautés 2025 de dbt et de DuckLake, présentant SQL au format Lakehouse. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Articles 👉 DuckLake - SQL au format Lakehouse | |||
| Data Engineer, ça craint ou pas ? | 24 Mar 2025 | 00:57:01 | |
☝️ Dans cet épisode, nous parlons des nouveautés de Databricks SQL de février 2025, du rachat de DataStax par IBM pour renforcer watsonx et l'IA générative, de la sortie d'Apache Beam 2.63.0, des graphiques d'utilisation des ressources BigQuery, du réexamen du GROUP BY ROLLUP avec un exemple plus réaliste, des difficultés du métier de Data Engineer et de l'état actuel de l'architecture Lakehouse. 🎙️ DataWatch est un podcast de veille en data.Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. ➕ Newsletter de Bertrand Articles👉 Graphiques d'utilisation des ressources BigQuery 👉 The State of Lakehouse Architecture👉 IBM rachète DataStax pour renforcer watsonx et l'IA générative👉 Etre Data Engineer ça craint👉 Apache Beam 2.63.0 👉 Nouveautés de Databricks SQL, février 2025 👉 Réexamen du GROUP BY ROLLUP avec un exemple plus réaliste | |||
| Snowflake MCP : la fin des Data Engineers SQL ?! | 26 Aug 2025 | 00:43:31 | |
Dans cet épisode, Bertrand Fabre explore un article sur le protocole MCP de Snowflake, qui permet d'exécuter des requêtes SQL en langage naturel. Il discute des avantages de l'automatisation des analyses de données, de l'optimisation des coûts et des performances, ainsi que des défis liés à l'utilisation de l'IA dans la Data Engineering. L'épisode aborde également des cas d'utilisation concrets et les implications de cette technologie pour les équipes de données. 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand Article :Snowflake MCP | |||
| Airbyte et son MCP dans Cursor ! | 22 Jul 2025 | 00:49:31 | |
☝️ Dans cet épisode, Axel Mauroy et Bertrand Fabre explorent divers sujets liés au Data Engineering, notamment les nouvelles fonctionnalités d'Airbyte, l'impact de l'IA sur l'intégration des données, et les outils comme le standard MCP et Starburst qui facilitent l'accès et la gestion des données. Ils discutent également de l'importance de la qualité des données et de la préparation des modèles d'IA pour la production, ainsi que de l'automatisation de l'infrastructure avec PyInfra. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. ➕ Newsletter de Bertrand Articles 👉 Introduction du chargement direct dans Airbyte 👉 PyAirbyte MCP : Le Standard de Connexion pour LLM 👉 L'association de SFEIR et Starburst 👉 Redéfinir les données data pour l'IA en vue de la production 👉 Automatisation de l'infrastructure avec PyInfra | |||
| Data Mesh, Data Owner et la fin des clés primaires : ce que vous devez savoir | 01 Nov 2024 | 01:14:14 | |
☝️ Dans cet épisode, nous parlons de la mort des clés primaires et étrangères, de l’implémentation du Data Mesh chez Roche, du Github Actions pour la Data Engineering, de la Data Stack déclarative et du rôle de Data Owner ; 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 La mort des clés primaires et étrangères 👉 La Data Observability lors de l’implémentation du Data Mesh chez Roche 👉 Github Actions pour la Data Engineering 👉 La Data Stack déclarative 👉 Le rôle de Data Owner | |||
| Presto, Rust et Data Lineage : les tendances qui transforment la Data Engineering | 11 Oct 2024 | 00:41:55 | |
☝️ Dans cet épisode, nous parlons de l’importance de Presto et de son framework d’optimisation basé sur l’historique, de l’utilisation de Rust dans la Data Engineering, de l’implémentation du Data Lineage dans les traitements python, de la balance entre achat et création d’outils Data et de la sortie de la version 1.0.0 de dlt. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 Presto et son framework d’optimisation basé sur l’historique 👉 L’utilisation de Rust dans la Data Engineering 👉 L’implémentation du Data Lineage dans les traitements python 👉 La balance entre achat et création d’outils Data 👉 La sortie de la version 1.0.0 de dlt | |||
| Spécial dbt avec Victor Vaneecloo ! | 20 Jan 2026 | 00:37:50 | |
☝️ Dans cet épisode, Axel Mauroy et Bertrand Fabre accueillent Victor Vaneecloo, Data Engineer expérimenté, pour échanger sur ses retours d’expérience autour de dbt (data build tool) et de ses usages en Data Engineering. 👉 Victor sur LinkedIn : https://www.linkedin.com/in/baptiste-wlodarczyk/ ➕ rateIndex : https://rateindex.streamlit.app/ ➕ Newsletter : https://vaneec.tech/ ➕ Site : https://vvaneecloo.ghost.io/ 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Formation SQL sur BigQuery de 3 jours : https://datayoka.com/formations/formation-de-sql-avec-bigquery-distance ➕ Newsletter : https://datayoka.notion.site/1355071b... ➕ Blog : https://datayoka.com/blog Liens vers les articles 1️⃣ https://vvaneecloo.ghost.io/supercharging-dbt-performance-working-at-scale-trade-offs-1-3/ 2️⃣ https://vvaneecloo.ghost.io/supercharging-dbt-why-dbt-your-orchestration-layer-one-app-not-two-2-3/ 3️⃣ https://vvaneecloo.ghost.io/supercharging-dbt-lets-build-a-production-ready-platform-with-dbt-airflow-3-3/ 00:00 Introduction et présentation de l’invité 01:13 Comprendre DBT : définition et enjeux 03:22 Défis et pièges dans l’utilisation de DBT 05:37 Passage à l’échelle de DBT : aspects techniques et organisationnels 09:38 Intégration des modèles incrémentaux dans DBT 11:54 Le rôle de la gouvernance en data engineering 15:34 Intégration de DBT avec les outils d’orchestration 19:39 L’intérêt des monorepos 21:53 Simplifier l’orchestration des données avec Airflow et DBT 23:55 Gouvernance et visibilité dans la gestion des données 25:20 Les avantages du micro-batching 27:09 Présentation d’Elementary pour l’observabilité 29:23 Quand utiliser un traitement complet ou incrémental 31:14 Projets et outils futurs en data engineering | |||
| Databricks utilise Excel comme data source | 07 Jan 2026 | 00:24:02 | |
☝️ Dans cet épisode, Axel Mauroy et Bertrand Fabre explorent les dernières avancées en ingénierie des données et en intelligence artificielle. Ils discutent des nouvelles fonctionnalités d'AWS S3 pour le stockage de vecteurs, de l'IDE Antigravity de Google, et de l'intégration d'Excel avec Databricks. Les hôtes partagent leurs réflexions sur l'impact de ces technologies sur le secteur et les défis potentiels qu'elles posent. 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Newsletter de Bertrand : https://datayoka.notion.site/1355071ba1ca80189240d83808f5994d ➕ Blog de Bertrand : https://datayoka.com/blog 00:00:00 Introduction et présentation 00:03:00 AWS S3 et le stockage de vecteurs 00:09:00 Google Antigravity et l'expérience IA 00:15:00 Databricks et l'Intégration d'Excel 00:21:00 Conclusion et perspectives | |||