Databricks vs. Fabric: zwei Lösungen zum Aufbau moderner Datenarchitekturen
Dr. André Kaderli ist Senior Data Scientist und Teil eines Teams von Datenexperten bei Novalytica. In dieser Funktion ist er verantwortlich für den Aufbau komplexer Datenarchitekturen, die massgeschneidert auf die Bedürfnisse eines Unternehmens aufgebaut werden. Eine umfassende Datenarchitektur ermöglicht es Unternehmen, Daten aus unterschiedlichen Systemen nutzbar zu machen und Datenflüsse zu automatisieren, z.B. als regelmässiges Reporting für unterschiedliche Stakeholder. Als ersten Schritt beim Aufbau einer Datenarchitektur geht es darum, die derzeitige Systemlandschaft und die Voraussetzungen sowie Bedürfnisse in Bezug auf Datennutzung und Reporting einer Unternehmung kennenzulernen sowie das zukünftige Set-up mit den notwendigen Datenprozessen zu definieren. In diesem Zusammenhang begegnet André Kaderli häufig der Frage, ob Microsoft Fabric oder Databricks die geeignetere Lösung für die zu implementierenden Datenprozessierungsschritte sei. Im folgenden Interview beantwortet er die wichtigsten Fragen dazu.

André, kannst du kurz erläutern, in welchem Zusammenhang Databricks und Microsoft Fabric verwendet werden und worin ihre grundlegenden Unterschiede liegen?
Beide Lösungen dienen dem Aufbau moderner Lakehouse-Infrastrukturen, die die Stärken von Data Lakes und Data Warehouses kombinieren, um grosse Datenmengen effizient zu speichern, zu verarbeiten, zu verwalten und für Analysen zu nutzen.
Databricks ist eine etablierte, entwicklerorientierte Plattform, die auf einem offenen Data-Lakehouse-Modell mit Delta Lake basiert. Sie bietet hohe Flexibilität und Skalierbarkeit und unterstützt verschiedene Cloud-Anbieter wie Microsoft Azure, AWS und Google Cloud. Databricks eignet sich besonders für komplexe, codebasierte Datenprozesse und fortgeschrittene Analytik, einschliesslich Machine Learning und KI.
Microsoft Fabric hingegen ist ein jüngerer, vollständig integrierter SaaS-Ansatz von Microsoft, der Ende 2023 eingeführt wurde. Er basiert auf dem zentralen Speicherkonzept OneLake und nutzt das Delta-Format. Fabric ist stark auf Benutzerfreundlichkeit und Low-/No-Code-Nutzung ausgerichtet, mit einer Benutzeroberfläche, die sich an Power BI orientiert. Dies erleichtert den Einstieg für Self-Service-Teams, bietet jedoch weniger individuelle Konfigurationsmöglichkeiten.
Für welche Ausgangslage empfiehlst du Organisationen den Einsatz von Fabric bzw. Databricks?
Databricks eignet sich für Unternehmen, die eine hoch konfigurierbare und skalierbare Lösung für komplexe Datenverarbeitung und fortgeschrittene Analytik suchen, insbesondere durch codebasierte Workflows. Die Plattform lässt sich nahtlos mit Diensten wie Azure Data Factory und Power BI kombinieren und kann bei effizienter Konfiguration auch kostengünstig für kleinere Anwendungen betrieben werden.
Microsoft Fabric richtet sich primär an Organisationen, die bereits stark im Microsoft-Ökosystem verankert sind und den Fokus auf einfache Integration, schnelle Ergebnisse und Self-Service BI legen. Die Plattform unterstützt Low- und No-Code-Lösungen für Datenintegration und -transformation und bietet eine Power BI-nahe Benutzeroberfläche, die insbesondere Business-Usern den Einstieg erleichtert.
Wie lassen sich die jeweiligen Lösungen in bestehende IT-Landschaften integrieren und welche Herausforderungen birgt die Implementierung?
Databricks bietet hohe technologische Flexibilität und lässt sich mit verschiedenen Cloud-Anbietern sowie On-Premise-Systemen kombinieren. Es unterstützt sowohl strukturierte als auch unstrukturierte Daten und ermöglicht die Anbindung an bestehende Data Lakes, Data Warehouses und ETL-Pipelines. Die Nutzung offener Standards wie Apache Spark und Delta Lake erleichtert die Integration, erfordert jedoch technisches Know-how.
Microsoft Fabric punktet mit einfacher Integration in bestehende Microsoft-Umgebungen, insbesondere in Kombination mit Power BI. Für Unternehmen, die bereits stark auf Microsoft-Technologien setzen, bietet die nahtlose Einbettung von Fabric klare Vorteile. Allerdings bietet Fabric im Vergleich zu Databricks weniger Spielraum bei der technischen Konfiguration, was bei sehr individuellen Anforderungen eine Einschränkung sein kann.
Microsoft Fabric richtet sich primär an Organisationen, die bereits stark im Microsoft-Ökosystem verankert sind und den Fokus auf einfache Integration, schnelle Ergebnisse und Self-Service BI legen. Die Plattform unterstützt Low- und No-Code-Lösungen für Datenintegration und -transformation und bietet eine Power BI-nahe Benutzeroberfläche, die insbesondere Business-Usern den Einstieg erleichtert.
Wie sieht das Data Management und die Data Governance in beiden Lösungen aus?
Databricks bietet mit dem Unity Catalog eine umfassende, integrierte Lösung für Data Governance. Sie deckt sämtliche Daten-Assets ab und ermöglicht zentrale Zugriffssteuerung, Sicherheitsverwaltung sowie detaillierte Datenherkunft (Lineage).
Microsoft Fabric nutzt für die Governance Microsoft Purview. Zwar bietet Purview zentrale Metadatenverwaltung und Klassifizierung von Datenressourcen, jedoch ist die Integration in Fabric derzeit noch nicht vollständig ausgereift, insbesondere hinsichtlich der durchgängigen Lineage-Darstellung.
Wie erfolgt die Aufbereitung der Daten aus den jeweiligen Architekturen in Power BI Reports für die Enduser?
Databricks setzt auf eine codebasierte Datenverarbeitung mit Python, SQL, Scala oder R. Diese Herangehensweise erfordert technisches Know-how, ermöglicht jedoch maximale Flexibilität und Kontrolle, insbesondere bei komplexen Datenpipelines und Analysen. In der Praxis kommt oft eine Medallion-Architektur zum Einsatz, bei der Daten schrittweise bereinigt, transformiert und aggregiert werden. Die finalen Daten können über Power BI-Konnektoren eingebunden werden.
Microsoft Fabric verfolgt einen Low-/No-Code-Ansatz mit integrierten Tools wie Dataflows Gen2, Power Query und Pipelines. Dies erleichtert besonders Business- und Power BI-Usern den Einstieg in die Datenverarbeitung. Für komplexere Anwendungen stehen auch codebasierte Notebooks zur Verfügung. Durch die native Integration in Power BI lassen sich strukturierte Daten direkt und ohne zusätzliche Pipelines visualisieren.
Wie unterscheiden sich die Kosten und die Betriebseffizienz zwischen den beiden Lösungen?
Die Kosten variieren je nach Nutzungsszenario. Databricks bietet ein flexibles, nutzungsbasiertes Preismodell, das insbesondere bei variabler Auslastung Vorteile bietet. Im Pay-as-you-go-Modus punktet Databricks mit automatischem Stoppen inaktiver Cluster, wodurch nur bei tatsächlicher Nutzung Kosten entstehen.
Microsoft Fabric hingegen nutzt ein kapazitätsbasiertes Preismodell, das bei gleichmässiger Auslastung für Vorhersehbarkeit sorgt. Allerdings müssen Fabric-Kapazitäten manuell oder per API gestoppt werden, was gleichzeitig alle Inhalte im Workspace deaktiviert – inklusive Power BI Reports. Dies macht Fabric im Verbrauchsmodell oft unpraktisch und eher für reservierte Kapazitäten attraktiv.
Wohin denkst du, geht die Entwicklung von Fabric und Databricks hin und welche Trends sollten Unternehmen längerfristig im Blick behalten?
Databricks positioniert sich zunehmend als End-to-End-Plattform für Daten, Analytics und KI. Es wird damit für Unternehmen interessant, die komplexe Datenverarbeitung und KI-Entwicklung tief integrieren und auf offene, hoch konfigurierbare Infrastrukturen setzen.
Microsoft Fabric verfolgt den Ansatz einer vereinheitlichten Datenplattform innerhalb des Microsoft-Ökosystems. Es bringt Power BI, Data Factory, Synapse, Data Lake und andere Services unter einer gemeinsamen Oberfläche zusammen. Fabric zielt damit auf Organisationen, die eine enge Verzahnung von Daten, Reporting und operativen Prozessen in einem vertrauten Ökosystem suchen.
Die Entscheidung für eine Plattform sollte nicht nur auf aktuellen Funktionen beruhen, sondern auf langfristiger technischer Ausrichtung, Organisationstyp, Komplexität der Datenlandschaft und internem Know-how. Es empfiehlt sich, Trends aktiv zu beobachten, strategisch flexibel zu bleiben – und bei Bedarf auf technologieübergreifende Beratung zurückzugreifen.