Microsoft Certified Azure Data Fundamentals

Microsoft bietet in der Azure Cloud die verschiedensten Datenbanken und Analysesystem an. Angefangen von klassischen virtuellen Maschinen mit dem Microsoft SQL Server über gemanagte Server-Lösungen bis zu PaaS Instanzen des SQL Servers ohne Server-VM. Neben dem SQL Server stehen mit MySQL, MariaDB und PostgreSQL Open Source Systeme als relationale Datenbanken zur Verfügung. Für teilweise strukturierte und unstrukturierte Daten bieten sich hoch-performante NoSQL-Lösungen, wie Azure Table Storage, Azure Blob Storage, Azure Files und Cosmos DB an. Cosmos DB ist eine Multi-API Datenbank für JSON-Dokumente, auf die über ein Table-API (Schlüssel-Wert), ein SQL-API, MongoDB-API (NoSQL), Cassandra-API (spaltenbasiert) und Gremlin-API (Graph) zugegriffen werden kann. Die Datenbank ist für geringe Zugriffszeiten weltweit verteilbar und kann in mehreren Regionen repliziert werden.

Für Datenanalyse und Data Warehousing kann jedes der verfügbaren Datenbanksysteme verwendet werden. In der Azure Data Factory fassen graphisch zusammengestellte Pipelines Daten in mehreren Schritten zusammen und bereiten diese auf. Über Polybase können die verschiedensten Systeme über T-SQL als Datenquelle eingebunden werden. Innerhalb dieses ETL-Prozesses werden die Ergebnisse in einem Azure Data Lake als Rohdaten abgelegt und können dort mit dem Azure Synapse Service auf SQL-Server oder Apache Spark-Pools analysiert werden. Durch die hochgradige Parallelverarbeitung können Datenbestände bis in Petabyte Größen analysiert werden. Der Azure Analysis Service bietet ein einfacheres, tabellenbasiertes Analysemodell für Daten bis in den Gigabyte-Bereich an. Datenanalyse für maschinelles Lernen kann mit Azure Databricks über Spark-Cluster erfolgen. Azure HDInsight erlaubt die Echtzeitanalyse über Hadoop und Spark-Cluster.

Microsoft Azure bietet unschlagbare Vorteile im Vergleich zu On-Premise Datenbanken, wenn es um die schelle Installation von Datenbanken in Minuten geht. Im Besonderen erfordern Skalierung, Hochverfügbarkeit und Replikation keine neue Hardware, Lizenzen, Einrichtung und Standorte, sondern nur neue Regler-Einstellungen. Für Data Warehousing können SQL Server Pools und Spark-Cluster kurzzeitig eingesetzt und nachher wieder entsorgt werden. Über Azure Machine Learning sind Vorhersagemodelle möglich, die über Kubernetes-Cluster skaliert einer großen Zahl an Benutzern zur Verfügung gestellt werden können. Ergebnisse der Datenanalyse können über Power BI Ihren Mitarbeitern als Dashboards oder Berichte zur Verfügung gestellt werden.

Weitere Informationen