Big Data

Die Fragen in diesem Abschnitt wurden Befragten gestellt, die in den Bereichen Datenanalyse, Data Engineering oder Maschinelles Lernen mitwirken oder als Data Analyst/Data Engineer/Data Scientist tätig sind.

Welche der folgenden Tools für Stapelverarbeitung verwenden Sie?

Welche der folgenden Frameworks/Bibliotheken für Streamingverarbeitung verwenden Sie?

Das Spark-Ökosystem ist nach wie vor die beliebteste Wahl für Batching und Streaming.

Welche der folgenden Orchestrierungstools verwenden Sie?

Erwartungsgemäß ist Apache Airflow das populärste Orchestrierungstool, vor allem bei Data Engineers. Interessanterweise sind 9% der verwendeten Orchestrierungstools Custom- oder Eigenentwicklungen.

Welche der folgenden Tools verwenden Sie für die Spark-Ausführung?

Kubernetes, YARN und Amazon EMR sind die meistverwendeten Cloud-Lösungen für die Ausführung von Spark. Die Popularität von Kubernetes nimmt seit Jahren zu, während die Nutzung von YARN im Jahresvergleich um 8 Prozentpunkte zurückgegangen ist. Unternehmen neigen dazu, Data-Engineering-Tools in andere Teile der IT-Landschaft zu integrieren, anstatt separate Systeme wie YARN zu verwenden.

Welche der folgenden Tools verwenden Sie zur Erstellung von Data Lakes?

Welche der folgenden MPP-Tools verwenden Sie?

Die Mehrheit der Befragten verwendet keine MPP-Tools, aber diejenigen, die dies tun, verwenden vornehmlich BigQuery, Redshift oder Azure SQL Data Warehouse.

Erstellen Sie normalerweise neue Cluster oder arbeiten Sie stets mit demselben Cluster?

Welche der folgenden Engines verwenden Sie für Ihre Data-Engineering-Aufgaben?

Eine deutliche Mehrheit (64%) verwendet nach eigenen Angaben keine Engines für Data-Engineering-Aufgaben. Unter denjenigen, die Engines verwenden, sind BigQuery, Databricks und AWS Athena mit jeweils 10% gleich häufig vertreten. Amazon EMR, Redshift, AWS Glue und Azure Analysis Services folgen dicht dahinter.

Arbeiten Sie mit Message-Brokern oder Message-Queues (z. B. Kafka, RabbitMQ usw.)?

Welche der folgenden Tools verwenden Sie für Messaging und Auslieferung im Bereich Data Engineering?

Kafka ist die häufigste Wahl für Data-Engineering-bezogenes Messaging und Delivery (58%), gefolgt von RabbitMQ mit 46%. Interessanterweise gaben nur 2% der Befragten an, dass sie keine Messaging- oder Delivery-Tools verwenden.

Führen Sie Tests in Ihrem Data-Engineering-Codebestand durch?

Welche Testframeworks verwenden Sie?

Die meisten Befragten führen keine Tests in ihrem Engineering-Codebestand durch. Unter den 31%, die dies tun, verwendet der Großteil entweder keine Frameworks oder Great Expectations.