Big Data

Les questions de cette section ont été posées aux développeurs ayant déclaré être impliqués dans l'analyse de données, l'ingénierie des données, le machine learning ou aux personnes occupant un poste d'analyste de données, d'ingénieur de données ou de data scientist.

Parmi les outils de traitement par lots suivants, lesquels utilisez-vous ?

Parmi les frameworks et outils de traitement de streaming suivants, lesquels utilisez-vous ?

L'écosystème Spark reste le choix le plus populaire pour le traitement des données par lots et en streaming.

Parmi les outils d'orchestration suivants, lesquels utilisez-vous ?

Comme on pouvait s'y attendre, Apache Airflow est l'outil d'orchestration le plus populaire, en particulier parmi les ingénieurs de données. Il est intéressant de noter que 9 % des outils d'orchestration utilisés sont personnalisés ou « faits maison ».

Parmi les outils suivants, lesquels utilisez-vous pour l'exécution de Spark ?

Kubernetes, YARN et Amazon EMR sont les solutions cloud les plus populaires pour l'exécution de Spark. Kubernetes gagne en popularité d'année en année, tandis que l'utilisation de YARN a diminué de 8 points de pourcentage d'une année sur l'autre. Les entreprises préfèrent généralement inclure des outils d'ingénierie de données dans d'autres parties du paysage informatique plutôt que d'utiliser des systèmes distincts comme YARN.

Parmi les outils suivants, lesquels utilisez-vous pour créer des lacs de données ?

Parmi les outils de MPP suivants, lesquels utilisez-vous ?

La majorité des répondants déclare ne pas utiliser d'outils de traitement massivement parallèle (MPP), mais ceux qui le font ont tendance à utiliser BigQuery, Redshift ou Azure SQL Data Warehouse.

Généralement, créez-vous de nouveaux clusters ou travaillez-vous toujours avec le même cluster ?

Parmi les moteurs suivants, lesquels utilisez-vous pour vos tâches d'ingénierie des données ?

Une large majorité des répondants (64 %) a déclaré n'utiliser aucun moteur pour leurs tâches d'ingénierie de données. Les trois moteurs les plus populaires sont BigQuery, Databricks et AWS Athena, chacun 10 % chacun. Amazon EMR, Redshift, AWS Glue et Azure Analysis Services suivent de près.

Travaillez-vous avec des gestionnaires de messages ou des files d'attente de messages (par exemple Kafka ou RabbitMQ) ?

Parmi les outils suivants, lesquels utilisez-vous pour la messagerie et la diffusion de données ?

Kafka se démarque en tant que solution de messagerie et diffusion de données la plus populaire (58 %), suivie par RabbitMQ avec 46 %. Il est intéressant de noter que seulement 2 % des personnes interrogées ont déclaré n'utiliser aucun outil de ce type.

Exécutez-vous des tests dans votre base de code d'ingénierie des données ?

Quels frameworks de tests utilisez-vous ?

La plupart des personnes interrogées n'exécutent pas de tests dans leur base de code d'ingénierie. Parmi les 31 % qui le font, la majorité n'utilise aucun framework ou utilise Great Expectations.