На вопросы из этого раздела отвечали разработчики, работающие в области анализа и инжиниринга данных, а также машинного обучения, либо те, кто занимает должность инженера данных или специалиста по анализу данных и Data Science. Этот опрос рассчитан конкретно на разработчиков, поэтому результаты могут быть нерепрезентативными для более широкой аудитории в сфере больших данных.

Большие данные

Какие программные пакеты вы используете для анализа и визуализации данных?

Чаще всего для анализа и визуализации данных используются редакторы электронных таблиц (46%).

Какие платформы вы используете для анализа больших данных?

Большинство разработчиков, работающих с большими данными, не используют платформы анализа данных (68%). Самая распространенная из таких платформ — Google Colab (19%).

Какие инструменты вы используете для обработки больших данных?

Jupyter — самый популярный инструмент для работы с большими данными: его используют 32% разработчиков в этой сфере. Другие популярные инструменты — Apache Spark (20%) и Apache Kafka (17%).

Какой версией Spark вы пользуетесь?

Где хранится большая часть ваших данных?

Данные в основном размещаются на внутренних серверах (36%) или локально (26%). 21% респондентов используют для размещения данных AWS, другие варианты встречаются гораздо реже.

IT — основное направление деятельности вашей компании?

Специалисты по машинному обучению чаще работают в ИТ-компаниях.

В каких областях ваша компания ведет основную деятельность?

Анализ данных

Инжиниринг данных

Машинное обучение

За пределами ИТ-отрасли инженеры данных чаще работают в финансовой сфере, а специалисты по машинному обучению — в образовании и науке.

В каких областях ваша компания ведет основную деятельность?

Анализ данных

Инжиниринг данных

Машинное обучение

Использование Python, Scala и Java вместе с Apache Spark

66% респондентов используют вместе с Apache Spark язык Python, 34% — Java, а 11% — Scala.

10 самых распространенных сочетаний инструментов для работы с большими данными

10% используют Apache Spark и Apache Kafka. 9% используют Apache Spark и Apache Hadoop.

3 основных языка, используемых вместе с Apache Kafka

Вместе с Apache Kafka чаще всего используются Python, Java и SQL.

Соотношение Python/R в США, Европе, России и Азии

R шире используется в России (5%), Python — в Азии (59%).

Основной язык в зависимости от вариантов размещения больших данных

AWS

Google Cloud

Azure

С Google Cloud чаще используются Python и Java, с AWS — JavaScript и PHP, а с Azure — C#.

Использование инструментов для работы с большими данными в зависимости от вариантов размещения последних

AWS

Google Cloud

Azure

С Google Cloud чаще используются Jupyter и Apache Beam. Пользователи AWS предпочитают Apache Spark и Apache Kafka.

Основной язык в зависимости от работы в сфере анализа данных, инжиниринга данных или машинного обучения

Анализ данных

Инжиниринг данных

Машинное обучение

По сравнению с разработчиками, занятыми анализом и инжинирингом данных, специалисты по машинному обучению чаще используют Python, C++ и C, реже — SQL и PHP.

Основной язык по отраслям

Разработчики, работающие в сфере образования и науки, чаще используют Python и R.

Использование инструментов для работы с большими данными по отраслям

В образовании и науке чаще используют Jupyter, в банковской сфере предпочитают Apache Spark, Apache Kafka, Apache Hadoop и Apache Hive.

Доля Apache Spark по странам и регионам

Самые большие доли пользователей Apache Spark — в Китае, Индии, Южной Корее, Испании и Латинской Америке.

data:image/svg+xml;base64,PHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHdpZHRoPSI2MCIgaGVpZ2h0PSI2MCIgZmlsbD0ibm9uZSIgdmlld0JveD0iMCAwIDYwIDYwIj48ZGVmcz48bGluZWFyR3JhZGllbnQgaWQ9ImJpZy1kYXRhLXRvb2xzX3N2Z19fYSIgeDE9Ii03LjEzMiIgeDI9IjUzLjIxMiIgeTE9Ii45ODMiIHkyPSI2Mi42MTEiIGdyYWRpZW50VW5pdHM9InVzZXJTcGFjZU9uVXNlIj48c3RvcCBvZmZzZXQ9IjAiIHN0b3AtY29sb3I9IiNGRjQ1RUQiLz48c3RvcCBvZmZzZXQ9IjEiIHN0b3AtY29sb3I9IiMwODdDRkEiLz48L2xpbmVhckdyYWRpZW50PjwvZGVmcz48cGF0aCBmaWxsPSJ1cmwoI2JpZy1kYXRhLXRvb2xzX3N2Z19fYSkiIGQ9Ik0zMCAwSDB2NjBsMjkuOTk5LS4wMDJMMzAgNjBhMzAuMDg4IDMwLjA4OCAwIDAgMCAzMC0zMFYzMEEzMC4wODcgMzAuMDg3IDAgMCAwIDMwIDBaIi8+PC9zdmc+

Big Data Tools Plugin

Плагин для IntelliJ IDEA, DataGrip, PyCharm

Предыдущий раздел

Swift и Objective-C

Следующий раздел

Базы данных

Спасибо, что уделили время!

Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.

Присоединяйтесь к JetBrains Tech Insights Lab

Участвуйте в опросах и UX-исследованиях JetBrains, чтобы помочь нам улучшить наши продукты. Среди участников исследований разыгрываются призы.

Зарегистрироваться

Подробнее

Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.