데이터 과학

공유하기:

이 섹션의 질문은 비즈니스 인텔리전스, 데이터 분석, 데이터 엔지니어링, 머신 러닝에 관련된 개발자 또는 직무가 데이터 분석가/데이터 엔지니어/데이터 과학자/비즈니스 분석가인 개발자에게만 표시되었습니다.

본인에게 데이터 과학, 데이터 분석 또는 머신 러닝은 어떠한 활동인가요?

상당수의 응답자가 다른 활동과 함께 데이터 과학 업무를 동시에 책임지고 있는 것으로 보입니다. 이러한 결과는 해당 분야의 대중화가 진행 중임을 시사하며, 이는 데이터 과학 시장의 성장을 위한 잠재적 기회를 의미합니다.

팀 또는 데이터 부서에 전담 머신러닝 엔지니어 직책이 있나요?

PyCharm

Python, 과학 라이브러리, 대화형 Jupyter Notebook, Anaconda, SQL 및 NoSQL 데이터베이스 등에 대한 뛰어난 지원을 통해 데이터 파이프라인 구축, 데이터 분석, 프로토타이핑 및 ML 모델 배포에 이용되는 올인원 Python IDE입니다.

어떤 유형의 데이터를 분석하시나요?

다음 중 어떤 활동에 참여하고 계신가요?

데이터 시각화를 위해 어떤 유형의 차트를 가장 많이 사용하시나요?

대다수의 데이터 과학 전문가는 데이터 탐색 및 표현에 실질적으로 입증된 플롯을 사용하는 데 가치를 둡니다. 이러한 유형의 차트는 데이터 수집, 탐색적 데이터 분석, 데이터 조정, ML Ops 등 다양한 데이터 관련 작업에 폭넓게 사용됩니다.

Datalore

JetBrains의 Datalore는 브라우저에서 바로 액세스할 수 있는 팀 협업용 데이터 과학 및 분석 플랫폼입니다. Datalore Notebook은 Jupyter와 호환되며 Python, SQL, R, Scala Notebook에 대한 스마트 코딩 지원은 물론, 노 코드 시각화와 데이터 랭글링도 제공합니다. Datalore의 보고서 빌더를 사용하면 코드와 실험으로 가득 찬 Notebook을 명확한 데이터 기반의 스토리로 바꿀 수 있습니다. 팀은 Notebook을 공유하고, 실시간으로 함께 편집하고, 작업 공간에서 프로젝트를 구성할 수 있습니다.

팀 또는 데이터 부서에 전담 데이터 엔지니어 직책이 있나요?

모든 팀과 부서의 거의 절반이 전담 데이터 엔지니어 또는 머신 러닝 엔지니어를 두고 있습니다.

데이터 과학, 머신러닝 또는 데이터 엔지니어링을 어떻게 학습하셨나요?

데이터 과학자, 데이터 엔지니어, 머신 러닝 엔지니어와 같은 전문 직종은 비교적 최근에 고용 시장에 편입되었습니다. 많은 응답자가 관련 분야에서 이러한 직종으로 이직하고 있어 독학이나 온라인 과정을 통해 새로운 기술을 습득해야 할 필요성이 대두됩니다.

귀하를 포함하여 데이터 팀의 팀원은 몇 명인가요?

데이터 작업 종사자의 50% 이상이 5명 이상의 팀으로 구성되어 있습니다.

데이터 과학 또는 데이터 분석 작업에 어떤 IDE 또는 에디터를 사용하시나요?

업무 시간 중 Notebook에 할애하는 시간은 얼마나 되나요?

Notebook을 어떤 용도로 사용하시나요?

Notebook 버전을 관리하시나요?

어떤 버전 관리 도구를 사용하시나요?

대다수의 데이터 과학 전문가는 Notebook 버전을 관리하지 않지만 상당한 비율(41%)이 그렇게 하고 있으며 그들 대부분은 버전 관리를 위해 Git 또는 GitHub를 선택합니다.

연구 결과를 발표하기 위해 어떤 도구를 사용하시나요?

Jupyter Notebook의 다양한 구현은 탐색적 데이터 분석, 데이터 실험 및 데이터 쿼리, 모델 프로토타입 제작을 포함한 일반적인 사용 사례를 포함해 데이터 과학에서 폭넓게 사용됩니다. 데이터 과학 전문가의 약 40%가 Jupyter Notebook을 사용하여 작업 결과를 나타내지만, 흥미롭게도 많은 사람들(거의 50%)이 Jupyter Notebook을 사용하는 데 작업 시간의 10~20%만 소비합니다.

데이터 과학 작업 시 어떤 컴퓨팅 리소스를 사용하시나요?

대다수의 응답자는 데이터 과학 작업을 위해 로컬 리소스에 의존합니다.

어떤 유형의 데이터 소스를 사용하시나요?

대다수가 로컬 파일을 사용하지만 SQL 데이터베이스를 사용하는 비율은 지난 1년 동안 10% 증가하여 데이터 과학에서 SQL의 중요성을 잘 보여주었습니다.

어떤 종류의 데이터를 가장 많이 사용하시나요?

작업에 합성 데이터를 사용하나요?

설문조사에 참여한 대부분의 데이터 과학자는 사용자 정의 수집 데이터를 처리하며 가장 널리 사용되는 데이터 유형은 트랜잭션 데이터, 시계열 데이터, 이미지 및 머신 생성 데이터입니다. 흥미롭게도, 30%는 실제 사건에 의해 생성된 데이터가 아닌 인위적으로 만들어진 데이터인 합성 데이터를 사용하여 작업합니다.

머신러닝 또는 딥러닝 모델 훈련을 수행하시나요?

전체 응답자의 약 40%가 머신 러닝 또는 딥러닝 모델을 학습했습니다. 하지만 데이터 작업을 주요 활동으로 생각하는 사람들 사이에서는 이 수치가 60% 이상으로 뛰어 오릅니다. 이러한 업계 동향은 예측 모델링이 데이터 작업의 핵심 측면으로 자리잡고 있음을 의미합니다.

머신 러닝 모델을 얼마나 자주 재학습 또는 업데이트하시나요?

모델 교육에 매달 할애하는 시간은 얼마나 되나요?

데이터 과학 전문가 중 절반은 한 달에 한 번 이상 머신 러닝 모델을 재학습하거나 업데이트하지만 대부분은 이 작업을 위해 한 달에 20시간 미만을 소비합니다.

GPU를 사용하여 모델을 훈련하나요?

데이터 과학 전문가의 대다수(81%)가 모델 학습에 GPU를 사용합니다. 그래픽 프로세서를 효율적으로 사용하면 학습 속도가 빨라지고 모델 성능이 향상되므로 연구자와 데이터 전문가에게 점차 매력적인 리소스로 자리잡고 있습니다. 이는 또한 머신 러닝 업계에서 기술 혁신의 중요성과 관련성을 잘 드러내줍니다.

머신러닝 작업 시 일반적으로 VRAM은 얼마나 필요한가요?

더 높은 컴퓨팅 성능은 머신 러닝 작업에서 분명히 나타나는 추세입니다. 현재, 데이터 과학 전문가의 거의 80%가 16GB 이상의 VRAM을 사용하는 반면, 8GB를 사용하는 전문가의 비율은 지난 1년 동안 6% 감소했습니다.

어떤 방법과 알고리즘을 사용하시나요?

회귀 및 트리 기반 방법과 같은 핵심 머신 러닝 알고리즘은 여전히 널리 사용되고 있지만 상당수의 데이터 과학 전문가들은 신경망도 채택하고 있습니다. 트랜스포머 신경망의 인기 상승과 사용자 친화성은 응답자의 30%가 NLP 작업에 참여하는 이유를 설명할 수 있습니다. 흥미롭게도, 참가자 중 24%만이 업무에 통계 테스트를 사용한다고 보고했는데, 이는 머신 러닝과 딥 러닝이 기본 데이터 기술로서 고전적인 통계 기법을 능가했음을 시사합니다.

어떤 엔터프라이즈 머신러닝 솔루션을 사용하시나요?

Amazon 서비스는 가장 인기 있는 엔터프라이즈 클라우드 솔루션으로 두각을 나타냈습니다. 놀랍게도 전년도에 비해 엔터프라이즈 머신 러닝 솔루션 채택이 크게 증가했습니다(10% 이상).

어떤 머신 러닝 프레임워크를 사용하시나요?

TensorFlow는 scikit-learn과 PyTorch보다 인기가 약간 앞서 있으며 Keras와 XGBoost도 탄탄한 채택률을 보이고 있습니다. 흥미롭게도, 응답자의 상당수(19%)는 특정 프레임워크를 사용하지 않는다고 답했습니다.

모델 학습 실험을 추적하는 데 어떤 도구를 사용하시나요?

TensorBoard는 가장 일반적으로 사용되는 도구로 23%의 점유율을 차지하고 MLFlow가 10%, WandB가 7%로 뒤를 잇고 있습니다. 그러나 데이터 과학 전문가의 2/3는 모델 학습 실험을 추적하기 위한 특정 도구를 사용하지 않습니다.

다음 중 귀하의 조직에서 머신 러닝 사용을 가장 잘 설명한 것은 무엇인가요?

머신 러닝과 AI는 일상 비즈니스 활동에서 중요한 부분이 되었기 때문에 응답자의 거의 절반이 자신이 사용하는 소프트웨어에 통합된 다양한 AI 기반 기능을 사용한다는 사실은 놀랄 일이 아닙니다.

어떤 엔터프라이즈 클라우드 솔루션을 사용하시나요?

다음 중 귀하 또는 귀하의 조직에서 수행하기 가장 어려운 데이터 기반 활동은 무엇인가요?

팀에서 데이터 관리, 정리 또는 레이블 지정에 소요되는 시간은 평균적으로 얼마나 되나요?

데이터 정리를 위해 어떤 도구를 사용하시나요?

데이터 품질은 데이터를 다루는 전문가와 조직의 일반적인 과제이며, 이들 중 거의 절반이 데이터 준비에 전체 시간의 30% 이상을 투자한다고 나타낼 정도입니다. Anaconda 연구에서도 데이터 정리가 데이터 전문가의 워크플로에서 가장 시간이 많이 걸리는 측면으로 떠오르고 있음을 확인했습니다. 응답자 중 거의 절반이 이러한 유형의 작업을 처리하기 위해 통합 개발 환경(IDE)을 선택했습니다.

데이터 과학:

2023

읽어주셔서 감사합니다!

이 보고서가 여러분에게 도움이 되었기를 바랍니다. 이 보고서를 친구와 동료에게 공유하세요.

JetBrains Tech Insights Lab에 참여하세요

설문조사와 UX 연구에 참여하여 JetBrains 제품을 더욱 사용하기 쉽고 더욱 강력하게 만들어 보세요. 연구에 참여하시면 상품을 받을 수 있는 기회도 주어집니다.

원시 데이터 예정

원시 데이터를 준비 중입니다. 다운로드가 가능할 때 알림을 받으려면 이메일을 남겨주세요.

By submitting this form I agree to the JetBrains Privacy Policy

질문이나 제안이 있으면 surveys@jetbrains.com으로 연락해 주세요.