Ноутбуки

Jupyter-ноутбук — основа любого проекта по анализу данных. Datalore включает в себя все необходимые инструменты для работы с Jupyter-ноутбуками. Платформа предоставляет помощь в написании кода на Python, SQL, R, Scala и Kotlin, чтобы вы могли продуктивно работать и писать качественный код с меньшими усилиями. Редактор Datalore обеспечивает быстрый доступ к подключенным источникам данных, автоматическим визуализациям, статистике набора данных, инструменту составления отчетов, менеджеру среды, управлению версиями и другим полезным инструментам.

Узнайте из видео, как легко создавать Jupyter-ноутбуки в Datalore:

Поддержка Jupyter

Ноутбуки Datalore поддерживают Jupyter-формат. Благодаря этому можно загрузить существующие IPYNB-файлы и работать с ними дальше в Datalore. Кроме того, можно экспортировать ноутбуки в виде IPYNB-файлов. Обратите внимание: подключения к источникам данных и интерактивные элементы управления при этом не экспортируются.

Ноутбуки Python

Умное автодополнение кода как в PyCharm

В Datalore встроены функции анализа кода из PyCharm. Работая с Python-ноутбуками, вы можете пользоваться автодополнением кода, подсказками параметров, инспекциями, быстрыми исправлениями и рефакторингами. Все это помогает писать качественный код с меньшими усилиями.

Встроенная документация

В Datalore доступны всплывающие подсказки для любого метода, функции, пакета или класса. Вы увидите нужную информацию из документации именно там, где она вам понадобится.

Поддержка conda и pip

Datalore поддерживает менеджеры пакетов conda и pip. Pip — быстрый бесплатный менеджер, который подходит всем пользователям, а conda предоставляется бесплатно только для некоммерческого использования.

Ноутбуки Kotlin, Scala и R

В Datalore можно создавать ноутбуки Kotlin, Scala и R. Установить пакеты можно с помощью magic-команд, а при написании кода пользоваться возможностями автодополнения.

Ячейки SQL

Enterprise Team Professional

Используйте нативные ячейки SQL при создании запросов к подключенным базам данных. Помимо подсветки синтаксиса SQL вы можете пользоваться автодополнением кода, опирающимся на интроспекцию таблиц БД. Результат запроса сразу же передается в Pandas DataFrame, и дальше с этим набором данных можно работать на Python.

Запросы к DataFrames из ячеек SQL

Вы можете использовать ячейки SQL для удобной отправки запросов к двумерным DataFrames и CSV-файлам из приложенных документов — точно так же, как при работе с базами данных. Просто посмотрите DataFrames ноутбука, выберите нужный и используйте его как источник для SQL-ячеек. Благодаря этой функции, можно с помощью SQL объединять данные из разных источников в один DataFrame и разбивать сложные запросы на несколько ячеек SQL.

Окружение

Менеджер зависимостей

В Datalore встроен менеджер зависимостей, который обеспечивает воспроизводимость окружения. Он позволяет устанавливать новые пакеты и управлять ими, гарантируя их наличие при повторном открытии ноутбука.

Пользовательские базовые окружения
Enterprise

Из пользовательских образов Docker можно создать несколько базовых окружений. Все зависимости, версии пакетов и настройки инструмента сборки можно сконфигурировать заранее, чтобы команда не тратила время, устанавливая и синхронизируя их вручную.

Пакеты из Git-репозиториев

Установите пользовательский pip-совместимый пакет из Git-репозитория, добавив ветку Git в свой ноутбук.

Скрипты инициализации

Создайте скрипт, который будет выполняться перед запуском ноутбука. В скрипте можно указать все необходимые инструменты сборки и зависимости.

Визуализация

Вкладка Visualize

На вкладке Visualize вы найдете параметры автоматической визуализации для любого Pandas DataFrame. Графики различных типов — Point, Line, Bar, Area и Correlation — помогут быстро проанализировать данные. Если набор данных очень велик, будет автоматически сделана выборка. После этого все графики можно экспортировать в виде кода или ячеек диаграмм для дополнительной настройки.

Поддержка всех пакетов визуализации Python

Создавайте визуализации, используя любые пакеты. Ноутбуки Datalore поддерживают matplotlib, plotly, altair, seaborn, lets-plot и многие другие пакеты.

Ячейки диаграмм

Создавайте готовые визуализации всего за пару кликов. Состояние ячеек доступно и другим членам команды, так что над визуализацией можно работать вместе с коллегами.

Интерактивные таблицы

Фильтруйте и сортируйте Pandas DataFrames и результаты SQL-запросов прямо в результатах выполнения ячеек. Вы можете выбрать, какие столбцы нужно отображать, отсортировать данные в определенном столбце, отфильтровать по выражениям equals и contains и быстро перемещаться вверх-вниз по набору данных. Завершив фильтрацию и сортировку, используйте опцию Export to code cell, чтобы сгенерировать фрагмент Pandas-кода и сделать представление таблицы воспроизводимым.

Редактирование ячеек DataFrame в интерактивных таблицах

Больше не нужно скачивать CSV-файлы, чтобы внести изменения в DataFrame. Просто отредактируйте содержимое ячейки в интерактивной таблице и нажмите Export to code, чтобы воспроизвести результат в ноутбуке.

Статистика DataFrame

На отдельной вкладке Statistics в один клик можно получить основную описательную статистику для DataFrame. Для столбцов категорий можно посмотреть распределение значений, а для числовых столбцов Datalore рассчитывает минимальное, максимальное и медианное значения, среднеквадратическое отклонение, процентили, а также показывает количество нулевых значений и статистических выбросов.

Интерактивные элементы управления

Добавляйте в ноутбуки интерактивные раскрывающиеся списки, слайдеры и поля для ввода текста, а также используйте входные значения в качестве переменных в своем коде. Визуализируйте данные с помощью ячеек диаграмм и выделяйте важные цифры в ячейках метрик.

Интерактивный элемент управления загрузкой файлов

Теперь владельцы отчетов и ноутбуков могут разрешить внешним сотрудникам загружать файлы CSV и TXT, а также изображения с локальных компьютеров. Чтобы загрузка не мешала рабочему процессу, настройте допустимые типы файлов и их предельный размер.

Ячейка Export to database

DataFrames можно экспортировать в существующие таблицы в базе данных прямо из ноутбука. Для настройки экспорта выберите DataFrame, целевую базу данных, схему и таблицу. Кроме того, можно настроить автоматический экспорт по расписанию.

Поддержка IPyWidgets

Datalore поддерживает IPyWidgets — классический фреймворк виджетов Jupyter. Добавляйте интерактивные элементы управления с помощью Python-кода, объединяйте несколько виджетов в одной ячейке и используйте выделение в качестве переменной в следующих частях ноутбука.

Предпросмотр CSV-файлов

Файлы CSV и TSV, представленные на вкладке Attached data, открываются в отдельной вкладке в редакторе Datalore. Там можно отсортировать значения в столбцах и разбить содержимое файла на страницы.

Редактирование CSV-файлов

Редактор Datalore поддерживает файлы CSV и TSV. Можно создать новый файл с нуля или отредактировать существующий.

Терминал

Открыв окна терминала прямо в редакторе и выполнив скрипты .py, можно получить доступ к агенту, среде и файловой системе с помощью стандартных bash-команд.

Просмотр переменных

Просматривайте переменные ноутбука и значения встроенных параметров, не переходя в другое окно.

Внутреннее управление версиями

Создавайте контрольные точки, чтобы в любой момент можно было откатить изменения с помощью инструмента управления версиями. При просмотре контрольной точки вы увидите разницу между текущей версией ноутбука и выбранной.

Вычисления

Запуск ноутбуков на ЦП и ГП

Datalore позволяет запускать ноутбуки на центральном и графическом процессоре. В интерфейсе можно выбрать нужную машину. Тип и объем доступных ресурсов зависят от плана подписки. Подробнее читайте здесь.

Частное облако и локальная установка
Enterprise

Вы можете подключить свое серверное оборудование к Datalore и сделать его доступным через пользовательский интерфейс.

Режим Reactive для воспроизводимых исследований

Режим Reactive принудительно использует порядок вычисления сверху вниз и выполняет перерасчет для ячеек, находящихся ниже измененной. Состояние ноутбука сохраняется после каждого выполнения ячейки, и его можно в любой момент восстановить.

Фоновые вычисления

Переключайтесь в режим фоновых вычислений, чтобы ноутбук работал, даже когда вы закроете вкладку браузера. Доступ к выполняющимся вычислениям можно в любой момент получить из пользовательского меню или с панели управления.

Отчеты об использовании ресурсов процессоров

Скачайте отчеты в CSV-формате о том, сколько времени вы использовали каждый процессор: это поможет понять, каким проектам вы уделяли больше внимания.

Предоплаченные ресурсы
Team Professional Скоро

Настраиваемое время завершения вычислений
Enterprise Team Professional Скоро

Запуск ноутбуков по расписанию

Вы можете запускать ноутбуки по расписанию: каждый час, каждый день, раз в неделю или раз в месяц. Так опубликованные отчеты будут обновляться регулярно. Настроить расписание можно в интерфейсе или при помощи Cron-выражения. Коллеги смогут получать уведомления о результатах запуска по электронной почте.

Несколько расписаний для одного ноутбука

Теперь для одного ноутбука можно создать несколько расписаний и управлять ими через интерфейс. Вы можете настроить расписания для запуска ноутбука каждый час, каждый день, раз в неделю или по определенным дням. Индивидуальная настройка расписания позволяет эффективнее распределять ресурсы и задавать время исполнения кода в зависимости от потребностей проекта.

API запуска Datalore

Теперь запустить ноутбук Datalore или повторно опубликовать отчет можно, вызвав новый API. Эта функция дополняет собой запуск ноутбуков по расписанию и позволяет запустить ноутбук в произвольный момент из внешних приложений или внутренних ноутбуков Datalore. Кроме того, результаты запуска можно посмотреть в меню Scheduled run. Подробнее об использовании API — в документации.

API запуска Datalore

Нативная поддержка пакетов R

При работе с R-ноутбуками теперь можно устанавливать пакеты из публичных и закрытых репозиториев, которые поддерживаются функцией install.packages на вкладке Environment manager. Environment manager помогает поддерживать постоянную конфигурацию окружения при нескольких запусках ноутбука. Создав файл .Rprofile в init.sh или пользовательский образ агента, можно настроить пользовательский репозиторий.

В облачной версии по умолчанию используется инсталляция conda, а пользователи версии Enterprise могут настроить другое базовое окружение с помощью ядра R. После этого в результатах поиска Environment manager будут отсутствовать пакеты conda. Пример такой инсталляции

Нативная поддержка пакетов R

Поиск по содержимому ноутбуков

Вы можете искать нужные разделы кода или информацию по всем ноутбукам в ваших рабочих пространствах. Помимо имен ноутбуков, в новой версии можно искать имена переменных и содержимое. То, что вы ищете, будет подсвечено в результатах поиска.

Поиск по содержимому ноутбуков