Подключение к источникам данных

Независимо от того, работаете ли вы с CSV-файлами, корзинами S3 или базами данных SQL, Datalore предоставляет удобный доступ к данным из нескольких источников в одном ноутбуке.

Смотрите видео о подключении к источникам данных:

Внутреннее хранилище

В Datalore есть постоянное внутреннее хранилище для быстрого доступа к ноутбукам и другим рабочим артефактам.

Файлы ноутбуков

Все данные — и загруженные локальные файлы и папки, и импортированные по ссылке, и скачанные файлы из репозитория кода — хранятся в файлах ноутбука. Когда вы делитесь ноутбуком с коллегами, они автоматически получают доступ к его файлам.

Файлы рабочего пространства

Используя файлы рабочего пространства, можно сделать наборы данных доступными для нескольких ноутбуков. Достаточно один раз загрузить набор данных в рабочее пространство, и он будет доступен каждому редактору в этом пространстве.

Подключение к базам данных через интерфейс

Enterprise Team Professional

Ноутбуки можно в несколько кликов подключить к базам данных прямо из редактора, а затем создавать запросы с помощью нативных ячеек SQL, не передавая среде свои учетные данные.

Datalore поддерживает аутентификацию по логину и паролю для Amazon Redshift, Azure SQL Database, MariaDB, MySQL, Oracle, PostgreSQL, Snowflake и других баз данных. Если у вас есть дополнительные вопросы о подключении к базам данных, напишите нам на datalore-support@jetbrains.com.

Выбор схем БД для интроспекции
Enterprise Team Professional

При подключении к базе данных можно выбрать, какие схемы и таблицы включать в интроспекцию. Это поможет ускорить первую интроспекцию и упростит навигацию по базе.

Поддержка пользовательских JDBC-драйверов
Enterprise

В новой версии администраторы могут добавить пользовательские JDBC-драйверы для подключения к базам данных, нативная поддержка которых в Datalore Enterprise отсутствует. Перейдите в Admin panel | Miscellaneous и откройте диалог New custom database driver. Здесь можно выбрать и загрузить файлы драйверов из локальной системы.

Поддержка SSH-тунеллирования

Enterprise Team Professional

Подключайтесь к удаленным базам данных с помощью SSH-туннелей. Между Datalore и вашим сервером шлюза будет установлено зашифрованное SSH-соединение. Через SSH-туннели можно подключаться к базам данных, которые не доступны через публичную сеть.

Монтирование корзины S3

Корзины AWS S3 и GCS можно монтировать в ноутбуке как папки, не передавая среде свои учетные данные.

Подключение к источникам данных из кода

Подключиться к источникам данных можно не только через пользовательский интерфейс: к любой корзине, хранилищу или базе данных можно подключиться из кода, как это обычно делается в Jupyter-ноутбуках.

Ячейки SQL

Enterprise Team Professional

Используйте нативные ячейки SQL при создании запросов к подключенным базам данных. Помимо подсветки синтаксиса SQL, вы можете пользоваться автодополнением кода, опирающимся на интроспекцию таблиц базы данных. Результат запроса сразу же передается в Pandas DataFrame, и дальше с этим набором данных можно работать на Python.

Запросы к DataFrames из ячеек SQL

Вы можете писать SQL-запросы в SQL-ячейках для работы с данными из 2D DataFrames и CSV-файлов, приложенных к ноутбуку — точно так же, как при работе с БД. Просто посмотрите DataFrames ноутбука, выберите нужный и используйте его как источник для SQL-ячеек. Благодаря этой функции, можно с помощью SQL объединять данные из разных источников в один DataFrame и разбивать сложные запросы на несколько ячеек SQL.

Параметризация SQL-запросов
Enterprise Team Professional

Теперь вы можете использовать переменные, заданные в Python-скриптах (строки, числа, списки, логические типы данных), в ячейках SQL. Это позволит вам создавать интерактивные отчеты с параметризованными запросами и писать меньше кода на SQL. Также это облегчит просмотр отчетов для пользователей.

Запросы к датафреймам из ячеек SQL

Вы можете использовать ячейки SQL для удобной отправки запросов к 2D-датафреймам и файлам CSV из приложенных документов — точно так же, как отправляются запросы к БД. Просто посмотрите датафреймы ноутбука, выберите нужный и используйте его как источник для ячеек SQL. Благодаря этой функции, можно с помощью SQL объединять данные из разных источников в один датафрейм и разбивать сложные запросы на несколько ячеек SQL.

Работа с базами данных в изолированных окружениях

Эта функция обеспечивает работу с базами данных в изолированных окружениях. Вы можете выполнять SQL-код без подключения к интернету, обеспечивая точность и согласованность обмена информацией между вашим ноутбуком и базой данных, а также минимизируя риск повреждения или потери данных.

Клонирование подключений к источникам данных в другие рабочие пространства

В новой версии можно клонировать подключения к базам данных из одного рабочего пространства в другое, чтобы не настраивать их заново. Все настройки, кроме учетных данных, можно просто скопировать. Кроме того, вы можете выбрать сразу несколько рабочих пространств.

Хранилище SMB/CIFS

В меню File system, а также прямо из ноутбука можно добавить в рабочее пространство хранилище SMB/CIFS. После этого вы сможете просматривать и изменять содержимое папок SMB прямо в ноутбуке.