处理数据文件
与远程存储建立连接后,您即可处理数据文件。 借助 Remote File Systems 插件,您可以管理存储桶、执行基本文件操作、快速查找并导航到文件,等等。
您还可以以表格形式预览大型结构化文件(如 CSV、Parquet、ORC 或 Avro)。 此功能由 Big Data File Viewer 提供,且会随 远程文件系统 插件自动安装。
管理服务器目录
展开服务器节点以预览其结构。
右键点击目录以打开上下文菜单。

您可以复制、粘贴、重命名该目录,更改其位置、复制其路径,并添加新文件和目录。 选择 从磁盘上传 以向该目录添加更多文件。 您还可以将该目录及其文件保存到本地驱动器。
要快速创建新的存储桶、文件、目录或连接,请按 Alt+Insert。

导航到文件
Big Data Tools 工具窗口可帮助您在存储中快速定位文件和目录。 如果您有许多嵌套目录且不想在查找文件时逐个点击并展开它们,这将非常有用。 相反,您可以开始输入其路径,让 PyCharm 显示可用文件并自动完成该路径。
选择一个存储连接,然后在 Big Data Tools 工具窗口顶部点击
,或按 Ctrl+F。 如果您希望在其中查找文件,可以选择特定的存储桶或目录。
在 在其中导航 窗口中,开始输入文件或目录的路径。 按 Tab 自动完成路径。 或者,您可以输入存储桶的名称以快速找到它。

按 Enter。
这将在 Big Data Tools 工具窗口中定位所选文件。
管理数据文件
展开目标目录并选择文件。
右键点击该文件以打开上下文菜单。

您可以复制、粘贴、重命名该文件、复制其路径、更改其位置或将其删除。
要简要预览结构化文件(如 CSV、Parquet、ORC 或 Avro)的详细信息,请在编辑器或 Big Data Tools 工具窗口中展开它。 您应能看到列及其类型。

在上下文菜单中选择 显示信息 以获取有关该文件的更多详细信息:

要查看文件,请双击它,或在上下文菜单中选择 预览 命令。 文件会在编辑器中打开。 您不能 进行编辑 ,但可以以表格或文本形式进行预览:


在表格视图中,您可以对表格元素进行操作。 右键点击以打开上下文菜单,然后选择命令以复制一行或一列,或将整个表复制到剪贴板或文件。

您还可以通过点击列标题对列中的数据进行排序。
当您打开 .parquet 文件时,插件仅显示文件内容的第一部分。 当处理超大文件时,这尤其有用。
在编辑器中查看文件
要在编辑器的单独选项卡中打开任意存储或目录,请在 大数据工具 工具窗口中选择该项目并点击
。

所选目录将会在编辑器的单独选项卡中打开。

您可以与在 大数据工具 工具窗口中打开的服务器和目录交换文件。 使用查看器工具栏图标来复制、粘贴和剪切文件。
您可以自定义存储的外观:
点击
以管理文件信息详细内容的可见性。
点击
以从视图中排除任意列。 默认情况下,查看器会显示所有列。
点击
以更新所选目录的内容。
使用 访问其他命令。
拖放文件
借助 PyCharm,您可以通过将文件拖动到所需的存储桶、容器或目录,轻松在不同的远程文件系统之间或同一存储内复制和移动文件。 您还可以通过将文件从您的 项目 工具窗口拖动到编辑器,快速将本地文件系统中的文件上传到远程文件系统;相关目录既可在编辑器中打开,也可在 大数据工具 工具窗口中打开。
将文件拖到所需的存储桶、容器或目录
在打开的窗口中,确认文件名和目标目录。

当您在同一连接内拖动文件时,PyCharm 会从原始位置移除该文件。 当您从项目或从一个连接拖动文件到另一个连接时,PyCharm 会创建该文件的副本。
编辑文件
与远程存储建立连接后,您可以编辑该存储中的文本文件,但 Zeppelin 笔记本和以分隔符分隔的文件(如 CSV)除外。
双击文件以在编辑器中打开。
修改该文件。 在文件顶部,将显示可用图标,允许您:
显示差异(
)
将文件内容还原为打开时的初始状态(
)
从服务器检索文件的最新更改(
)
将您的文件更改提交到服务器(
)

查看文件版本
版本控制使您能够在存储中为同一对象保留多个版本。 如果为存储桶启用了版本控制,您可以直接在 PyCharm 中查看对象的版本。 您还可以上传、下载、删除、恢复并比较特定版本。
在 大数据工具 工具窗口中,选择一个存储并点击
以在编辑器中打开。
展开已启用版本控制的存储桶,并在该存储桶中选择一个文件。
在 详细信息 窗格中,打开 版本 选项卡。
该选项卡会显示所选文件的所有可用版本。

当您选择一个版本时,会显示以下图标:
从本地驱动器上传该文件的新版本。
下载所选文件版本。
删除所选文件版本。
恢复所选文件版本。
显示所选版本与该文件上一个版本之间的差异(或者,您可以选择两个版本以显示它们之间的差异)。
创建新存储桶
要将新存储桶添加到数据存储,请在 大数据工具 工具窗口中右键点击该存储连接,并在上下文菜单中选择 。
指定新存储桶的名称,然后点击 确定 完成任务。
筛选存储桶列表
如果您只想处理部分存储而不是整个存储,您可以筛选要在 大数据工具 工具窗口和 编辑器 中显示的存储桶(在 Microsoft Azure 中称为容器)。
您可以指定存储桶和目录的自定义路径,或按名称筛选存储桶。 您可以在配置新连接时执行此操作,也可以调整先前配置的连接设置。
在 大数据工具 工具窗口中,选择服务器,然后在窗口工具栏上点击
。
选择筛选存储桶的方式:
选择 自定义根 ,并在 根目录 字段中指定存储桶的名称或存储桶中某个目录的路径。 您可以用逗号分隔来指定多个名称或路径。
选择 帐户中的所有存储桶 (或 账户中的所有容器 ,适用于 Azure)。 然后,您可以使用存储桶筛选器仅显示具有特定名称的存储桶。
对于 AWS S3 连接,您还可以选择 仅所选区域中的存储桶 以从特定区域获取存储桶。 对于其他存储,存储桶始终基于为连接选择的区域进行筛选。

如果服务器连接已丢失,相应图标会显示服务器的断开状态 。

点击 以重新建立与服务器的连接。