Notebook是由一个或多个Note单元组成的,每个Note是一个独立的Spark任务。本文介绍如何使用Notebook。

前提条件

已创建Note,详情请参见管理Notebook

开发Note

  1. 使用阿里云账号登录Databricks数据洞察控制台
  2. 在Databricks数据洞察控制台页面,选择所在的地域(Region)。
    创建的集群将会在对应的地域内,一旦创建后不能修改。
  3. 在左侧导航栏中,单击Notebook
  4. Notebook区域,选择待操作的集群。
  5. DataInsight Notebook页面,单击创建好的Note名。
    您可在单元格里编辑Spark作业。

    单元格的第一行需要指定Interpreter。DataInsight Notebook目前支持以下6种Interpreter。

    阿里云2000元代金券免费领,最新优惠1折抢购,2核4G云服务器仅799元/3年,新老用户同享,立即抢购>>>

    Interpreter 说明
    %spark 提供了Scala环境。
    %spark.pyspark 提供了Python环境。
    %spark.ipyspark 提供了IPython环境。
    %spark.r 提供了R环境,支持SparkR。
    %spark.sql 提供了SQL环境。
    %spark.kotlin 提供了Kotlin环境。

添加单元格

DataInsight Notebook页面,将鼠标移动到任意已存在单元格的顶部或底部,单击+ Add Paragraph,即可在页面上添加新的单元格。

删除单元格

  1. DataInsight Notebook页面,单击单元格右上角的使用Notebook_Notebook_Databricks数据洞察图标。
  2. 选择Remove
    使用Notebook_Notebook_Databricks数据洞察
  3. 在弹出框中单击OK
    即可删除当前单元格。

运行Note

DataInsight Notebook页面,单击单元格右上角的使用Notebook_Notebook_Databricks数据洞察图标,即可在Notebook内运行作业。

查看可视化运行结果

运行完Note后,在当前单元格中,可单击图形来查看运行结果。Notebook内置了多种图形来可视化Spark的DataFrame:Table、Bar Chart、Pie Chart、Area Chart、Line Chart、Scatter Chart,并且您可以单击settings对各种图形进行配置。

使用Notebook_Notebook_Databricks数据洞察

查看作业详情

  1. DataInsight Notebook页面,单击单元格右上角的SPARK JOB
  2. 选择待查看的作业。
    即可跳转至该作业的Spark UI,查看作业执行详情。

修改Interpreter模式

默认情况下Spark Interpreter的绑定模式是Shared模式,即所有的Note都是共享同一个Spark App。如果是多用户场景的话,建议设置成Isolated Per Note,这样每个Note都有自己独立的Spark App,互相不会有影响。

  1. DataInsight Notebook页面,单击右上角的使用Notebook_Notebook_Databricks数据洞察图标。
  2. Settings区域,单击Interpreter
    使用Notebook_Notebook_Databricks数据洞察
  3. spark区域,单击使用Notebook_Notebook_Databricks数据洞察图标,按截图设置以下参数。
    使用Notebook_Notebook_Databricks数据洞察
  4. 单击Save
  5. 在弹出框中单击OK

配置Interpreter

支持以下两种方式配置Interpreter:

  • 配置全局的Interpreter。
    1. DataInsight Notebook页面,单击右上角的使用Notebook_Notebook_Databricks数据洞察图标。
    2. Settings区域,单击Interpreter
    3. spark区域,单击使用Notebook_Notebook_Databricks数据洞察图标,修改相关的参数。
    4. 单击Save
    5. 在弹出框中单击OK
  • 配置单个Note的Interpreter。

    通过%spark.conf来对每个Note的Spark Interpreter进行定制化,但前提是把Interpreter设置成isolated per note。

    DataInsight Notebook页面的%spark.conf区域,可修改相关的参数。

    %spark.conf SPARK_HOME <PATH_TO_SPARK_HOME>  #set driver memory to 8g spark.driver.memory 8g  #set executor number to be 6 spark.executor.instances 6 #set executor memory 4g spark.executor.memory 4g

问题反馈

您在使用阿里云Databricks数据洞察过程中有任何疑问,欢迎用钉钉扫描下面的二维码加入钉钉群进行反馈。

使用Notebook_Notebook_Databricks数据洞察