Spark SQL 数据源
2018-12-20 17:32 更新
DataFrame接口允许不同的DataSource在Spark SQL上工作。 它是一个临时表,可以作为正常的RDD操作。 将DataFrame注册为表允许您对其数据运行SQL查询。
在本章中,我们将描述使用不同Spark DataSource加载和保存数据的一般方法。 此后,我们将详细讨论可用于内置数据源的特定选项。
SparkSQL中提供了不同类型的数据源,下面列出了其中的一些数据源:
在本章中,我们将描述使用不同Spark DataSource加载和保存数据的一般方法。 此后,我们将详细讨论可用于内置数据源的特定选项。
SparkSQL中提供了不同类型的数据源,下面列出了其中的一些数据源:
编号 | 数据源 |
---|---|
1 | JSON数据集 Spark SQL可以自动捕获JSON数据集的模式,并将其作为DataFrame加载。
|
2 | 蜂巢表 Hive与Spark库捆绑为HiveContext,它继承自SQLContext。
|
3 | Parquet文件 Parquet是一种柱状格式,由许多数据处理系统支持。 |
以上内容是否对您有帮助:
更多建议: