HBase和Spark
2018-08-22 15:48 更新
HBase和Spark
Apache Spark是一个软件框架,用于以分布式方式处理内存中的数据,并在许多用例中替换MapReduce。
Spark本身超出了本文档的范围,有关Spark项目和子项目的更多信息,请参阅Spark站点。本文档将重点介绍Spark和HBase之间的4个主要交互点。这些相互作用点是:
- Basic Spark
能够在Spark DAG中的任何位置建立HBase连接。
- Spark Streaming
能够在Spark Streaming应用程序中的任何位置拥有HBase连接。
- Spark Streaming
能够直接写入HBase HFiles,以便批量插入HBase
- SparkSQL / DataFrames
能够编写SparkSQL,它使用HBase中表示的表。
本章的剩余部分将介绍所有这些交互点的示例。
以上内容是否对您有帮助:
更多建议: