手册简介
Apache samza是分布式流处理框架,本文Apache Samza框架进行介绍,通过此文档的阅读,您将会对Samza初步的认识,并且能够很好地使用Apache samza框架!
手册说明
Samza介绍
Samza是近日由LinkedIn开源的一项技术,它是一个分布式流处理框架,它是基于Kafka消息队列来实现类实时的流式数据处理的,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统,并使用资源管理器Apache Hadoop YARN实现容错处理、处理器隔离、安全性和资源管理。
如何实现
Samza作为一个分布式的消息队列系统,kafka已经实现了流式处理框架底层的许多核心基础架构,把消息串联流动起来就是Streaming了。但是要构建一个可用的流式数据处理框架,还是有许多事情要做。例如生产者和消费者进程的管理,作业调度和容错处理,辅助工具和监控管理手段,更友好方便的用户接口等等,本质上说,Samza是在消息队列系统上的更高层的抽象,是一种应用流式处理框架在消息队列系统上的一种应用模式的实现。
Samza特点
- 简单的API
- 管理状态
- 容错
- 耐久性
- 可扩展性
- 可插拔
- 处理器分离
Samza历史版本
- Samza0.7
- Samza0.8
- Samza0.9
- Samza1.0
- Samza1.1
- Samza1.2
- Samza1.3
- Samza1.4
学习本课程最好先学习:
相关网址
更新记录
-
Samza 结构 09-20 15:58
-
Samza API概述 08-23 15:13
-
Samza附录十一 Samza配置参考 08-23 15:08
-
Samza 与 Spark Streaming 08-23 10:10
-
Samza 与 Storm 08-23 09:48
-
Samza MUPD8 08-23 09:43
-
Samza 比较介绍 08-23 09:42
-
Samza概念 08-23 09:32
-
Samza 你好 08-23 09:29
-
Samza 下载 08-23 09:28