Samza官方文档


阅读(133.9k) 收藏 (0)

手册简介

Apache samza是分布式流处理框架,本文Apache Samza框架进行介绍,通过此文档的阅读,您将会对Samza初步的认识,并且能够很好地使用Apache samza框架!

手册说明

timg(1)

Samza介绍

Samza是近日由LinkedIn开源的一项技术,它是一个分布式流处理框架,它是基于Kafka消息队列来实现类实时的流式数据处理的,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统,并使用资源管理器Apache Hadoop YARN实现容错处理、处理器隔离、安全性和资源管理。

如何实现

Samza作为一个分布式的消息队列系统,kafka已经实现了流式处理框架底层的许多核心基础架构,把消息串联流动起来就是Streaming了。但是要构建一个可用的流式数据处理框架,还是有许多事情要做。例如生产者和消费者进程的管理,作业调度和容错处理,辅助工具和监控管理手段,更友好方便的用户接口等等,本质上说,Samza是在消息队列系统上的更高层的抽象,是一种应用流式处理框架在消息队列系统上的一种应用模式的实现。

Samza特点

  • 简单的API
  • 管理状态
  • 容错
  • 耐久性
  • 可扩展性
  • 可插拔
  • 处理器分离

Samza历史版本

  • Samza0.7
  • Samza0.8
  • Samza0.9
  • Samza1.0    
  • Samza1.1
  • Samza1.2
  • Samza1.3
  • Samza1.4

学习本课程最好先学习:

《kafka教程》

Hadoop教程》

Storm

相关网址

官网:http://samza.apache.org/


更新记录

在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号