数据处理流水线

数据处理流水线(Data Processing Pipeline)与UNIX管道类似,程序读取输入、处理、最后输出新的数据,多个程序串联起来执行就构成了流水线。串联程序的数量被称为流水线的深度(depth)。

流水线模式的挑战

  • 工作分发不均
  • 区分批处理调度和生产系统调度
  • 惊群效应
  • 摩尔负载模式,即多个流水线同时启动且同时消耗某个共享资源

Google workflow

  • 领头人-追随者分布式系统模式
  • 流式系统模式(system prevalence)
  • MVC模式:模型是主任务,视图不断向主任务更新系统状态,而控制器则用来支持辅助活动,比如伸缩、快照以及工作周期的管理
  • 正确性保障:配置文件、租约和唯一文件名
  • Spanner、Chubby
Feisky wechat
微信公众号订阅