轻易云数据集成平台的工作流程就像一个精密的时钟机制,主要包括数据的抽取、清洗、转换和转发四个核心环节。其中,数据抽取这一步骤,可以想象成一个定时启动的引擎,主要通过源平台的定时调度请求来实现。
想象一下,我们有一个由Linux的crontab
任务计划者支持的小队,这个小队由20位成员组成,名字从dispatcher-0到dispatcher-19。这些成员就像精心分配的工人,负责在数据集成的大工厂中,按照计划表,每分钟检查并执行他们的任务。为了保证效率和避免拥堵,每个成员负责的任务可以在数据集成方案的详细配置页面中进行设置。
当时间到了,每位成员都会执行一个特定的命令序列,就像进入自己的工作站,准备开始一天的工作。他们会先过滤掉那些不需要定时激活的异步方案,比如那些由特定事件或外部系统触发的方案。然后,为需要定时执行的方案准备好执行命令,这些命令不会立即执行,而是等待crontab
的指令,像是被放入了一个待命队列。
对于有特殊需求的方案,比如需要补漏的情况,还会准备一个特别的命令。这就像是给机器设置了一个“补漏”模式,确保在遇到特殊情况时,能够额外关注并处理。
随着指令的执行,任务就会被放入AsynDispatcher队列池中,排队等待处理。想象一下,这个队列池就像是一个忙碌的邮局,每个任务都是一个包裹,等待被分配到正确的处理窗口。
在处理这些任务时,系统会再次确认任务的启动状态和是否满足执行条件,比如检查是否有前置任务正在执行。确认无误后,就会执行具体的调度工作,加载对应的源平台适配器,就像是选择了正确的工具来完成任务。
接下来,就是适配器的表演时间了。适配器会记录开始和结束的日志,生成任务请求参数,并将新任务排队等待执行。这个过程中,还会涉及到数据的拆分、重建模,以及如何根据元数据配置生成请求参数等细节,这些都是工厂流水线上关键的环节。
在异步队列池中,每个任务都会被仔细检查,确认是否可以执行。一旦开始执行,适配器就会连接源平台,发送请求,并处理返回的数据。这个过程中,还会有脚本加工厂的加持,对任务执行后的数据进行进一步加工和处理。
总而言之,轻易云数据集成平台的源平台调度者生命周期,就像是一个高效运转的工厂,通过精细的计划和分工,确保数据从抽取到转发的每一个环节都能顺利执行,就像是确保每一个部件都能准时到达正确的工作站,完成其应有的任务。