应用场景
Tapdata 是新一代的实时数据平台,通过把企业核心数据实时集中到中央化数据平台的方式并通过 API 或者反向同步方式,为下游的交互式应用、微服务或交互式分析提供实时数据。
构建实时数据管道
传统的主数据管理采用T+1的方式从业务系统获取源数据,加工处理后形成企业的标准数据, 并通过导出方式输送到业务系统使用。这种方案的局限性在于数据更新较为滞后,而采用 CDC + Kafka + Flink 构建实时数据管道时,遇到 CDC 数据采集错误、Kafka 阻塞时,链路排查困难。
Tapdata 提供一站式实时数据同步体验,仅需简单几步即可构建完整的数据采集与流转的管道,优势如下:
- 支持丰富的数据源,可实现同/异构数据源间的数据同步。
- 支持基于事件触发的数据处理逻辑,多种数据检查方式,保障高可靠与低延迟。
- 支持通过强大的 UDF 功能实现去重、规则判断等主数据治理功能。
- 支持 API 服务低代码发布,可实现端到端的数据消费。
提取/转换/加载数据(ETL)
传统的方式是通过 Kettle、Informatica、Python 等工具处理并搬运至新业务系统数据库,此类 ETL 的方案通常链路繁杂、无法复用,且可能对源端性能影响较大。
Tapdata 的实时数据服务可以通过将数据做最后一次 ETL,同步到基于 MongoDB 的分布式数据平台,结合无代码 API,可以为众多下游业务直接在数据平台提供快速的数据 API 支撑,优势如下:
- 基于拖拉拽的新一代数据开发更加简便。
- 分布式部署能力可以提供更高的处理性能。
- 基于 JS 或者 Python 的 UDF 功能可以无限扩展处理能力。
- 支持通过自定义算子快速扩展平台的数据处理及加工能力。
数据库上云/跨云同步
从线下到云上、从云上到线下、跨云平台场景下,Tapdata 可提供数据的无缝迁移和同步。
提升查询性能
对于读多写少的场景,单个数据库可能无法承担全部的读压力,此时可将数据同步至另一个数据库中,将读请求分流至这些只读数据库中,横向扩展整体的读性能,分担主数据库的压力。
不仅如此,您还可以选择将数据同步到 Redis、MongoDB、ElasticSearch 等新一代 NoSQL 数据库,为您的系统提供高并发低延迟查询能力。
数据库灾备
为避免电力或网络中断等意外情况影响服务的持续性,您可以通过 Tapdata 将业务中心和灾备中心的数据实现持续同步,可提供异地数据复制、备份能力。
构建物化视图(宽表)
从大数据分析到数仓建设到数据看板,数据工程人员通常需要大量使用批处理任务来展现和分析的宽表或者视图,不仅耗费大量的资源,而且数据更新滞后。Tapdata 支持增量宽表的构建能力,以最小化的成本提供最新的数据。
实时指标计算
使用 Tapdata 的实时聚合计算能力,对来自日志、点击流或者数据库事件进行流式的统计计算,并得出不同的运营指标,如登录数、转化漏斗等。