Kafka 集群在马蜂窝大数据平台的优化与应用扩展

发布时间：2020-04-03 03:32:12 所属栏目：动态来源：站长网

导读：Kafka 是当下热门的消息队列中间件，它可以实时地处理海量数据，具备高吞吐、低延时等特性及可靠的消息异步传递机制，可以很好地解决不同系统间数据的交流和传递问题。 Kafka 在马蜂窝也有非常广泛的应用，为很多核心的业务提供支撑。本文将围绕 Kafka 在

实时订阅平台可以为消费组提供任意位点的重置，支持对实时数据按时间、位点等多种方式的数据重播, 并提供对 Kappa 架构场景的支持，来解决以上痛点。

(5)主题管理

为什么提供主题管理？举一些很简单的例子，比如当我们想让一个用户在集群上创建他自己的 Kafka Topic，这时显然是不希望让他直接到一个节点上操作的。因此刚才所讲的服务，不管是对用户来讲，还是管理员来讲，我们都需要有一个界面操作它，因为不可能所有人都通过 SSH 去连服务器。

因此需要一个提供管理功能的服务，创建统一的入口并引入主题管理的服务，包括主题的创建、资源隔离指定、主题元数据管理等。

(6)数据分流

在之前的架构中, 使用方消费 Kafka 数据的粒度都是每个 Kafka Topic 保存 LogSource 的全量数据，但在使用中很多消费方只需要消费各 LogSource 的部分数据，可能也就是某一个应用下几个埋点事件的数据。如果需要下游应用自己写过滤规则，肯定存在资源的浪费及使用便捷性的问题；另外还有一部分场景是需要多个数据源 Merge 在一起来使用的。

基于上面的两种情况, 我人实现了按业务方需求拆分、合并并定制化 Topic 支持跨数据源的数据合并及 appcode 和 event code 的任意组个条件的过滤规则。

Part.3

后续计划

解决数据重复问题。为了解决目前平台实时流处理中因故障恢复等因素导致数据重复的问题，我们正在尝试用 Kafka 的事务机制结合 Flink 的两段提交协议实现端到端的仅一次语义。目前已经在平台上小范围试用, 如果通过测试，将会在生产环境下推广。Consumer 限流。在一写多读场景中, 如果某一个 Consumer 操作大量读磁盘, 会影响 Produce 级其他消费者操作的延迟。l因此，通过 Kafka Quota 机制对 Consume 限流及支持动态调整阈值也是我们后续的方向场景扩展。基于 Kafka 扩展 SDK、HTTP 等多种消息订阅及生产方式，满足不同语言环境及场景的使用需求。

以上就是关于 Kafka 在马蜂窝大数据平台应用实践的分享，如果大家有什么建议或者问题，欢迎在马蜂窝技术公众号后台留言。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

比亚迪成弟弟！交付时	不喝水最长能活7个月！
工具箱中爱马仕！小米	小米有品众筹水上动力