Glutencon2025 Chinese

06 Nov 2025 -

🎉 GlutenCon 2025 首届大会正式启动！

欢迎来到 Apache Gluten 社区的年度盛会 —— GlutenCon 2025！

📅 日期：2025 年 12 月 6 日（星期六）
🕘 时间：09:00 - 18:00
📍 地点：北京 · 字节跳动总部（北京市海淀区北三环西路甲18号院大钟寺广场1号楼）
🎯 主办方：Apache Gluten 社区 & 字节跳动

🧭 活动简介

Apache Gluten 是一个面向数据处理加速的开源项目，致力于通过原生向量化执行、后端解耦架构和现代硬件优化，提升 Spark 等计算引擎的性能表现。

本次大会将汇聚来自社区、企业和学术界的技术专家，围绕 Apache Gluten 项目进展、执行优化实践、多后端集成、开源治理 等话题展开深入交流。

🌟 大会亮点

Apache Gluten 项目进展
字节跳动现场发布重要消息
技术分享 + 社区交流 + 实战案例
午餐、咖啡、纪念品全包（免费票）

📝 报名

🎟 免费票：包含午餐、茶歇、纪念品
📣 报名方式：https://bytedance.us.larkoffice.com/share/base/form/shrusjMDU22LxnSXOYwT757eAxc

📣 加入社群：请扫描二维码加入群聊以便交流和接受最新资讯

🗣 演讲嘉宾

来自前Intel的Apache Gluten 的创始成员团队
来自字节跳动， BIGO，腾讯，微软，小红书，华为，小米等公司的Spark 团队

📚 议题安排

时间	内容
08:00 - 9:20	签到

9:20 - 9:30	欢迎辞
	杨宾伟 IBM 陈韦廷微软欢迎词
9:30 - 10:00	keynote： Bolt: 面向多引擎的生产级异构加速库
	Frank Hu 字节跳动字节跳动引擎加速团队负责人字节数据中台对面“多数据源，多引擎，多硬件”的挑战，推出Bolt加速库，在用户无感的情况下，不仅提升了Spark/Flink/Presto/ElasticSearch等引擎的性能和硬件资源利用率，而且降低了维护成本和数据不一致的情况。在内部大规模落地后，希望通过Bolt开源，进一步吸纳社区意见，证明异构统一运行时的可行性
10:00 - 10:20	keynote：Apache Gluten 在IBM的现状和发展
	Ethan Zhang IBM IBM 项目总监，开源数据湖引擎负责人介绍Apache Gluten在IBM团队一年以来的进展，目前的工作，2026年的规划以及长久发展规划
10:30 - 11:00	Apache Gluten社区的现在和未来
	陈韦廷微软微软首席软件工程经理，Apache Gluten PMC 成员，长期积极参与开源社区并协助客户落地 Gluten 解决方案，推动高性能数据处理与技术创新，致力于帮助工程团队与社区共同成长。 Apache Gluten 是一个专注于提升 Spark SQL 在多种计算引擎上性能的开源社区项目，旨在通过原生集成与优化，让大规模数据处理更快、更高效。本次分享将带来 Gluten 社区的最新现状，包括项目运营策略、目前已支持的功能，以及未来的技术路线图。我们将深入探讨近期的关键进展、面临的挑战与解决方案，让参与者能够全面了解 Gluten 的发展方向，并思考如何在自己的工作场景中加以应用。
11:00 - 11:30	Apache Gluten在字节跳动的落地实践
	杨嘉义字节跳动字节跳动数据引擎计算团队负责人字节 Spark 集群规模庞大，总体成本较高。本次分享将介绍字节 Spark 团队基于 Apache Gluten 与加速引擎 Bolt 的生产实践：包括应用场景的workload 特点与性能瓶颈、落地过程中面临的挑战，并详细介绍整套技术方案。该方案已实现大规模落地应用，显著提升了 Spark 计算性能，大幅降低了集群整体成本。
11:30 - 12:00	GPU加速在Gluten中的应用
	靳成成 IBM IBM高级软件研发工程师，Gluten PPMC, Velox maintainer, focus on shuffle, GPU optimization，datalake iceberg native implementation. Gluten + Velox GPU优化，在Velox中实现其算子，调用rapids libcudf API，cudf封装了CUDA。根据plan特征和代价判断其是否调度到GPU, 在用户实际场景，table scan往往取决于远程存储的吞吐量，难以获得较大的性能提升，而第二个计算密集型的stage可以取得极大的性能提升，在速度和成本上均有优势，以TPCDS Q95 SF100为例，相比cpu native执行，第2个stage将时间从70s降低到13s，提升了5倍。本次分享将详细讲述当前进度，实现方案和未来蓝图。
12:00 - 1:00	午饭

1:00 - 1:30	华为鲲鹏与Bolt基于Arm架构合作的规划与进展
	冯骁华为冯骁现任华为公司大数据系统研究专家，专注于基于鲲鹏平台的大数据系统性能调优与创新研究。在加入华为之前，他已在大规模分布式系统领域深耕十余年，曾参与阿里巴巴大数据计算平台MaxCompute的核心研发工作。此外，在字节跳动任职期间，他还主导或参与了多个大数据分析系统的研发与优化项目。华为鲲鹏自2020年起投入基于Arm架构的Native大数据引擎研发，在ARM平台性能优化方面积累了扎实经验。我们期望基于鲲鹏在大数据引擎中的原子能力与优化技术，与字节跳动开源的Bolt引擎展开深度合作，共同增强Bolt在ARM生态下的功能与性能表现。
1:30 - 2:00	Gluten 在腾讯云上的规模化推广与挑战</b>
	栾学东腾讯腾讯云大数据基础产品中心专家工程师，专注于分布式计算引擎系统研发 Gluten + Velox 作为新一代向量化执行引擎，是突破 Spark 性能瓶颈、实现云上降本增效的核心技术路径。本演讲将聚焦于我们在腾讯云大规模落地 Gluten 过程中面临的核心挑战——兼容性与稳定性, 并深入剖析我们为此构建的系统性解决方案与生产级最佳实践, 助力社区高效、平稳地应用 Gluten
2:00 - 2:30	Gluten在BIGO的开发和应用
	张志彪 BIGO BIGO大数据团队负责人, Gluten PPMC. 在 BIGO，支持涵盖直播、社交和游戏平台的数据分析，需要具备高性能、低成本且可大规模扩展的计算能力。为了克服原生 Apache Spark 的局限性——尤其是 JVM 开销和 CPU 利用率不佳的问题，我们率先采用了 Gluten 这一开源查询加速层，并以 ClickHouse 作为原生后端执行引擎。在本次演讲中，我们将介绍 BIGO 从初步探索到在生产环境全面部署 Gluten + ClickHouse 的历程。通过将 SQL 执行从 Spark 的基于 JVM 的运行时卸载到 ClickHouse 的矢量化列式引擎，我们实现了：复杂分析工作负载的作业完成时间提升 30% 计算资源消耗（CPU 和内存）减少 50% 与现有 Spark SQL 接口完全兼容——实现无缝迁移，无需重写管道我们将分享关键技术洞察，包括对谓词下推、模式映射和容错机制的增强，以及构建混合执行架构过程中获得的经验教训。最后，我们将讨论这一创新如何融入 BIGO 更广泛的开源协作和下一代数据基础设施战略。
2:30 - 3:00	Apache Gluten中的内存管理机制
	张宏泽 IBM IBM 高级软件研发工程师, Apache Gluten PPMC member, Apache Calcite committer. Currently working on Gluten's memory management and Gluten + Delta Lake integration. 主要将围绕 Apache Gluten 内存管理系统的整体架构设计展开介绍，深入分析其在高性能计算场景下对内存调度、数据组织方式以及与执行引擎交互模式所做的关键优化。同时，还会重点探讨堆内 / 堆外内存共享模型在实际工程实践中所引入的全新挑战，以及内存生命周期管理、零拷贝访问机制等方面的问题，并分享对应的设计思路、解决方案和落地经验。
3:00 - 3:30	间歇

3:30 - 4:00	小红书的Native Engine技术进展及生产实践
	魏秀利小红书小红书 Native Engine 团队技术负责人基于 Apache Gluten 与 Velox，小红书自研 Native Engine 在 Spark 之上构建了一套高性能计算引擎，通过向量化执行、执行计划优化与 IO 加速，大幅提升离线与近实时计算性能。在小红书的实际业务场景中，Native Engine 相比原生 Spark 实现了 1.45 倍性能提升，并帮助 AI 平台、搜索推荐、应用算法、离线数仓等核心业务整体计算成本降低 30% 以上。本分享将系统介绍小红书的Native Engine技术进展、关键优化实践及在大规模业务落地过程中的经验与挑战。
4:00 - 4:30	小米利用 Gluten 和 Velox 加速 Spark 的工程实践
	梁咏元小米小米计算引擎研发工程师，专注于Spark生态组件的研发与优化，包括 Spark、Gluten + Velox 和Celeborn。目前聚焦于增量计算技术，致力于提升数据处理效率。本分享主要讲解 Gluten 和 Velox 技术栈在小米在生产环境中的实践经验，包括以下主要内容：小米选择采用 Gluten + Velox 的决策依据；生产过程中遇到的关键挑战及我们的解决方案；在性能和效率方面取得的可量化收益；未来的计划。
4:30 - 5:00	Spark增量计算在京东的的探索与实践
	吴国晓京东京东 Spark计算引擎 Tech Lead 在大数据计算中，数据规模持续膨胀与业务时效要求不断提升，使传统大数据计算在成本与效率上日益面临压力，无法满足业务需求。为应对这一挑战，我们基于 Apache Spark 构建了一套增量计算框架。本次分享将首先解析增量计算的必要性，并介绍京东自研的落地实践。将以流量地图场景为例，阐述框架的关键研发工作，包括：Agg 算子执行计划改写、增量函数与状态支持、增量数据读写优化、动态表支持与全流程设计。最后也展望下未来的演进方向。
5:00 - 5:30	结束/致谢

🙌 加入我们

无论你是开发者、架构师、数据平台工程师，还是开源爱好者，GlutenCon 都欢迎你的参与！

让我们一起打造一个 开放、专业、有温度 的技术盛会！

📌 关注 Apache Gluten GitHub 获取最新动态
📧 有任何问题欢迎联系：dev@gluten.apache.org