首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >离线开发平台-HdfsFile同步Doris

离线开发平台-HdfsFile同步Doris

原创
作者头像
奥零数据科技
修改2025-11-12 09:21:17
修改2025-11-12 09:21:17
550
举报

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

离线开发平台基于开源项目DolphinScheduler建设

DolphinScheduler 是一个功能强大的分布式任务调度平台,支持复杂工作流编排、任务监控与告警,适用于离线数据处理场景。

1. 环境准备

  • HDFS
  • Doris
  • seatunnel

1.1 SeatunneI

  • 下载地址:https://seatunnel.apache.org/download
  • 版本:2.3.8
  • 下载完成后上传到服务器并解压

2. 数据准备

2.1 hdfs file

  • 编辑 json 文件
  • 上传到 HDFS,如下图预览

2.2 Doris数据库表

3. 离线开发平台页面

  • 进入离线开发平台
3.1 配置环境
  • 点击安全中心 - 环境管理
  • 编辑 SEATUNNEL_HOME,如果没有则创建
  • 将服务器 JDK 环境和 SEATUNNEL 路径配置进去

3.2 新建项目配置

  • 点击项目管理 - 创建项目

3.3 进入项目管理

  • 点击项目名称即可进入项目管理界面
3.4 创建工作流

  • 选择数据集成-seatunneI,拖拽到工作区中
  • 配置SeatunneI
  • 脚本内容
  • 用户根据实际需求修改hdfs配置,schema对应字段,以及Doris配置信息
  • 编辑完成后点击保存
  • 配置基本信息点击确定

3.5 上线工作流

  • 我们手动测试,不需要配置定时任务

3.6 启动工作流

3.7 查看工作流实例

3.8 查看任务示例

  • 可以看到此时任务执行完成

3.9 查看Doris数据库

4. QA

4.1 HdfsFiIe配置

参考链接:https://seatunnel.incubator.apache.org/zh-CN/docs/2.3.12/connector-v2/source/HdfsFile

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 环境准备
  • 2. 数据准备
  • 3. 离线开发平台页面
  • 4. QA
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档