資料介紹
軟件簡介
seatunnel 是一個非常易用的支持海量數據實時同步的超高性能分布式數據集成平臺,每天可以穩定高效同步數百億數據,已在近百家公司生產上使用。
為什么我們需要 seatunnel
seatunnel 盡所能為您解決海量數據同步中可能遇到的問題:
- 數據丟失與重復
- 任務堆積與延遲
- 吞吐量低
- 應用到生產環境周期長
- 缺少應用運行狀態監控
seatunnel 使用場景
- 海量數據同步
- 海量數據集成
- 海量數據的 ETL
- 海量數據聚合
- 多源數據處理
seatunnel 的特性
- 簡單易用,靈活配置,無需開發
- 實時流式處理
- 離線多源數據分析
- 高性能、海量數據處理能力
- 模塊化和插件化,易于擴展
- 支持利用 SQL 做數據處理和聚合
- 支持 Spark Structured Streaming
- 支持 Spark 2.x
seatunnel 的工作流程
Input[數據源輸入] -> Filter[數據處理] -> Output[結果輸出]
多個 Filter 構建了數據處理的 Pipeline,滿足各種各樣的數據處理需求,如果您熟悉 SQL,也可以直接通過 SQL 構建數據處理的 Pipeline,簡單高效。目前 seatunnel 支持的Filter列表, 仍然在不斷擴充中。您也可以開發自己的數據處理插件,整個系統是易于擴展的。
seatunnel 支持的插件
- Input plugin
Fake, File, Hdfs, Kafka, S3, Socket, 自行開發的 Input plugin
- Filter plugin
Add, Checksum, Convert, Date, Drop, Grok, Json, Kv, Lowercase, Remove, Rename, Repartition, Replace, Sample, Split, Sql, Table, Truncate, Uppercase, Uuid, 自行開發的Filter plugin
- Output plugin
Elasticsearch, File, Hdfs, Jdbc, Kafka, Mysql, S3, Stdout, 自行開發的 Output plugin
環境依賴
-
java 運行環境,java >= 8
-
如果您要在集群環境中運行 seatunnel,那么需要以下 Spark 集群環境的任意一種:
- Spark on Yarn
- Spark Standalone
如果您的數據量較小或者只是做功能驗證,也可以僅使用?local
?模式啟動,無需集群環境,seatunnel 支持單機運行。 注: seatunnel 2.0 支持 Spark 和 Flink 上運行
下載
可以直接運行的軟件包下載地址:https://github.com/InterestingLab/seatunnel/releases
快速入門
快速入門:https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/quick-start
關于 seatunnel 的詳細文檔
生產應用案例
-
微博, 增值業務部數據平臺 微博某業務有數百個實時流式計算任務使用內部定制版 seatunnel,以及其子項目Guardian做 seatunnel On Yarn 的任務監控。
-
新浪, 大數據運維分析平臺 新浪運維數據分析平臺使用 seatunnel 為新浪新聞,CDN 等服務做運維大數據的實時和離線分析,并寫入 Clickhouse。
-
搜狗,搜狗奇點系統 搜狗奇點系統使用 seatunnel 作為 ETL 工具, 幫助建立實時數倉體系
-
趣頭條,趣頭條數據中心 趣頭條數據中心,使用 seatunnel 支撐 mysql to hive 的離線 ETL 任務、實時 hive to clickhouse 的 backfill 技術支撐,很好的 cover 離線、實時大部分任務場景。
-
永輝超市子公司-永輝云創,會員電商數據分析平臺 seatunnel 為永輝云創旗下新零售品牌永輝生活提供電商用戶行為數據實時流式與離線 SQL 計算。
-
水滴籌, 數據平臺 水滴籌在 Yarn 上使用 seatunnel 做實時流式以及定時的離線批處理,每天處理 3~4T 的數據量,最終將數據寫入 Clickhouse。
更多案例參見:?https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/case_study/
貢獻觀點和代碼
提交問題和建議:https://github.com/InterestingLab/seatunnel/issues
貢獻代碼:https://github.com/InterestingLab/seatunnel/pulls
開發者
感謝所有開發者
- 基于DSP的航空發動機分布式總線設計方案 14次下載
- 虛擬化模型驅動的分布式數據湖架構設計 5次下載
- Ceph分布式存儲系統性能優化研究綜述 5次下載
- 基于分布式數據Cache的實時動態遷移機制 20次下載
- 區塊鏈中的分布式數據庫管理系統相關研究 8次下載
- 基于分布式文件系統元數據操作優化 0次下載
- 一種面向高性能計算的分布式對象存儲系統 0次下載
- 分布式數據流上的高性能分發策略 0次下載
- 基于高清視頻數據的高性能分布式存儲系統 1次下載
- 分布式云管理協同平臺研究 6次下載
- Windows平臺的分布式實時仿真系統 10次下載
- 基于Windows平臺的分布式實時仿真系統
- 無線分布式集成監測網絡系統及應用
- 分布式制造資源集成系統軟件平臺研究
- 無線分布式集成監測網絡系統及應用
- Java手寫分布式鎖的實現 612次閱讀
- tldb提供分布式鎖使用方法 923次閱讀
- 數據庫如何實現分布式鎖 5128次閱讀
- 深入理解redis分布式鎖 988次閱讀
- Apache Pulsar的特性 738次閱讀
- 分布式存儲架構面臨的挑戰 1513次閱讀
- 如何使用分布式存儲系統促進AI模型訓練 608次閱讀
- 鴻蒙分布式相機“踩坑”分享 1911次閱讀
- 分布式光纖傳感器原理_分布式光纖傳感器的應用 8837次閱讀
- 分布式控制系統的介紹 5532次閱讀
- 分布式工業物聯網云平臺是怎樣的 1743次閱讀
- Redis 分布式鎖的正確實現方式 3615次閱讀
- Apache Ignite上的TensorFlow!分布式內存數據源 3750次閱讀
- 淺談分布式塊存儲的元數據服務設計 4951次閱讀
- 深度解讀分布式存儲技術之分布式剪枝系統 1861次閱讀
下載排行
本周
- 1Python從入門到精通背記手冊
- 18.77 MB | 14次下載 | 1 積分
- 2SX1308應用電路圖與SX1308升壓電路圖
- 0.18 MB | 8次下載 | 1 積分
- 3PC212線性恒流LED驅動芯片中文手冊
- 1.08 MB | 3次下載 | 免費
- 4單電源板1875電路圖
- 0.06 MB | 3次下載 | 免費
- 5aP89W24 USB語音芯片燒錄器中文手冊
- 1.58 MB | 2次下載 | 免費
- 6ACDC茂睿芯MK2687寬供電范圍高效率反激 PWM 控制器
- 2.28 MB | 1次下載 | 免費
- 7直流無刷電機SPWM正弦波控制原理(可下載)
- 619.62 KB | 1次下載 | 免費
- 8HT7712 4.5V~18V輸入,2.5A同步降壓變換器中文手冊
- 1.27 MB | 1次下載 | 免費
本月
- 1DeepSeek從入門到精通
- 5.07 MB | 50次下載 | 免費
- 2第十一屆 藍橋杯 單片機設計與開發項目 省賽 程序設計試題及源碼
- 90.88KB | 23次下載 | 3 積分
- 3NR-E531TX-XN冰箱說明書
- 8.64 MB | 23次下載 | 免費
- 4Python從入門到精通背記手冊
- 18.77 MB | 14次下載 | 1 積分
- 5STM32單片機無人機設計
- 8.81 MB | 11次下載 | 免費
- 6華為硬件工程師手冊目前最全版本
- 1.02 MB | 10次下載 | 2 積分
- 7SX1308應用電路圖與SX1308升壓電路圖
- 0.18 MB | 8次下載 | 1 積分
- 8MAX9295電路圖
- 0.14 MB | 6次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935126次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
- 1.48MB | 420063次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費下載
- 340992 | 191377次下載 | 10 積分
- 5十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183336次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81584次下載 | 10 積分
- 7Keil工具MDK-Arm免費下載
- 0.02 MB | 73814次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評論