Avro 格式是在數據湖登陸區存儲數據的理想選擇,因為:
1.落地區的數據通常被整體讀取,以供下游系統進一步處理(這種情況下基于行的格式效率更高)。
下游系統可以輕松地從 Avro 文件中檢索表模式(無需將模式單獨存儲在外部元存儲中)。
任何源模式更改都很容易處理(模式演變)。
Avro也可以作為RPC調用的一種編碼格式,同XML、JSON、Hessian, Thrift, Protocol Buffers等相同作用,用于API技術體系中。
初步使用過程,可以參考《Avro序列化和RPC實現》
詳細了解Avro,訪問其官網
簡單了解Avro,可參考 《Avro從入門到入土》,《Avro簡介及使用入門》,《Avro 之Java語言入門案例》
Avro與大數據相關,可參考《Avro在Spark中的應用入門》,《Hadoop存儲格式》