Avro 格式是在數(shù)據(jù)湖登陸區(qū)存儲數(shù)據(jù)的理想選擇,因為:
1.落地區(qū)的數(shù)據(jù)通常被整體讀取,以供下游系統(tǒng)進(jìn)一步處理(這種情況下基于行的格式效率更高)。
下游系統(tǒng)可以輕松地從 Avro 文件中檢索表模式(無需將模式單獨存儲在外部元存儲中)。
任何源模式更改都很容易處理(模式演變)。
Avro也可以作為RPC調(diào)用的一種編碼格式,同XML、JSON、Hessian, Thrift, Protocol Buffers等相同作用,用于API技術(shù)體系中。
初步使用過程,可以參考《Avro序列化和RPC實現(xiàn)》
詳細(xì)了解Avro,訪問其官網(wǎng)
簡單了解Avro,可參考 《Avro從入門到入土》,《Avro簡介及使用入門》,《Avro 之Java語言入門案例》
Avro與大數(shù)據(jù)相關(guān),可參考《Avro在Spark中的應(yīng)用入門》,《Hadoop存儲格式》