大數(shù)據(jù)分析的應用領域和發(fā)展前景
隨著互聯(lián)網(wǎng)的不斷發(fā)展,大數(shù)據(jù)分析與應用在各個領域的表現(xiàn)都是有目共睹的。今天,我們就通過案例分析來簡單來了解和學習一下,大數(shù)據(jù)分析的應用領域和前景。
對于很多需要提供24小時不間斷服務的網(wǎng)站來說,對數(shù)據(jù)庫系統(tǒng)進行升級和擴展是非常痛苦的事情,往往需要停機維護和數(shù)據(jù)遷移,除了這些,大數(shù)據(jù)平臺對傳統(tǒng)的關系型數(shù)據(jù)庫提出了更多的挑戰(zhàn),包括:高性能的事務管理性要求、讀寫實時性要求、高可用性要求。因此,在大數(shù)據(jù)平臺的建設中,關系型數(shù)據(jù)庫的很多特性失去了用武之地,非關系型數(shù)據(jù)庫(NoSQL)成為大數(shù)據(jù)平臺的標配。
在本次調(diào)研中,我們列出了目前相對常見的幾類非關系型數(shù)據(jù)庫產(chǎn)品,希望對幾款產(chǎn)品的市場接受度加以了解:
32%的受訪者應用了MangoDB數(shù)據(jù)庫,使用為廣泛:Mongo大的特點是支持的查詢語言非常強大,語法類似于面向對象的查詢語言,可以實現(xiàn)類似關系數(shù)據(jù)庫單表查詢的大部分功能,而且還支持對數(shù)據(jù)建立索引。MongoDB主要解決的是海量數(shù)據(jù)的訪問效率問題,當數(shù)據(jù)量達到50GB以上的時候,Mongo的數(shù)據(jù)庫訪問速度是MySQL的10倍以上,這也是MongoDB廣受青睞的主要原因。
其次為Hbase、Hive、Redis等幾類,均在22%左右:Hive與HBase都是基于Hadoop平臺的數(shù)據(jù)倉庫工具,其優(yōu)點是學習成本低,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。
Spark緊隨其后,占比17%:Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是——Job中間輸出結果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。
此外,在其他選項的答案中也出現(xiàn)了DB2、阿里大數(shù)據(jù)云等產(chǎn)品。