推薦答案
Spark是一種快速通用的分布(bu)式計算(suan)系統(tong),用于大規模(mo)數據(ju)處理。它最初由加(jia)州大學伯克利分校的AMPLab開(kai)發(fa),作為(wei)Hadoop的一個子項目,并于2010年(nian)開(kai)源。
Spark提供了高(gao)級API,包括Java、Scala、Python和(he)R,以(yi)及SQL查詢、流處(chu)理和(he)圖形處(chu)理。它支(zhi)持(chi)各種數據源,包括Hadoop Distributed File System(HDFS)、Apache Cassandra、Apache HBase等。火花還(huan)
Spark的(de)主(zhu)要(yao)優點是(shi)其速度(du)和(he)可(ke)擴展性(xing)。與傳統的(de)MapReduce模型(xing)相(xiang)比,Spark在內存中保(bao)留(liu)數據,從(cong)而避免了(le)磁盤I / O的(de)開銷。Spark還支持基于(yu)內存的(de)迭代計算(suan)模型(xing),可(ke)以在多個節點之間進行(xing)數據共享和(he)通信,從(cong)而大大提高了(le)計算(suan)速度(du)和(he)吞(tun)吐量(liang)。
由于其靈活性(xing)和高性(xing)能,Spark被廣泛用于各種大規模數據處理(li)場景(jing),包括機器學習、數據挖掘、圖形(xing)處理(li)、日志分析等。
其他答案
-
Spark是(shi)一(yi)種通用的(de)大(da)數(shu)據(ju)計(ji)算(suan)(suan)框架(jia),和傳統的(de)大(da)數(shu)據(ju)技(ji)術MapReduce有本質區(qu)別(bie)。前者(zhe)是(shi)基于內存并(bing)行計(ji)算(suan)(suan)的(de)框架(jia),而(er)mapreduce側重(zhong)磁盤計(ji)算(suan)(suan)。Spark是(shi)加(jia)州(zhou)大(da)學伯克利分(fen)校(xiao)AMP實驗室開發(fa)的(de)通用內存并(bing)行計(ji)算(suan)(suan)框架(jia),用于構建大(da)型的(de)、低(di)延遲(chi)的(de)數(shu)據(ju)分(fen)析應(ying)用程序。
-
Spark同(tong)樣支持離(li)線計(ji)算(suan)和實時(shi)計(ji)算(suan)兩種模式。Spark離(li)線計(ji)算(suan)速度(du)要比Mapreduce快(kuai)10-100倍。而實時(shi)計(ji)算(suan)方面,則依賴于SparkStreaming的批處理能(neng)力,吞吐量大。不過相(xiang)比Storm,SparkStreaming并不能(neng)做到真正(zheng)的實時(shi)。

熱(re)問(wen)標簽 更多>>
大家都在問 更多>>
java合(he)并(bing)(bing)兩個數組(zu)并(bing)(bing)升序排列怎(zen)么...
java合并兩(liang)個數組并排序怎(zen)么操(cao)作
java多行字符串(chuan)輸(shu)入怎么操(cao)作