在Spark中,假設(shè)lines是一個(gè)DStream對(duì)象,filter語句可以過濾掉80%的數(shù)據(jù),針對(duì)以下兩個(gè)語句說法正確的是:()
X:lines.filter(...).groupByKey(...)
Y:lines.groupByKey(...).filter(...)
A.X比Y的性能更高
B.X比Y的性能更低
C.X和Y和性能一樣
D.無法確性X和丫的性能差異
您可能感興趣的試卷
你可能感興趣的試題
A.分桶表,按照天分桶
B.分區(qū)表,按天分區(qū)
C.傾斜表,傾斜字段選擇日期,傾斜值隨機(jī)
D.分區(qū)+分桶表,按照時(shí)間分區(qū),每個(gè)分區(qū)2560個(gè)桶
A.HDfS
B.HBase
C.Kafka
D.Redis
A.HBase
B.Hive
C.Spark
D.Redis
A.Versions
B.TTL
C.Coprocessor
D.Compression
最新試題
Fiume支持實(shí)時(shí)采集數(shù)據(jù)的source類型是哪項(xiàng)?()
Fusionlnsight HD中,Streaming打包工具用于將業(yè)務(wù)代碼jar包和其他所依賴的jar包等,打包成一個(gè)完整的Streaming應(yīng)用的jar包。()
Fusionlnsight HD中,一個(gè)部署在Tomcat上的應(yīng)用,需訪問HBase服務(wù),這種場(chǎng)景下推薦使用機(jī)機(jī)賬號(hào)。()
Oozie的workflow.xml文件是工作流配置文件。()
由于Spark是基于內(nèi)存的計(jì)算引擎,因此,一個(gè)Spark應(yīng)用可以處理的數(shù)據(jù)量不能超過分給這個(gè)Spark應(yīng)用的內(nèi)存總和。()
Fusionlnsight HD中,Streaming的特點(diǎn)?()
關(guān)于Kafka的Producer,如下說法正確的是?()
存在如下業(yè)務(wù)場(chǎng)景:用戶上網(wǎng)日志文件已經(jīng)存放在HDFS上,日志文件內(nèi)容格式是:每條上網(wǎng)記錄三個(gè)字段,分別是姓名,性別,上網(wǎng)時(shí)間,字段之間用“,”護(hù)分隔;要求打印輸出所有上網(wǎng)總時(shí)間大于兩小時(shí)的女性網(wǎng)友。請(qǐng)問如下哪些代碼片段能實(shí)現(xiàn)上述業(yè)務(wù)場(chǎng)景?()
對(duì)于HBase rowkey的設(shè)計(jì)原則,如下敘述正確的是?()
在Spark中,關(guān)于廣播變量以下說法正確的是?()