• pankarta_nûçeyan

Xizmetkar

Mekanîzmaya paqijkirina daneyên Spark Streaming
(I) DStream û RDD
Wekî ku em dizanin, hesabkirina Spark Streaming li ser bingeha Spark Core ye, û bingeha Spark Core RDD ye, ji ber vê yekê divê Spark Streaming jî bi RDD ve girêdayî be. Lêbelê, Spark Streaming nahêle ku bikarhêner rasterast RDD bikar bînin, lê komek têgehên DStream kurt dike, DStream û RDD têkiliyên berfireh in, hûn dikarin wê wekî qalibek xemilandinê di Java de fam bikin, ango DStream pêşveçûnek RDD ye, lê tevger dişibihe RDD.
DStream û RDD herdu jî çend şert hene.
(1) çalakiyên veguherînê yên wekhev hene, wek map, reduceByKey, û hwd., lê di heman demê de hin çalakiyên bêhempa jî hene, wek Window, mapWithStated, û hwd.
(2) hemû çalakiyên Çalakiyê hene, wek foreachRDD, count, û hwd.
Modela bernamekirinê ya şexsî ye.
(B) Danasîna DStream di Spark Streaming de
DStream ji çend çînan pêk tê.
(1) Çînên çavkaniya daneyan, wek InputDStream, bi taybetî wek DirectKafkaInputStream, û hwd.
(2) Çînên veguherînê, bi gelemperî MappedDStream, ShuffledDStream
(3) çînên derketinê, bi gelemperî wekî ForEachDStream
Ji jor ve, daneyên ji destpêkê (têketin) heta dawiyê (derketin) ji hêla pergala DStream ve têne kirin, ku tê vê wateyê ku bikarhêner bi gelemperî nikare rasterast RDD-an çêbike û manîpule bike, ku tê vê wateyê ku DStream xwedî derfet û mecbûriyet e ku ji çerxa jiyana RDD-an berpirsiyar be.
Bi gotineke din, Spark Streaming xwedîpaqijkirina otomatîkkarkirin.
(iii) Pêvajoya çêkirina RDD di Spark Streaming de
Herikîna jiyana RDD-an di Spark Streaming de wiha ye.
(1) Di InputDStream de, daneyên wergirtî vediguherin RDD-ê, wek DirectKafkaInputStream, ku KafkaRDD çêdike.
(2) paşê bi rêya MappedDStream û veguherîna daneyên din, ev dem rasterast wekî RDD tê binavkirin ku bi rêbaza nexşeyê ya ji bo veguherînê re têkildar e.
(3) Di operasyona çîna derketinê de, tenê dema ku RDD eşkere bibe, hûn dikarin bihêlin ku bikarhêner hilanîna têkildar, hesabên din û operasyonên din pêk bîne.