Mille poolest erinevad Hadoop, Hive ja AWS RedShift?


Vastus 1:

Hadoop on hajutatud andmetöötluse (nt MapReduce) ja salvestusruumi (HDFS) raamistik.

Taru on osa hadoopi ökosüsteemist ja pakub hadoopile sql-laadse liidese.

Redshift on Amazoni patenteeritud andmebaasisüsteem. Selle funktsionaalsus on võrreldav Hadoopi peal oleva Hive'iga: kuid sellel pole palju võimalusi. Kuigi see näib olevat oluliselt kiirem, kirjeldatakse esimestes võrdlusalustes.


Vastus 2:

Enam pole tõsi öelda, et Hadoop pole SQL-i jaoks hea. Hive, Impala ja Lingual dramaatiliste parandustega on SQL-i kaudu üha enam uusi Hadoopi andmetele juurdepääsu tööriistu. Kui Spark muutub domineerivamaks, vähendavad sellised tööriistad nagu Hive on Spark ja Spark SQL kõik Redshifti eelised toimivuse osas.


Vastus 3:

Kõik kolm terminit kuuluvad andmeteadusesse. Hadoop: Hadoop on raamistik, mis määratleb viisi, kuidas suurandmeid saaks säilitada ja töödelda. Algselt oli sellel lihtsalt kaks komponenti: HDFS (salvestuskiht) ja MapReduce (töötlemise kiht), kuid nüüd on Hadoop muutunud suureks ökosüsteemiks, kus on palju muid täiustatud pakkide ja voogude töötlemise raamistikke, nagu Spark, Storm, Kafka jne. Hadoopi peamine eesmärk on andmetöötlus hajutatud arvutusarhitektuuri võimsuse abil.

Taru: taru on SQL-i moodi tööriist, mida andmeanalüütikud kasutavad HDFS-is salvestatud andmete kohta lihtsate päringute loomiseks. Selle tööriista töötas välja Facebook. Taru loodi selleks, et vähendada Java-põhiste programmide kirjutamiseks vajalike pingutuste tegemist HDFS-i salvestatud töödeldud andmete leidmiseks.

AWS RedShift: AWS RedShift on AWS-i platvormil olev pilveteenus, mis aitab organisatsioonil välja töötada pilvepõhise andmelao süsteemi. AWS RedShift saab hallata andmete petabaite ilma vajaduseta hallata infrastruktuuri, tarkvara või platvormi. See on PaaS, kasulik andmete ärianalüüsiks.