Hadoop, Hive 및 AWS RedShift의 차이점은 무엇입니까?


대답 1:

하둡은 분산 컴퓨팅 (예 : MapReduce) 및 스토리지 (HDFS) 프레임 워크입니다.

Hive는 hadoop 에코 시스템의 일부이며 hadoop에 SQL과 유사한 인터페이스를 제공합니다.

Redshift는 Amazon의 독점 데이터베이스 시스템입니다. 이 기능은 Hadoop 기반의 Hive와 비교할 수 있지만 많은 옵션이 없습니다. 비록 훨씬 빠르지 만 첫 번째 벤치 마크에 설명되어 있습니다.


대답 2:

Hadoop이 SQL에 적합하지 않다고 말하는 것은 더 이상 사실이 아닙니다. Hive, Impala 및 Lingual의 대폭 개선으로 Hadoop의 데이터에 액세스하기위한 점점 더 최신 도구는 SQL을 사용합니다. Spark가 더 우세 해짐에 따라 Hive on Spark 및 Spark SQL과 같은 도구는 성능 측면에서 Redshift의 이점을 줄입니다.


대답 3:

세 용어는 모두 데이터 과학에 속합니다. 하둡 : 하둡은 빅 데이터를 저장하고 처리하는 방법을 정의하는 프레임 워크입니다. 처음에는 HDFS (스토리지 레이어)와 MapReduce (프로세싱 레이어)라는 두 가지 구성 요소 만 있었지만 이제 Hadoop은 Spark, Storm, Kafka 등과 같은 다른 고급 배치 및 스트림 처리 프레임 워크가있는 대규모 에코 시스템이되었습니다. 하둡의 주요 목표는 분산 컴퓨팅 아키텍처의 힘을 사용하여 데이터 처리를 수행하는 것입니다.

Hive : Hive는 데이터 분석가가 HDFS 내에 저장된 데이터에 대한 간단한 쿼리를 작성하는 데 사용하는 SQL과 유사한 도구입니다. 이 도구는 Facebook에서 개발했습니다. Hive는 HDFS에 저장된 처리 된 데이터를 검색하기 위해 Java 기반 프로그램을 작성하는 데 필요한 노력을 줄이기 위해 도입되었습니다.

AWS RedShift : AWS RedShift는 AWS 플랫폼의 클라우드 서비스로, 조직이 클라우드 기반 데이터웨어 하우스 시스템을 개발할 수 있도록 도와줍니다. AWS RedShift는 인프라, 소프트웨어 또는 플랫폼을 관리 할 필요없이 페타 바이트 규모의 데이터를 처리 할 수 ​​있습니다. 데이터의 비즈니스 분석에 유용한 PaaS입니다.