본문 바로가기
카테고리 없음

Amazon EMR 이란?

by 채로스 2022. 6. 2.
반응형

Amazon EMR이란 무엇입니까?

Amazon EMR(이전의 Amazon Elastic MapReduce)은 빅 데이터 처리 및 분석을 위한 Amazon Web Services(AWS) 도구입니다. Amazon은 EMR을 온프레미스 클러스터 컴퓨팅 실행에 대한 대안을 제공하는 확장 가능한 저구성 서비스로 판매합니다.



Amazon EMR은 분산 컴퓨팅 환경에서 대규모 데이터 세트의 처리를 지원하는 Java 기반 프로그래밍 프레임워크인 Apache Hadoop 을 기반으로 합니다. 개발자는 Hadoop 소프트웨어 프레임워크의 핵심 구성 요소인 MapReduce를 사용하여 분산된 프로세서 클러스터 또는 독립 실행형 컴퓨터에서 대량의 비정형 데이터를 처리하는 프로그램을 작성할 수 있습니다. 웹페이지 인덱싱을 위해 Google에서 개발 했으며 2004년에 원래 인덱싱 알고리즘과 휴리스틱 을 대체했습니다.

Amazon EMR은 Amazon Elastic Compute Cloud( EC2 ) 및 Amazon Simple Storage Service(S3) 에 있는 가상 서버의 Hadoop 클러스터에서 빅 데이터를 처리합니다 . EMR의 이름에 있는 Elastic 은 관리자가 현재 요구 사항에 따라 리소스를 늘리거나 줄일 수 있는 동적 크기 조정 기능을 나타냅니다.

Amazon EMR은 로그 분석, 웹 인덱싱, 데이터 웨어하우징, 기계 학습 (ML), 재무 분석, 과학 시뮬레이션 및 생물 정보학의 데이터 분석에 사용됩니다. 또한 Apache Spark, Apache Hive, Presto 및 Apache HBase를 기반으로 하는 워크로드를 지원합니다. 이 중 후자는 Hadoop용 오픈 소스 데이터 웨어하우스 도구인 Hive 및 Pig와 통합됩니다. Hive는 쿼리를 사용하고 데이터를 분석하며 Pig는 Hadoop에서 실행할 MapReduce 작업을 프로그래밍하기 위한 고급 메커니즘을 제공합니다.

Amazon EMR 사용 사례

기업이 Amazon EMR을 사용할 수 있는 방법은 다음과 같습니다.

  • 기계 학습. EMR의 기본 제공 ML 도구는 Hadoop 프레임워크를 사용하여 의사 결정 트리, 랜덤 포레스트, 지원 벡터 머신 및 로지스틱 회귀를 포함하여 의사 결정을 지원하는 다양한 알고리즘을 생성합니다.
  • 추출, 변환 및 로드합니다. ETL은 하나 이상의 데이터 저장소에서 다른 저장소로 데이터를 이동하는 프로세스입니다. 정렬, 집계 및 결합과 같은 데이터 변환은 EMR을 사용하여 수행할 수 있습니다.
  • 클릭스트림 분석. Amazon S3의 클릭스트림 데이터 는 Apache Spark 및 Apache Hive로 분석할 수 있습니다. Apache Spark는 데이터를 쉽게 관리하고 분석할 수 있도록 도와주는 오픈 소스 데이터 처리 도구입니다. Spark는 작업이 대규모 컴퓨터 클러스터에서 실행되고 데이터를 병렬로 처리할 수 있는 프레임워크를 사용합니다. Apache Hive는 Spark가 분석할 수 있는 데이터 작업을 위한 도구를 제공하는 Hadoop 위에 구축된 데이터 웨어하우스 인프라입니다. 클릭스트림 분석은 조직이 고객 행동을 이해하고, 웹사이트 레이아웃을 개선하는 방법을 찾고, 사람들이 검색 엔진에서 사용하는 키워드를 발견하고, 판매로 이어지는 단어 조합을 확인하는 데 도움이 될 수 있습니다.
  • 실시간 스트리밍. 사용자는 Apache Spark Streaming 및 Apache Flink 를 통해 실시간으로 스트리밍 데이터 소스를 사용하여 이벤트를 분석할 수 있습니다 . 이를 통해 EMR에서 스트리밍 데이터 파이프라인을 생성할 수 있습니다.
  • 대화형 분석. EMR 노트북은 데이터 분석을 위한 안전하고 확장 가능하며 안정적인 환경을 제공하는 관리형 서비스입니다. 오픈 소스 웹 애플리케이션 데이터 과학자가 라이브 코드와 방정식을 만들고 공유하는 데 사용할 수 있는 Jupyter Notebook 을 사용 하여 데이터를 준비하고 시각화하여 대화형 분석을 수행할 수 있습니다.
  • 유전체학. 조직은 EMR을 사용하여 게놈 데이터를 처리하여 의학 및 통신을 포함한 산업에서 데이터 처리 및 분석을 확장할 수 있습니다.

Amazon EMR 배포 옵션

클라우드 서비스로서 Amazon EMR은 다음과 같은 다양한 설정으로 배포할 수 있습니다.

  • Amazon EC2의 Amazon EMR. Amazon EMR은 Amazon EC2를 사용하여 대량의 데이터를 빠르게 처리할 수 있습니다. 사용자는 온디맨드, 예약 및 스팟 인스턴스를 활용하도록 Amazon EMR을 구성할 수 있습니다.
  • Amazon Elastic Kubernetes Service(EKS)의 Amazon EMR. Amazon EMR 콘솔을 사용하면 동일한 EKS 클러스터에서 다른 애플리케이션과 함께 Apache Spark 애플리케이션을 실행할 수 있습니다. 조직은 모든 ​​애플리케이션에서 컴퓨팅 및 메모리 리소스를 공유하고 Kubernetes 도구를 사용하여 인프라를 모니터링 및 관리할 수 있습니다.
  • AWS Outposts의 Amazon EMR. AWS Outposts를 사용하면 조직이 자체 데이터 센터에서 EMR을 실행할 수 있습니다. 이를 통해 온프레미스 환경에서 EMR을 보다 쉽게 ​​설정, 배포, 관리 및 확장할 수 있습니다.

Amazon EMR 기능

Amazon EMR의 기능은 관리자와 개발자가 다음 작업을 더 쉽고 편리하게 할 수 있도록 설계되었습니다.

  • EMR 스튜디오.  통합 개발 환경 은 개발자가 코드를 작성하는 데 도움이 되며 효율적이고 쉽게 응용 프로그램을 빌드하고 테스트할 수 있도록 설계되었습니다. EMR Studio는 소스 코드 편집기, 빌드 자동화 도구 및 디버거로 구성됩니다.
  • 비용. Amazon 10노드 EMR 클러스터의 가격은 시간당 $0.15입니다. 조직은 클러스터가 실행된 시간에 대해서만 비용을 지불합니다. 사용자가 여분의 EC2 용량 에 입찰 하고 사용한 리소스에 대해서만 비용을 지불할 수 있도록 하는 스팟 인스턴스로 EMR 클러스터를 설정하여 비용을 추가로 제어할 수 있습니다 .
  • 탄력. EMR은 개별 확장을 위해 컴퓨팅과 스토리지를 분리하고 Amazon S3의 계층형 스토리지를 활용합니다. 인스턴스는 규모에 관계없이 데이터를 처리할 수 있으며 자동으로 프로비저닝, 관리 및 모니터링됩니다. AWS Auto Scaling을 통해 사용자는 용도에 따라 인스턴스 수를 늘리거나 줄일 수 있습니다.
  • 신뢰할 수 있음. Amazon EMR은 최적의 리소스 사용을 보장하기 위해 클러스터를 모니터링합니다. Amazon CloudWatch 서비스를 사용하여 지표를 수집하고 해석합니다. Amazon EMR은 클러스터의 상태 와 사용률 및 성능을 모니터링하고 문제가 있는 노드 또는 작업을 식별하는 데 도움을 줄 수 있습니다. 또한 트래픽을 정상 노드로 자동으로 보내는 데 도움이 되는 로드 밸런서 서비스를 제공합니다.
  • 보안. Amazon EMR에는 인스턴스에 필요한 네트워크 트래픽만 허용하도록 EC2 방화벽을 자동으로 구성하는 것과 같은 보안 기능이 포함되어 있습니다. 클러스터는 Amazon Virtual Private Cloud 에서 시작됩니다 . 서버 측 암호화 또는 클라이언트 측 암호화는 키 관리에 도움이 될 수 있습니다. AWS Lake Formation 또는 Apache Ranger는 데이터베이스에 대한 데이터 액세스 제어를 수정합니다.
  • 유연성. Amazon EMR을 통해 사용자는 스크립트를 사용하여 클러스터를 사용자 지정하고 타사 소프트웨어 패키지를 설치할 수 있습니다. 사용자는 클러스터를 다시 시작하지 않고도 애플리케이션을 재구성할 수도 있습니다.
반응형

댓글