StoryCode

2024-398.EMR.설정

AWS, 아마존/AWS, EMR
반응형

용어) EMR : EMR 클러스터를 생성하여 코드 실행한다. 학습 모델 코딩시 집중해서 계속 작업하는 용도이다. 비용보다는 작업 효율에 집중할 때 사용한다.

 

용어) EMR Serverless : 코드 실행시에 EMR 클러스터를 할당 받아서 코드 실행하고 종료후 클러스터를 종료한다. 즉, 가끔 인퍼런스 돌릴 때 사용하면 비용 절감에 효과적이다.

 

1) EMR 설정

쥬피터 포함.

[이름 및 애플리케이션]

- 이름 : project.emr.cluster

- Amazon EMR Release : 최신 ( 2024/6/11현재 emr-7.1.0)

- 애플리케이션 번들 : Spark Interactive 선택 후 Jupyter Hub 1.5.0 추가 체크하면, 자동으로 Custom 으로 변경됨.

( Hadoop, Hive, JupyterEnterpriseGateway 2.6.0, JupyterHub 1.5.0, Livy, Spark, 옵션으로 Tensorflow )

 

[클러스터구성]

균일한 인스턴스 그룹

- 프라이머리 : m5.xlarge : 이건 작업에 맞춰 서버 스펙을 키울 것.

- 코어 : m5.xlarge : 이건 작업에 맞춰 서버 스펙을 키울 것.

- EBS 루트 볼륨 : 크기 - 15 ( 이건 작업할 파일 사이즈에 맞춰 키워야 될 수도 있음. 작업하면서 맞춰 볼것 )

 

[클러스터 크기 조정 및 프로비저닝]

- 옵션 : 수동으로 클러스터 크기 조정

- 구성 프로비저닝 : 인스턴스 크기 : 2 ( 이건 작업에 따라 조정할 것 ). 이걸 2로 맞추면 "프라이머리 m5.xlarge EC2 한 대" + "코어 m5.xlarge EC2 2 대" = 총 3대의 EC2 가 생성됨.

 

[네트워킹]

자신의 네트워크 설정

 

[클러스터 종료 및 노드 교체]

- 종료 옵션 : 유휴 시간 : 3시간

- 비정상 노드 교체 : 켜기

 

[클러스터 로그]

- s3 에 작업 폴더 아래에 로그 폴더 만들어서, s3://uri/workfolder/logfolder 등록

 

[Identity and Access Management(IAM)]

- Amazon EMR 서비스 역할 : 서비스 역할 생성

- 보안그룹 : 내 보안 그룹 선택

- Amazon EMR용 EC2 인스턴스 프로파일 : 인스턴스 프로파일 생성

 

 

# 작업이 끝난 후 클러스트를 사용종료하세요.

 

반응형