Spark 3

[스파크] chap18 모니터링과 디버깅(2)

18.5 디버깅 및 스파크 응급 처치 클러스터나 사용자 애플리케이션 실행에 필요한 자원을 적절하게 설정하지 않았을 때 발생 증상 : 스파크 잡이 시작X : 클러스터의 노드 정보를 표시X : 스파크 UI가 잘못된 정보를 표시 대응법 -> 스파크 자원 설정이 올바른지, 클러스터 매니저가 스파크를 실행할 수 있도록 적합하게 설정되었는지 확인 -> 클러스터 매니저가 제공할 수 있는 메모리 자원 이상으로 익스큐터의 메모리 자원을 요청하는 경우 => 클러스터 매니저의 UI로 유휴 자원을 확인한 다음 할당할 메모리를 설정한다. -> 설정한 포트로 클러스터 머신 간에 통신할 수 있는지 확인 증상 : 명령이 전혀 실행되지 않으며 오류 메시지가 출력 : 스파크 UI에서 잡, 스테이지, 태스크의 정보를 확인X 대응법 : 스..

카테고리 없음 2021.09.15

[스파크] chap18 모니터링과 디버깅

18.1 모니터링 범위 - 스파크 잡에 오류가 발생했다면, 어디에서 발생했는지 파악하기 위해 스파크 잡을 모니터링 해야 한다. - 실제 모니터링 대상과 모니터링에 필요한 옵션을 알아야 한다. -스파크 애플리케이션과 잡 : 스파크 애플리케이션과 잡을 모니터링해서 클러스터에서 사용자 애플리케이션이 실행되는 상황을 파악하거나 디버깅 : 스파크 UI와 스파크 로그는 실행 중인 애플리케이션의 RDD와 쿼리 실행 계획 같은 개념적 수준의 정보를 제공 -JVM : 스파크는 모든 익스큐터를 개별 JVM에서 실행한다. 따라서 코드가 실행되는 과정을 이해하기 위해 각 가상 머신을 모니터링해야 한다. 18.2 모니터링 대상 - CPU, 메모리 사용률 등의 실행 중인 사용자 애플리케이션의 프로세스 - 프로세스 내부에서의 쿼리..

Spark 2021.09.15

[스파크] chap3. 스파크 기능 둘러보기

스파크는 기본 요소인 저수준 API와 구조적 API 그리고 추가 기능을 제공하는 일련의 표준 라이브러리로 구성되어 있다. 스파크의 라이브러리 => 그래프 분석, 머신러닝, 스트리밍 등 다양한 작업 지원 및 컴퓨팅 및 스토리지 시스템과의 통합을 돕는 역할 3.1 운영용 애플리케이션 실행하기 spark-submit - 대화형 셸에서 개발한 프로그램을 운영용 애플리케이션으로 쉽게 전환할 수 있다. - 애플리케이션 코드를 클러스터에 전송해 실행시키는 역할을 한다. (제출된 애플리케이션은 작업이 종료되거나 에러가 발생할 때까지 실행된다.) - 애플리케이션 실행에 필요한 자원과 실행 방식 및 다양한 옵션을 지정할 수 있다. 스파크 애플리케이션 -> StandAlone, Mesos, YARN 클러스터 매니저를 통해 ..

Spark 2021.08.03