Spark 4

[스파크] chap18 모니터링과 디버깅

18.1 모니터링 범위 - 스파크 잡에 오류가 발생했다면, 어디에서 발생했는지 파악하기 위해 스파크 잡을 모니터링 해야 한다. - 실제 모니터링 대상과 모니터링에 필요한 옵션을 알아야 한다. -스파크 애플리케이션과 잡 : 스파크 애플리케이션과 잡을 모니터링해서 클러스터에서 사용자 애플리케이션이 실행되는 상황을 파악하거나 디버깅 : 스파크 UI와 스파크 로그는 실행 중인 애플리케이션의 RDD와 쿼리 실행 계획 같은 개념적 수준의 정보를 제공 -JVM : 스파크는 모든 익스큐터를 개별 JVM에서 실행한다. 따라서 코드가 실행되는 과정을 이해하기 위해 각 가상 머신을 모니터링해야 한다. 18.2 모니터링 대상 - CPU, 메모리 사용률 등의 실행 중인 사용자 애플리케이션의 프로세스 - 프로세스 내부에서의 쿼리..

Spark 2021.09.15

[스파크] chap1, chap2 아파치 스파크

컴퓨터 클러스터, 그룹 -> 싱글컴퓨터라면 자원들을 모아서 사용할 수 있게 한다. 싱글 컴퓨터는 파워풀하지 않다. -> 프레임워크 필요 스파크 애플리케이션 -> 클러스터 매니저(스탠드얼론, yarn, 메소스) 클러스터 매니저 -> 우리의 작업을 완료할 수 있도록 애플리케이션에 리소스를 준다. 스파크 애플리케이션 드라이버 프로세스 필수적(애플리케이션이 돌아가는 동안의 정보 모두 유지) 익스큐터 : 드라이버 프로세스가 할당한 일을 수행할 책임이 있다. 1. 드라이버로부터 할당된 코드 실행 2. 실행의 상태를 드라이버 노드에게 다시 보고 스파크 애플리케이션 핵심사항 - 스파크는 사용 가능한 리소스를 추척하는 클러스터 매니저를 사용한다. - 드라이버 프로세스는 주어진 일을 완료하기 위해서 익스큐터에서 드라이버 ..

Spark 2021.08.09

[스파크] chap3. 스파크 기능 둘러보기

스파크는 기본 요소인 저수준 API와 구조적 API 그리고 추가 기능을 제공하는 일련의 표준 라이브러리로 구성되어 있다. 스파크의 라이브러리 => 그래프 분석, 머신러닝, 스트리밍 등 다양한 작업 지원 및 컴퓨팅 및 스토리지 시스템과의 통합을 돕는 역할 3.1 운영용 애플리케이션 실행하기 spark-submit - 대화형 셸에서 개발한 프로그램을 운영용 애플리케이션으로 쉽게 전환할 수 있다. - 애플리케이션 코드를 클러스터에 전송해 실행시키는 역할을 한다. (제출된 애플리케이션은 작업이 종료되거나 에러가 발생할 때까지 실행된다.) - 애플리케이션 실행에 필요한 자원과 실행 방식 및 다양한 옵션을 지정할 수 있다. 스파크 애플리케이션 -> StandAlone, Mesos, YARN 클러스터 매니저를 통해 ..

Spark 2021.08.03

[파이썬]Fatal Python error: initfsencoding: unable to load the file system codec 에러

파이썬을 잘 안 쓰다가 스파크 공부를 시작해서 pyspark 쓰려고 보니 켜자마자 콘솔창이 바로 꺼지는 것이었다. 그래서 파이썬 문제 같아 cmd에 python을 쳐보니 저런 에러가 떴다. 에러 때문에 몇 번이고 파이썬을 다시 설치해보고 환경변수 설정도 계속 설정해봤는데 에러는 사라지지 않았다. 혹시나 하는 마음에 cmd에 python -V을 쳐보니 로컬에 설치되어 있는 파이썬 버전이 내가 지금까지 설치했던 파이썬 버전과 달랐다. 근데 로컬에 설치된 저 파이썬 버전이 로컬 어디에 있는지 모르겠어서 환경변수 설정을 위해 다시 설치함 그랬더니 오류가 사라지고 프롬프트에서 파이썬을 쓸 수 있게 되었다.

Spark 2021.08.03