Python에서 Spark을 실행할 때, 아래 에러가 나타났다.
살펴보니 Spark를 실행하는 동안 %Temp% 폴더에 폴더를 생성하는데, 그것을 지울 수 없다는 내용이다.
💡 우선 방법은 있다.
%SPARK_HOME%\conf 폴더에 log4j.properties 파일을 수정하는 것이다.
만약 경로에 해당 파일이 없다면 log4j.properties.template를 복사하여 뒤에 .template를 지워주고, 만들어준다.
그리고 메모장으로 해당 파일을 열어 아래 명령어를 입력하고, 저장한다.
log4j.logger.org.apache.spark.util.ShutdownHookManager=OFF
log4j.logger.org.apache.spark.SparkEnv=ERROR
그러면 Python에서 Spark 실행 중 더이상 해당 문구가 나타나지 않는다! 🤗
참고
🤔 그런데 문제는 이 방법이 눈가리고 아웅이라는 것이다.
해당 파일의 크기는 환경마다 다르겠지만, MongoDB를 연결해서 사용하고 있는 필자는 관련된 .jar 파일로 인해서 약 2.6MB의 크기를 가졌다.
실행할 때마다 이만큼의 용량이 쌓이면 부담스러울 수 있다. 따라서 해당 폴더를 지우는 것이 중요하다.
현재는 방법을 찾지 못 했지만, 찾는다면 업데이트하도록 하겠다.
반응형
'Engineering 💻 > Hadoop' 카테고리의 다른 글
[HIVE] 하이브-Python 연동 (feat. sqlalchemy) (0) | 2022.04.20 |
---|---|
[Hadoop] Spark 동작 단계 (0) | 2022.01.18 |
[Hadoop] 오케스트레이션 (feat. Oozie, Airflow) (0) | 2022.01.13 |
[Hadooop] 분석용 SQL 엔진 (feat. Hive, Impala, Presto) (0) | 2022.01.12 |
[Hadoop] 연산 프레임워크 (feat. MapReduce, Spark, Flink) (0) | 2022.01.11 |