2. 스프링부트 프로젝트 내에서 spark session 사용

Apache Spark

2. 스프링부트 프로젝트 내에서 spark session 사용

bysnow 2024. 4. 15. 09:25

728x90

SMALL

Apache Spark는 클러스터 환경에서 데이터를 분산 처리하는데 매우 효율적이고 강력한 라이브러리이다. 제공하는 기능들은 데이터를 빠르게 읽고 처리하는데 큰 도움을 준다. 비록 클러스터 환경은 아니지만 spark에서 제공하는 기능들을 사용하면 대용량 데이터의 처리 속도를 크게 향상시킬 수 있을 것 같아 현재 개발중인 프로젝트에 도입했다.

우선 서버의 특정 경로에 존재하는 csv파일을 sparkSession을 통해 읽어와야 한다.

SparkSession의 Dataset<Row>는 Apache Spark에서 데이터를 다루는 핵심적인 구조이다. 여기서 Dataset<Row>는 테이블 형태의 구조화된 데이터를 나타내며, 각 행은 Row 객체로 표현된다. 이 구조는 SQL과 유사한 방식으로 데이터를 쿼리하고 조작할 수 있도록 한다.

SparkSession은 Spark 애플리케이션의 진입점으로, Spark 2.0부터 도입되었다. 이는 RDDs, DataFrames, 그리고 Datasets을 포함한 Spark의 모든 기능에 접근할 수 있는 통합 인터페이스를 제공한다. SparkSession을 사용하면 다양한 데이터 소스에서 데이터를 읽고, SQL 쿼리를 실행하며, DataFrames 및 Datasets를 생성하고, 분산 데이터셋에 대한 작업을 효율적으로 수행할 수 있다.

지난 게시글에서 작성했던 sparkConfig를 통해 필요한 곳에서 sparkSessoin을 생성한 후 spark.read() 함수를 이용해 파일을 불러와보자.

import org.apache.spark.sql.SparkSession;

SparkSession spark = sparkConfig.sparkSession();
String filePath = "/my_diretory/myFile.csv";
String encoding = "UTF8";

//파일 불러오기
Dataset<Row> df = spark.read()
            .option("header", "true")
            .option("encoding",encoding)
            .csv(joinInfoFilePath);

df.show();

위의 코드를 실행하면 filePath에 존재하는 파일을 불러와 데이터의 상위 20개의 row를 보여준다. Dataset<Row>의 형태로 읽어온 데이터에 대해 정말 다양하고 효과적인 기능들을 제공한다. 다음엔 해당 기능들에 대해 정리해보자

728x90

LIST

저작자표시 변경금지

'Apache Spark' 카테고리의 다른 글

1. Spark Session 생성하기 - Gradle 설정 (0)	2024.04.08
0. Spring boot에서 SPARK 사용 (0)	2024.04.03

현재글2. 스프링부트 프로젝트 내에서 spark session 사용

250x250

The Code Connection

이것저것

프로그래머스#자바#알고리즘#프로그래머스모의고사, 자바#자바빈즈#스프링#웹프로그래밍#자바웹프로그래밍, 마이바티스 #Mybaits # Mybatis란, HTML#HTML테이블, 자바#자바웹#서블릿#복습, 자바#JSTL#웹프로그래밍, SPARK #SPARKSQL #SPARKCORE #gradle #SpringBoot #스프링부트_SPARK, 자바#SpringFramework#스프링프레임워크#자바스프링#웹프로그래밍, 아임포트예제#카카오정기결제코드, 자바#자바입출력#파일입출력예제, 자바#Spring#SpringFramework#의존성#의존성주입#스프링, 프로그래머스#알고리즘#자바알고리즘, 스프링#자바, 아임포트#아임포트카카오#카카오정기결제#아임포트정기결제#RESTAPI#아임포트API, 금문도#짬뽕#맛집#후기#간짜장, 스프링 #DI #DI란 #의존성주입 #IoC #제어역전 #Spring #Ioc란, 송정밀면, 스프링부트#아임포트#아임포트카카오#아임포트정기결제#아임포트토큰#RESTAPI#Springboot, JPA#JPA란#JPA기초#Spring#Springboot, 자바#자바프로그래밍#자바알고리즘#백준#백준알고리즘#백준자바#백준1712번#손익분기점,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

The Code Connection