Apache Spark는 클러스터 환경에서 데이터를 분산 처리하는데 매우 효율적이고 강력한 라이브러리이다. 제공하는 기능들은 데이터를 빠르게 읽고 처리하는데 큰 도움을 준다. 비록 클러스터 환경은 아니지만 spark에서 제공하는 기능들을 사용하면 대용량 데이터의 처리 속도를 크게 향상시킬 수 있을 것 같아 현재 개발중인 프로젝트에 도입했다. 우선 서버의 특정 경로에 존재하는 csv파일을 sparkSession을 통해 읽어와야 한다. SparkSession의 Dataset는 Apache Spark에서 데이터를 다루는 핵심적인 구조이다. 여기서 Dataset는 테이블 형태의 구조화된 데이터를 나타내며, 각 행은 Row 객체로 표현된다. 이 구조는 SQL과 유사한 방식으로 데이터를 쿼리하고 조작할 수 있도록 ..