본문 바로가기

IT/Spark

(16)
RDD Transformation #1 map map[U](f:(T) => U):RDD[U] 함수f 는 입력타입이 T 이고, 출력타입이 U 이다. map 의 결과값은 RDD[U] 가 된다. Ex)기호 _ 는 피호출객체의 원소를 말한다. val rdd2 = rdd1.map(_ + 1) map 은 간단하다. 컬렉션 원소 하나하나에 입력 함수를 맥여서 그 결과들의 집합 컬랙션을 리턴한다. 이때 입력한 함수의 리턴 타입과 동일한 타입의 컬렉션을 리턴한다고 보면 된다. flatMap flatMap[U] (f:(T) => TraversableOnce[U]):RDD[U] 함수f 는 입력타입이 T 이고, 출력타입이 TraversableOnce[U] 이다. map 의 결과값은 RDD[U] 가 된다. Ex) val rdd1 = List("apple,orange..
spark docker 에 설치하기(작성중) https://github.com/P7h/docker-spark 디폴트는 /bin/bash 까지만 실행되는 예제만 있다. 터미널 형태이기에, 지속적으로 사용할 수 없다. docker run -td --restart=always -p 4040:4040 -p 8888:8080 -p 8081:8081 --name=spark spark_master:latest/usr/local/spark-2.2.0-bin-hadoop2.7/sbin docker run -td --restart=always -p 4040:4040 -p 8888:8080 -p 8081:8081 --name=spark spark_master:latest docker run -d -p 4040:4040 -p 8888:8080 -p 8081:8081 -..
RDD 정리 스파크 클러스터여러 대가 마치 한대의 서버처럼 동작. 네트워크, 장애, 스케쥴링 처리에 대한 복잡함을 스파크가 대신 처리해줌분산 데이터RDD(Resilient Distributed Datasets) 분산 데이터 집합, 복구 가능. 클러스터에 흩어져서 저장RDD의 불변성복구라는 것이 어딘가에 백업된 데이터를 다시 복제하는 것이 아니라, 데이터를 다시 만들어 내는 방식이다.RDD 가 불변! 이기 때문에 가능하다. RDD를 만드는 방법(함수) 만 알고 있으면 언제든지 똑같은 데이터를 만들 수 있다.HDFS패스~Job 과 ExecutorJob = 스파크가 프로그램을 실행하는 것. 클러스터에서 병렬로 처리되며 이 Job은 Executor 가 실행한다.드라이버 프로그램Job 을 실행할 수 있는 메인함수를 가지고 있..
Practice using the results "jar" in Spark 단어세기 예제 코드import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]): Unit = { require(args.length==2,"Usage : WordCount ") val inputPath = args(0) val outoutPath = args(1) val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile(inputPath) val words = logData.flatMap( str => s..
Reading before learning Spark 파이썬도 좋지만... 난 파이썬을 안해본 관계로, 또한 스칼라를 좋아하는 사람으로써.https://twitter.github.io/scala_school/ko/collections.html 러닝 스파크 책을 차근차근 읽을 예정이다. 시간을 내서 30페이지 까지밖에 못 읽었지만.... 시간을 내야겟지. 보고 있는 자료https://www.slideshare.net/JunKim22/spark-zeppelin "빅데이터 분석을 위한 스파크2 프로그래밍"으로 책 바꿈..
spark develop environment (scala + intellij + sbt) Intellij plugin 설치는 scala , sbt 플러그인을 설치해야 한다. 설치법은 구글에 잘 나와있으니 pass~! 샘플 프로젝트는 SBT 기반 프로젝트를 생성하면 된다. build.sbt (spark 2.2.0 기반)name := "sparkTest1" version := "1.0" scalaVersion := "2.11.8" libraryDependencies ++= { val sparkVer = "2.2.0" Seq( "org.apache.spark" %% "spark-core" % sparkVer ) } 샘플코드 import org.apache.spark.{SparkConf, SparkContext} object LineCount { def main(args: Array[String])..
spark shell test scala> val file = sc.textFile("file:///your_text_file_path") scala> val words = file.flatMap(_.split(" ")) scala> val result = words.countByValue scala> result.get("For")
Spark install Command Line history 테스트는 Bash on Ubuntu on Windows 에서 진행했다.참고링크 : https://blogs.msdn.microsoft.com/eva/?p=7633설치 wget http://apache.mirror.cdnetworks.com/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz ln -s spark-2.2.0-bin-hadoop2.7 spark export SPARK_HOME=~/spark export PATH=${SPARK_HOME}/bin:$PATH cd ${SPARK_HOME} ls ./bin/run-example JavaWordCount README.md java sudo apt-..