데이터분석

윈도우 스파크 실행을 위한 머시기

늘근이 2018. 3. 10. 09:22


1) docker설치

https://docs.docker.com/docker-for-windows/

2) 설치용 스크립트 다운로드 (HDP, HDF 있음)

https://ko.hortonworks.com/downloads/#sandbox

3) 스크립트 실행.

powershell -ExecutionPolicy ByPass -File deploy-sandbox-hdf-standalone_{version}.ps1


위와같이 다운로드 및 설치가 자동으로 진행되는것을 확인


4) 모든게 끝나면 docker ps -a 로 확인가능

5) 아래와 같이 접속이 되면 성공

http://localhost:8888/

아이디 비번은 maria_dev/maria_dev

깔끔허니 괜찮다. 이것을 암바리라고 부른다고 한다.

6) 이제 위의 메뉴에서 FilesView를 선택하면 파일을 올릴수 있는 공간이 보인다.

여기다가 필요한 파일을 올리면 된다. 쉑스피어.txt를 올려보았다. 


이제, IntelliJ를 통해 Spark가 제공하는 기본 기능들을 실행해보도록한다.


7) intelliJ에서 스칼라 SDK와 머 자질구레한것들을 깔변 sbt파일에다가 오픈소스 뭘 쓸건지를 적어놓고 한번 로딩시켜줄수 있다.

코드는, 2.1.0기준으로 돌아가는걸 일단 박아놨다. 곧 3버전으로 업그레이드 될것같기도 하니 알아서 찾도록 한다.

libraryDependencies ++= {
val sparkVer = "2.1.0"
Seq(
"org.apache.spark" %% "spark-core" % sparkVer
)
}


 꺌꺌꺌 잘된다. 한가지 중요한점은 스칼라는 static이라는 키워드가 없고 Object에 넣어야 한다.


필요한거 있으면

https://github.com/kohry/sparkttest

여기있으니 알아서 보도록한다.


최종적인 결과는 c:\temp\result에 잘 짱박혀있을것이다. 에디터로 열면 다 보인다.


* provided withResource관련하여 에러가 날때가 있다. 과감하게 지운다.

* 제대로된 HDFS경로를 못찾는다면 권한을 한번 살펴보도록 한다. 

* 원격으로 실행을 시켜야 하는데 나중에 해보도록한다



참조:

https://ko.hortonworks.com/tutorial/setting-up-a-spark-development-environment-with-scala/

https://ko.hortonworks.com/tutorial/learning-the-ropes-of-the-hortonworks-sandbox/

https://ko.hortonworks.com/tutorial/sandbox-deployment-and-install-guide/section/3/



'데이터분석' 카테고리의 다른 글

boosting 계열 알고리즘 3대장 정확도 간단비교.  (0) 2018.07.28
표본추출  (0) 2018.03.19
What is Data Science?  (0) 2018.03.06
R 에서 readTableHeader 에러가 떨어질경우  (0) 2016.05.01
R - Tableau 연결  (0) 2016.05.01