0 Big Data Analytics Short Courses Big Data
0 Big Data Analytics Short Courses
Big Data Analytics Short Courses, Summer, 2017 Map. Reduce를 이용한 통계량 계산 및 Ordinary Least Squares Data. Science Lab. 박사과정 김희찬 2017 -07 -14 (금) 1
단순선형회귀는? • 9 Big Data Analytics Short Courses
단순선형회귀는? • 데이터를 잘 표현할 수 있는 직선을 찾아내는 것 – 예제 데이터로 풀어보자 • from text x y 0 3 1 16 2 24 3 37 4 44 5 56 X Big Data Analytics Short Courses B Y 0 1 b 1 3 1 1 b 0 16 2 1 - 24 3 1 - 37 4 1 - 44 5 1 - 56 11
행렬 in Java • 역시나 라이브러리가 존재함 – JAMA; JAva MAtrix package • the package -> Jar file (Jama-1. 0. 3. jar) – 받은 라이브러리를 테스트해볼 수 있게 프로젝트에 추가 12 Big Data Analytics Short Courses
행렬 in Java • JAMA를 이용한 행렬 연산 – JAMA로 어떻게 행렬을 계산하나? 16 Big Data Analytics Short Courses
행렬 in Java • JAMA를 이용한 행렬 연산 – OLS로 B 행렬 계산 방법을 사용함 17 Big Data Analytics Short Courses
Map. Reduce에서의 연산 • 어느 부분을 나누어서 작업할 수 있을까? – 블럭 행렬(Block Matrix)을 이용하여 행렬 곱을 나누어 할 수 있음 row partition column partition 18 Big Data Analytics Short Courses
Map. Reduce에서의 연산 • 어느 부분을 나누어서 작업할 수 있을까? – 우리 데이터를 기준으로 생각하면? row partition column partition 19 Big Data Analytics Short Courses
Map. Reduce에서의 연산 • OLS를 전부 짠 후에는? – 외부 라이브러리로 반출 – Xshell로 hadoop 클러스터 접속 및 개인 폴더로 이동 • cd big. Course/[학번] – Xshell을 통하여 hadoop 클러스터에 복사 – hadoop 에서 job 실행 • hadoop jar OLSMR /big. Course/input /big. Course/[학번]/output – 에러가 나는 경우는 output 폴더가 이미 존재하는 경우 – hadoop fs –rmr /big. Course/[학번]/output – 결과를 hadoop에서 컴퓨터로 복사하기 • hadoop fs –copy. To. Local /big. Course/[학번]/output/part-r-00000. – 결과 확인하기 • cat part-r-00000 26 Big Data Analytics Short Courses
THANKS 27
Appendix • OLS template 및 테스트용 데이터 – https: //drive. google. com/open? id=0 B 2 C 49 w. Bdxc. D 5 VHd. WV 2 I 0 Tz. FWd DQ • 예제 소스코드 – https: //drive. google. com/file/d/0 B 2 C 49 w. Bdxc. D 5 Vlpqe. Tc 5 d. WFvd. Fk/vie w? usp=sharing 28 Big Data Analytics Short Courses
- Slides: 29