0 Big Data Analytics Short Courses Big Data
0 Big Data Analytics Short Courses
Big Data Analytics Short Courses Map. Reduce를 이용한 Ordinary Least Squares Data. Science Lab. 박사과정 김희찬 2017 -02 -24 (금) 1
단순선형회귀는? • 2 Big Data Analytics Short Courses
단순선형회귀는? • 데이터를 잘 표현할 수 있는 직선을 찾아내는 것 – 예제 데이터로 풀어보자 • from text x y 0 3 1 16 2 24 3 37 4 44 5 56 X Big Data Analytics Short Courses B Y 0 1 b 1 3 1 1 b 0 16 2 1 - 24 3 1 - 37 4 1 - 44 5 1 - 56 4
Map. Reduce에서의 연산 • 어느 부분을 나누어서 작업할 수 있을까? – 블럭 행렬(Block Matrix)을 이용하여 행렬 곱을 나누어 할 수 있음 row partition column partition 11 Big Data Analytics Short Courses
Map. Reduce에서의 연산 • 어느 부분을 나누어서 작업할 수 있을까? – 우리 데이터를 기준으로 생각하면? row partition column partition 12 Big Data Analytics Short Courses
Map. Reduce에서의 연산 • OLS를 전부 짠 후에는? – 외부 라이브러리로 반출 – Xshell로 hadoop 클러스터 접속 및 개인 폴더로 이동 • cd big. Course/[학번] – Xshell을 통하여 hadoop 클러스터에 복사 – hadoop 에서 job 실행 • hadoop jar OLSMR /big. Course/input /big. Course/[학번]/output – 에러가 나는 경우는 output 폴더가 이미 존재하는 경우 – hadoop fs –rmr /big. Course/[학번]/output – 결과를 hadoop에서 컴퓨터로 복사하기 • hadoop fs –copy. To. Local /big. Course/[학번]/output/part-r-00000. – 결과 확인하기 • cat part-r-00000 20 Big Data Analytics Short Courses
Appendix • OLS template 및 테스트용 데이터 – https: //drive. google. com/open? id=0 B 2 C 49 w. Bdxc. D 5 VHd. WV 2 I 0 Tz. FWd DQ 21 Big Data Analytics Short Courses
THANKS 22
- Slides: 23