고승범 - sk텔레콤
빅데이터란?
현재 우리는 어디에 있나?
빅데이터 정의 - 3v, 4v, 5v
결론: 기존 데이터베이스 시스템에서는 효율적으로 처리 할 수 없고, 전혀 처리 할 수 없다.
컴퓨터 한 대가 처리하기에 너무 큰 데이터의 양
빅데이터의 가속화
- 저렴한 하드디스크의 비용
- 데이터를 생산하는 기기의 증가(인당 스마트폰 한대, 한 가구 컴퓨터 한대 등
- 데이터 소비의 다양화(넷플릭스, 디즈니, 페이스북, 유튜브, 블로그)
- 예전에는 컨텐츠 프로바이더가 제공하는것만 소비했는데 이제는 개인들이 컨텐츠 셀프 퍼블리싱
- 오픈 소스의 발전(하둡의 등장이 가장 크게 관여)
- 2007.09 최초 버전 배포
- 2011.12 하둡 1.0 배포
- 저렴한 하드웨어를 모아서 오픈소스 소프트웨어가 빅데이터 진입장벽을 낮춰줌
- 저렴화 하드웨어 모아서
- 기업들의 빅데이터에 대한 인식 변환(빅데이터 = 돈)
- ex) 넥플릭스: 컨텐츠를 제공하는 회사인줄 알죠?
- DVD를 비즈니스를 컨텐츠 제작 회사로 바꿈
- 대여하면서 모든 로그를 기록(장르, 스토리, 배우 등을 분석)
카프카란?
오픈소스
카프카의 개방성으로 인하여, 많은 서드파티 도구들이 탄생
아파치 재단에서 프로젝트를 관리
KIP를 통해서 새로운 것들 릴리즈