고승범 - sk텔레콤

빅데이터란?

현재 우리는 어디에 있나?

빅데이터 정의 - 3v, 4v, 5v

결론: 기존 데이터베이스 시스템에서는 효율적으로 처리 할 수 없고, 전혀 처리 할 수 없다.

컴퓨터 한 대가 처리하기에 너무 큰 데이터의 양


빅데이터의 가속화

  1. 저렴한 하드디스크의 비용
  2. 데이터를 생산하는 기기의 증가(인당 스마트폰 한대, 한 가구 컴퓨터 한대 등
  3. 데이터 소비의 다양화(넷플릭스, 디즈니, 페이스북, 유튜브, 블로그)
    1. 예전에는 컨텐츠 프로바이더가 제공하는것만 소비했는데 이제는 개인들이 컨텐츠 셀프 퍼블리싱
  4. 오픈 소스의 발전(하둡의 등장이 가장 크게 관여)
    1. 2007.09 최초 버전 배포
    2. 2011.12 하둡 1.0 배포
    3. 저렴한 하드웨어를 모아서 오픈소스 소프트웨어가 빅데이터 진입장벽을 낮춰줌
      1. 저렴화 하드웨어 모아서
  5. 기업들의 빅데이터에 대한 인식 변환(빅데이터 = 돈)
    1. ex) 넥플릭스: 컨텐츠를 제공하는 회사인줄 알죠?
    2. DVD를 비즈니스를 컨텐츠 제작 회사로 바꿈
    3. 대여하면서 모든 로그를 기록(장르, 스토리, 배우 등을 분석)

카프카란?

오픈소스

카프카의 개방성으로 인하여, 많은 서드파티 도구들이 탄생

아파치 재단에서 프로젝트를 관리

KIP를 통해서 새로운 것들 릴리즈