클래스: 데이터 과학의 기초: 기초

무료이용으로 수강해 보세요.

업계 전문가가 강의하는 클래스 24,900개를 수강하세요.

빅데이터

빅데이터

- [내레이터] 불과 몇 년 전만 해도 데이터 사이언스와 빅 데이터가 거의 동의어였던 시절이 있었고, 하둡과 같은 반마법 같은 단어들도 데이터 사이언스에서 일어나는 모든 놀라운 일들을 떠올리게 했습니다. 그러나 지금은 상황이 약간 다르므로 두 필드를 구별하는 것이 중요합니다. 우리가 빅 데이터에 대해 이야기할 때 무엇을 이야기하고 있는지 상기시키는 것으로 시작하겠습니다. 빅 데이터는 비정상적인 볼륨, 비정상적인 속도 및 비정상적인 다양성의 세 가지 특성 중 일부 또는 모두를 특징으로 하는 데이터로, 다시 단독으로 또는 함께 빅 데이터를 구성할 수 있습니다. 이들 각각에 대해 차례로 이야기하겠습니다. 첫째, 볼륨입니다. 지난 5년 동안에도 사용할 수 있게 된 데이터의 양은 정말 놀랍습니다. 식료품점에서의 고객 거래와 같은 것들, 이러한 거래를 추적하고 소비자 충성도 프로그램에서 컴파일하는 데이터베이스에는 구매에 대한 수천억 행의 데이터가 있습니다. 휴대폰의 GPS 데이터에는 하루 종일 지속적으로 수십억 명의 정보가 포함됩니다. 또는 과학적 데이터. 예를 들어, 2019년 4월에 공개된 이벤트 호라이즌 망원경으로 촬영한 메시에 97의 블랙홀 이미지. 여기에는 비행기에 실어 중앙 처리 위치로 운반해야 하는 50톤의 하드 드라이브가 포함되었는데, 이는 인터넷을 사용하는 것보다 몇 배나 빠르기 때문입니다. 이 중 어느 것이든 일반 방법에 대한 압도적인 데이터 세트입니다. 그 결과 빅 데이터와 관련된 가장 일반적인 기술 중 일부가 등장했습니다: 하둡과 같은 분산 파일 시스템은 너무 커서 하나의 컴퓨터, 하나의 드라이브에 담을 수 없는 이러한 컬렉션을 여러 컴퓨터에 걸쳐 배치하면서도 집단 지성을 얻을 수 있는 방식으로 통합할 수 있게 했습니다. 그 다음에는 속도가 있는데, 이것의 주범은 소셜 미디어입니다. YouTube는 1분마다 300시간 분량의 새 동영상이 업로드됩니다. 하루에 약 50억 회의 조회수를 기록합니다. 인스타그램은 하루에 9,500만…

목차