클래스: 데이터 과학의 기초: 기초
무료이용으로 수강해 보세요.
업계 전문가가 강의하는 클래스 24,900개를 수강하세요.
AutoML
- [강사] 데이터를 다루는 것은 최상의 상황에서도 어려울 수 있으며, 여기에는 감사할 만한 일이 많이 포함됩니다. 예를 들어, 모든 데이터 프로젝트의 시간 중 80%는 데이터를 준비하는 데 소비된다는 흔한 말이 있는데, 이는 제 경험과 확실히 일치합니다. 또한 데이터 준비 작업에는 범주형 기능 또는 변수를 숫자 형식으로 변환하거나, 누락된 데이터를 처리하거나, 데이터를 다시 조정하거나, 기계 학습 모델 구축의 핵심인 기능 엔지니어링, 기능 추출 및 기능 선택의 복잡한 절차와 같은 작업이 포함됩니다. 또한 기계 학습을 수행할 때 하이퍼 매개 변수라는 어려운 문제가 있습니다. 다양한 알고리즘에 사용되는 설정입니다. 따라서 실제로 데이터를 분석하기 전에 수행해야 하는 노브와 스위치와 같습니다. 자, 때때로 이것들은 매우 간단합니다. 선형 공격성의 경우, 가설 검정의 알파 비율 또는 거짓 양성 비율일 수 있습니다. canorous neighbors의 경우 일반적으로 고려해야 할 이웃의 수만 있지만 딥 러닝과 같은 알고리즘의 경우 숨겨진 계층의 수, 계층당 단위 수, 학습 속도, 드롭아웃 속도, 에픽 수 등과 같은 훨씬 더 많은 것이 있을 수 있습니다. 유효성 검사를 설정하는 방법의 문제도 있으며 이 모든 것이 차이를 만듭니다. 알고리즘의 성능에 영향을 줄 수 있으며 알고리즘의 재현성에도 영향을 줄 수 있습니다. 그리고 이것이 특히 중요한 이유는, 사람들이 이러한 모델의 결과를 발표하거나 어떤 식으로든 공유할 때, 그들은 보통 모든 하이퍼파라미터가 무엇인지 알려주지 않기 때문입니다. 따라서 동일한 데이터로 동일한 결과를 얻기가 매우 어려워집니다. 또한 어떤 것을 사용해야하는지 아는 것만으로도 알 수 있습니다. 따라서 하이퍼파라미터 선택을 최적화하는 여러 가지 방법이 있습니다. 여기에는 그리드 검색, 무작위 검색, 유역 최적화, 기울기 기반 최적화, 진화 최적화와 같은 방법이 포함될 수 있습니다. 중요하고 복잡한 작업이라는 것을 알려줄 뿐입니다.…
연습 파일로 실제로 따라해 보세요.
강사가 이용하는 파일을 다운로드하세요. 클래스를 보면서 직접 따라할 수 있습니다.