AI 시스템 : 모델 중심에서 데이터 중심으로 (Andrew Ng 영상)

2021. 3. 25. 13:48캐리의 데이터 세상/데이터 정보

반응형

From Model-centric to Data-centric AI

Andrew Ng 교수가 설립한 DeepLearning.AI 뉴스레터를 구독하고 있는데요 (Link) 평소에는 제목만 읽고 넘겼는데 오늘 주제는 뭔가 기본에 대한 얘기를 하는 것 같아서^^ 줌 강의 1시간짜리 유튜브 영상도 함께 보면서 뭔 얘기 하나 보고 있습니다ㅎ

앤드류응 교수 AI 시스템 강의

 


AI system development will move faster if we can shift from being model-centric to being data-centric.
It’s a common joke that 80 percent of machine learning is actually data cleaning, as though that were a lesser task. My view is that if 80 percent of our work is data preparation, then ensuring data quality is the important work of a machine learning team. 

 

Progress  in machine learning has been driven for decades by efforts to improve performance on benchmark datasets, in which researchers hold the Data fixed while improving the Code. But for many applications — especially ones where the dataset size is modest (<10,000 examples) — teams will make faster progress by focusing instead on making sure the dataset is good:

(뉴스레터 중략)

 


Chat with Andrew

Code에만 너무 포커스 두지 말고 Data의 중요성에 대해 다시 한번 환기시키고 MLOps tools에 대해 얘기하는데요, 궁금하신 분들은 영상도 한번 살펴보세요! 영어로 진행되지만 슬라이드 내용은 쉽게 정리되어 있어서 볼만 합니다~ 

몇 달 전 팀플 할 때 데이터셋 규모가 너무 작다 보니 하이퍼 파라미터 튜닝으로는 성능이 도저히 개선이 안돼서 이미지 데이터 자체를 이리저리 바꿔가면서 다양하게 만들고 전처리를 다시 했던 기억이 스멀스멀 떠오릅니다:) Small Data Problem에 대해 자세하게 다루고 있는데요 한 시간 강의 들은 느낌입니다.

라이브 챗 채팅방에 올라오는 질문들 보는 것도 도움되는 듯. 업계 사람들이 어떤 문제의식을 가지고 있는지도 볼 수 있는 것 같아서 공부하는 입장에서는 유익했습니다~


youtu.be/06-AZXmwHjo

A Chat with Andrew on MLOps: From Model-centric to Data-centric AI
코세라로 몇 달 앤드류 응 강의 봤더니 이젠 목소리가 친숙하네요:)

 

주요 영상 스크랩

데이터 중심 모델 중심 비교
모델 중심 vs 데이터 중심

 

training 데이터 vs mAP

 

Source : DeepLearning.ai

반응형