데이터 과학의 불편한 진실

2021. 4. 6. 16:20캐리의 데이터 세상/캐리의 데이터 공부 기록

반응형

데이터 전처리의 중요성

데이터 사이언티스트 Kamil Bartocha의 저서 <데이터 과학의 불편한 진실>에 정리된 11가지 데이터 성질 참고.

 

The Inconvenient Truth About Data Science

1. Data is never clean. 데이터는 절대 깨끗하지 않다.


2. You will spend most of your time cleaning and preparing data.  분석의 대부분 시간을 전처리 단계에서 보내게 될 것이다.


3. 95% of tasks do not require deep learning. 95%의 일은 딥러닝이 필요 없다


4. In 90% of cases generalized linear regression will do the trick.  분석의 90%는 일반화 선형 모형으로 해결된다.


5. Big Data is just a tool. 빅데이터는 단지 도구일 뿐이다


6. You should embrace the Bayesian approach. 베이지안 접근을 포용해야 한다.


7. No one cares how you did it. 당신이 어떤 방법을 사용했는가는 사용자 입장에서는 중요하지 않다.


8. Academia and business are two different worlds. 학계와 산업계는 서로 다른 세계다


9. Presentation is key - be a master of Power Point. 프리젠테이션이 핵심이다. 파워포인트의 마스터가 되어라!


10. All models are false, but some are useful. 모든 모델은 틀렸다. 하지만 몇몇은 유용하다.


11. There is no fully automated Data Science. You need to get your hands dirty. 완전 자동화된 데이터 과학 같은 것은 없다. 인간이 개입되어야 할 부분이 있다.

Sources : www.linkedin.com/pulse/inconvenient-truth-data-science-kamil-bartocha/

 

반응형