캐리의 데이터 세상(81)
-
데이콘 대회 참여하기
전세계 집단 지성의 대표적 커뮤니티로 꼽히는 캐글(Kaggle)을 알게 된 지도 얼마 안되었는데, 한국에도 비슷한 커뮤니티가 있다. 바로 데이콘! 머신러닝 실습을 위해선 가장 기본이 충분한 데이터를 확보하는 것인데 실제 기업에 다니거나 관련 업종에 발을 담그고 있지 않는 이상 연습용으로 활용할 만한 제대로된 데이터를 찾기는 힘든게 사실. (공공데이터나 UCI 자료 통해서도 오래된 데이터들 연습할 수 있겠지만 책에서 다루지 않은 내용들 직접 도전해보기 위한 로데이터를 구하기란 힘들다) 스파르타긴 했지만 분류, 회귀, 군집화 등 모델링 및 예측까지 이론을 배우고 실습해 봤으니 본격적으로 데이터를 스스로 다룰 수 있는 능력을 길러야 할 터. 조금은 정제된 데이터 및 한글로 설명이 곁들여져있는 데이콘의 교육용 ..
2020.08.26 -
판다스 get_dummies
두 시간째 자료형 오류로 멘탈이 나가는 중. ValueError: could not convert string to float: 모델 만들고 학습 시키는 중인데.................... 회귀분석을 위해 범주형 문자열 값을 숫자형으로 변환하려고 get_dummies()를 사용했건만 자꾸 오류 등장에 다시 뜯어보는 중...더 코드 길어지기 전에 다시 하는것도 방법이겠거니. pandas.get_dummies pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) Convert categorical variable into dum..
2020.08.25 -
군집화 (Clustering)
군집화와 분류 차이점을 이미지로 비교하고, 군집화의 활용 사례와 유의 사항, 문제점, 알고리즘에 대해 알아보겠습니다. 1. 군집화(Clustering)과 분류(Classification) 차이 분류 : y값이 있고, Supervised, 사전에 정의된 범주가 있으며(labeled), 그 데이터로부터 예측 모델 학습 군집화 : y값 없고, Unsupervised, 범주 없으며(unlabeled), 데이터에서 최적 그룹을 찾아가는 문제 2. Clustering 활용 사례 : market segmentation social network analysis search result grouping medical imaging image segmentation anomaly detection 3. Clusterin..
2020.08.25 -
랜덤 포레스트 (Random Forest) 정리
랜덤 포레스트는 언제 왜 쓰는 것인가에 대한 기본적인 질문에 대해 영상들 찾아보면서 정리한 내용입니다. 방대한 양을 다루는 머신러닝 교재에서는 아주 짤막하게만 다루고 바로 빌트인 모델을 돌리며 패키지 활용에만 중점을 맞추다 보니 궁금증 많은 초심자 1인으로 얕게 찾아본 내용들. 추가 자료 찾을 때마다 계속 업데이트. 랜덤 포레스트 개요 먼저 머신러닝 과정은 파이썬에서 사이킷런(Scikit Learn) 라이브러리를 사용하고 있기에 사이킷런 알고리즘 치트 시트를 다시 살펴보고, Sources : scikit-learn.org Random Forest란? (이하 줄여서 RF) 기계 학습에서의 랜덤 포레스트(영어: random forest)는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 ..
2020.08.15 -
비전공자 머신러닝 혼자 공부하기 커리큘럼(feat.선형대수)
3개월째 정부 지원 교육 - 머신러닝 과정에 매일 풀타임으로 공부하고 있는 1인. 수업 첫 주부터 시작했던 자바의 그 낯섦을 잊을 수 없다. 자바, 스프링, R, 파이썬 등을 거쳐 내가 가장 관심 있었던 파이썬 기반 머신러닝 과정에 진입하면서 수많은 영상과 자료들 리스트에만 저장해놓고 빠른 진도에 허덕이다 멘붕이 왔던 날을 돌아보며 나만의 베이스 학습 영상 루틴을 정해놓고 다른 자료들은 그때그때 찾아보며 익히는 길이 지금 시점에서는 가장 바람직할 것 같다. 6개월 과정 중에 4개월 이론 + 2개월 프로젝트로 진행되는데 이제 이론수업이 앞으로 딱 한 달 남은 상황. 어차피 단기로 잠깐 공부하고 그만둘 건 아니고 커리어 전환을 목표로 시작했기에 기초 소양을 잘 쌓고 어떻게 매일 마다 쏟아지는 신기술과 업계 ..
2020.08.13 -
머신러닝(Machine Learning) 분류
머신러닝 수업을 시작하긴 했으나 낯선 용어들과 빠른 진도로 큰 그림을 보기에는 부족한 것 같아서 개념들, 관련 영상들 찾아보면서 익히는 내용들 정리해 봅니다. 600페이지가 넘는 교재로 수업을 듣고 있기에 기본 개념들은 책에서 살짝 발췌하되 다루는 예제들도 이미 전 세계적으로 알려진 오픈소스니 영어 영상들 검색하면 다 나옵니다. 회귀, 강화학습 등 우리말로 풀었을 때 더 애매한 한자어들 어차피 코드 짜려면 다 영어라서 영어 표기도 함께! 먼저 AI, 머신러닝, 딥러닝의 개념을 아래 표와 함께 간단하게 정의하면, 인공지능 / 머신러닝 / 딥러닝 정의 인공지능(Artificial Intelligence) : 사고나 학습 등 인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 기술 머신러닝(Machine Lear..
2020.08.10