전체 글(400)
-
공개 데이터셋 리스트(참고자료)
실습 위한 데이터셋 리스트 유명 공개 데이터 저장소 - UC Irvine 머신러닝 저장소 - Kaggle 데이터셋 - 아마존 AWS 데이터셋 메타 포털(공개 데이터 저장소 나열됨) - 데이터 포털 - 오픈 데이터 모니터 - 퀀들 인기 있는 공개 데이터 저장소가 나열되어 있는 다른 페이지 - 위키백과 머신러닝 데이터셋 목록 - Quora.com - 데이터셋 서브레딧 Reference : Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition 외국 데이터 관련 영상들에서 많이 추천하던 오렐리의 핸즈온 머신러닝 2판 번역서 찬찬히 보는 중이라 참고할 만한 자료 꾸준히 업데이트 해보겠습니다:) 952p 분량의 압박이 있는 2..
2020.10.04 -
Coursera - Deep Learning 수료증 / 코세라 실습 파일 다운받기
앤드류 응 교수의 Deep Learning 특화과정의 5개 중 1단계 complete! 청강 모드로 듣는 다면 certificate가 안 나오고 연습문제들도 풀어보기 애매하니 49 usd/month 구독료를 주고 시작했는데 한 달 안에 완료 못하면 또 돈이 추가되니 쫄리는 마음으로 추석 연휴에 몰아서 오늘 완료. 각 단계별로도 course certificate가 나오지만 5단계 전체를 완료하면 Specialization 써티가 나온다. 청강 모드로 이것저것 건드려 보긴 했지만 돈내고는 처음 시도하는 터라 특화 과정에 대한 구독료 개념 이해가 부족했나 보다. 5개 과정 전체를 천천히 한 달에 하나씩 끝내야지 생각하고 여유 부리고 있었는데 2단계 강좌 구독 또한 별도 비용 지불 단계 없이 이어짐 고로 내가 ..
2020.10.03 -
9/25 공부 기록
며칠 동안 삽질 끝에 custom 데이터로 mask rcnn 구동ㅠㅠ 서버컴이 오기 전이라 랩탑 가상 환경에서 돌리느라 최대한 train 데이터 적게 잡고 시도 끝에 log폴더에 내가 라벨링 한 데이터로 학습한 weight가 생성되었다. 오류 하나를 수정하면 또 다른 오류들의 등장으로 며칠 멘붕이었지만 일단 모델이 잘 작동하는걸 확인했으니 이제 작업 데이터 양을 늘려서 라벨링을 내일 하루 동안 또 해야 할 듯. 등장했던 오류들 몇 가지 converting sparse indexedSlices to a dense Tensor of unknown shape could not find a format to read the specified file in %s mde % moename Input image dt..
2020.09.25 -
Mask R-CNN - 가상환경에서 Demo 돌려보기
윈도우 10, Anaconda, 가상환경으로 Mask R CNN 모델 돌려봄. CUDA 오류 때문에 버전을 이리저리 바꿔봐도 오류가 계속 났기에 가상 환경으로 시도! 오늘도 블로그와 유튜브 스승님들의 도움으로 한 발짝씩 나아갑니다ㅠㅠ 특히 아래 블로그에서 Tensorflow와 Keras 버전을 각각 아래와 같이 낮추라고 코멘트 해준 덕분에 한 번에 완료되었다! tensorflow==1.5.0 keras==2.1.6 Mask RCNN 셋업 관련 블로그 링크 Mask RCNN 셋업 유튜브 링크 ※ Mask R-CNN 관련 참고 개요 : github.com/matterport/Mask_RCNN 논문 : arxiv.org/pdf/1703.06870.pdf PR12 논문 읽기의 Mask R-CNN 편(유튜브) :..
2020.09.18 -
9/16 공부 기록
이론 수업은 거의 끝나가는데 워낙 방대한 분량을 빠르게 훑는 수준으로 끝내다 보니 기초가 아주 많이 부족하다. 특히 속도가 안 나는 건 이론이 이해되어야만 다음 단계 넘어가서 적용하는 게 오랜 습관으로 배어있는 것 같은데 이건 이렇게 하는 거야 라는 주입에는 잘 안 맞는 것 같아서 서치 신공으로 따로 자료를 계속 보는 중. 진도 나갈수록 아... 결국 수학이 중요하구나를 하루하루 느낀다. 이미 진도는 나갔지만 기억에서 가물가물해 진 것들, 헷갈리는 것들 체크리스트 - Numpy, Vector, 행렬 구조 - JSON - Flask - DB, 쿼리문 - 이미지 벡터화, 전처리 이렇게 알려주는 사람이 있다면 진짜 한 번에 이해됐을 것 같은 손뼉 치며 봤던 유튜브 영상 링크로. 신경망을 설명하기 전에 Neur..
2020.09.16 -
9/12 인공지능 공부기록
마지막 팀 프로젝트를 준비하면서 주제가 자주 엎어지고 있긴 하지만 일단 개인 관심사로 찾아본 것들 기록. 확실히 머신러닝-딥러닝 과정의 특정 알고리즘 바탕의 프로젝트 사례들을 찾아보면 한국 자료는 수적으로 일단 부족하다. 물론 지금은 어떻게 돌아가는지 알아가는 과정이라 한국어 자료가 소중하긴 하지만 영문 자료 찾아 볼수록 내가 직접 분석하고 구현해 보고 싶은 주제들 아이디어들이 계속 떠오른다. Fake news detection 가짜 뉴스 탐지 나름 언론학도로서 그리고 한때 기자 지망생으로 가장 먼저 해보고 싶었던 것이 가짜 뉴스 걸러내기. 논문들 찾아보다가 딱 링크의 연구 같은 모델을 해보면 좋겠다 생각했는데 변수가 너무 많고 현재 캐파로는 힘들지 않을까 해서 NLP 전반적인 모델링 처리과정을 다 볼 ..
2020.09.12 -
Coursera 코세라 딥러닝 강의 듣기
전 세계 유명 강의를 온라인으로 들을 수 있는 이제는 너무나 유명해진 코세라 강의 www.coursera.org/ 코세라 강의 청강 간간히 커리큘럼 눈팅하면서 해당 교수진들의 강의를 유튜브로 찾아서 듣곤 하다가 현재 듣고 있는 수업으로 채워지지 않는 부분을 해소코자 일단 관심 강의 2개 청강 신청! 당연히 수료증 취득을 목표로 하지만 한 달 안에 온전히 강의를 끝마치지 못하면 수료증 취득을 위해 월별 요금이 부과되는 형태라 일주일 동안 청강모드로 최대한 들어보고 업그레이드할 예정. 수료증을 위한 요금 또한 과정별로 차이가 있으니 참고! Neural Networks and Deep Learning (Andrew Ng /deeplearning.ai) People Analytics (UNIVERSITY OF ..
2020.09.07 -
2020년 9월, 한국 생활 안정기
2020년도 3분의 2가 흘렀다. 코로나 시국의 peak를 함께 했던 베트남에서의 3분의 1, 귀국 후 맨땅에 헤딩 인공지능 교육과정 돌입으로 또 3분의 1, 이제 남은 9월부터의 마지막 3분의 1은 수업 마무리 & 새로운 시작으로 올해를 마무리해야 할 터. 한동안 매일 글 쓰다가 8월 초 구글 애드센스 심사 1차 탈락 후 급 방치된 티스토리를 다시 살려보고자 한다. 하반기는 물론이거니와 적어도 내년 초까지는 이 코로나로 바뀐 세상 패턴이 계속되겠지. 경제활동을 몇 달 동안 안 하고 새로운 공부를 하면서 잠시 떨어져 있으니 지난 세월들을 계속 돌아본다. 20살 대학생활을 위해 서울로 상경한 후 지금까지 쭉 십수 년 타지 생활 중에 이제는 서울에서 보낸 시간이 대학 4년 + 직장생활 3년밖에 안된다는 거...
2020.09.06 -
데이콘 대회 참여하기
전세계 집단 지성의 대표적 커뮤니티로 꼽히는 캐글(Kaggle)을 알게 된 지도 얼마 안되었는데, 한국에도 비슷한 커뮤니티가 있다. 바로 데이콘! 머신러닝 실습을 위해선 가장 기본이 충분한 데이터를 확보하는 것인데 실제 기업에 다니거나 관련 업종에 발을 담그고 있지 않는 이상 연습용으로 활용할 만한 제대로된 데이터를 찾기는 힘든게 사실. (공공데이터나 UCI 자료 통해서도 오래된 데이터들 연습할 수 있겠지만 책에서 다루지 않은 내용들 직접 도전해보기 위한 로데이터를 구하기란 힘들다) 스파르타긴 했지만 분류, 회귀, 군집화 등 모델링 및 예측까지 이론을 배우고 실습해 봤으니 본격적으로 데이터를 스스로 다룰 수 있는 능력을 길러야 할 터. 조금은 정제된 데이터 및 한글로 설명이 곁들여져있는 데이콘의 교육용 ..
2020.08.26 -
판다스 get_dummies
두 시간째 자료형 오류로 멘탈이 나가는 중. ValueError: could not convert string to float: 모델 만들고 학습 시키는 중인데.................... 회귀분석을 위해 범주형 문자열 값을 숫자형으로 변환하려고 get_dummies()를 사용했건만 자꾸 오류 등장에 다시 뜯어보는 중...더 코드 길어지기 전에 다시 하는것도 방법이겠거니. pandas.get_dummies pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) Convert categorical variable into dum..
2020.08.25 -
군집화 (Clustering)
군집화와 분류 차이점을 이미지로 비교하고, 군집화의 활용 사례와 유의 사항, 문제점, 알고리즘에 대해 알아보겠습니다. 1. 군집화(Clustering)과 분류(Classification) 차이 분류 : y값이 있고, Supervised, 사전에 정의된 범주가 있으며(labeled), 그 데이터로부터 예측 모델 학습 군집화 : y값 없고, Unsupervised, 범주 없으며(unlabeled), 데이터에서 최적 그룹을 찾아가는 문제 2. Clustering 활용 사례 : market segmentation social network analysis search result grouping medical imaging image segmentation anomaly detection 3. Clusterin..
2020.08.25 -
공부 다짐.
인공지능 과정을 공부하겠다고 마음먹고 베트남을 떠난 지 4개월, 교육 과정도 3개월이 지나면서 이론 수업 막바지를 향해가고 있는 시점. 아무래도 서른 중반까지 거의 마주친 적이 없던 분야라 그 낯섦에 적응하는데 3개월이 걸린 것 같다. 진도 속도는 빠른데 이해는 안 되고 수업은 따라가야겠고 몸은 안 따라 주면서 멘탈이 붕괴되었던 적도 간간히 있었고 흔들리기도 했지만 머신러닝 단계로 들어서면서 꽤 재미를 느끼고 있기에 다시 한번 왜 공부를 시작하게 되었는지를 되돌아보며 다짐용으로 끄적여 본다. 변화를 인정하고 앞서 나가기. 내가 몇 달이나 미루고 미뤘던 뉴욕타임즈 구독 취소. 베트남에서 외국계 회사에서 홀로 한국인으로 몇 년을 영어로 버티면서도 항상 부족함을 느껴 공부를 좀 더 해보겠다고 뉴욕타임즈 All..
2020.08.22 -
[책리뷰]월든(WALDEN) by 헨리 데이비드 소로
"내가 숲 속으로 들어간 이유는 깨어 있는 삶을 살기 위해서였다. 그리고 가능한 한 체념하지 않는 삶을 살고 싶었다." 휴가지 숲 속에서 바람맞으며 누워 읽기 시작했던, 그리고 아직도 읽고 있는 3년전 쯤 도서관에서 우연히 빳빳한 초록색 귀여운 펭귄 출판사 번역판을 집어 들었다가 도대체 무슨 내용인가 잘 와 닿지도 않고 지겨워서 놓았던 책인데 누군가의 추천도 있었고 끌림에 사서 시간 날 때마다 조금씩 읽고 있다. 작가가 직접 1845년부터 1847년까지 월든이라는 호숫가에 오두막을 짓고 2년 2개월 동안 살아간 이야기. 자연을 시적으로 표현하는 수필인가 싶다가도 사색하며 삶과 사회에 대한 철학적인 질문을 던지다가 비판도 하고 대안도 제시하는 등. 오묘한 책이다. 특히 풍경을 그려내는 생생한 묘사를 읽고 ..
2020.08.22 -
랜덤 포레스트 (Random Forest) 정리
랜덤 포레스트는 언제 왜 쓰는 것인가에 대한 기본적인 질문에 대해 영상들 찾아보면서 정리한 내용입니다. 방대한 양을 다루는 머신러닝 교재에서는 아주 짤막하게만 다루고 바로 빌트인 모델을 돌리며 패키지 활용에만 중점을 맞추다 보니 궁금증 많은 초심자 1인으로 얕게 찾아본 내용들. 추가 자료 찾을 때마다 계속 업데이트. 랜덤 포레스트 개요 먼저 머신러닝 과정은 파이썬에서 사이킷런(Scikit Learn) 라이브러리를 사용하고 있기에 사이킷런 알고리즘 치트 시트를 다시 살펴보고, Sources : scikit-learn.org Random Forest란? (이하 줄여서 RF) 기계 학습에서의 랜덤 포레스트(영어: random forest)는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 ..
2020.08.15 -
다이어트 +60일 -6kg 감량 기록
다이어트를 시작한 지 두 달. 얼마나 변했을까. 30일 차에 남겼던 이전 글 참고↓ 2020/07/15 - [캐리의 성장발전소] - 자존감 회복의 끝판왕 다이어트 - 30일 기록 계획했던 것 보다는 조금 모자라지만 그래도 현재 스코어 -6kg. 쭉쭉 빠졌던 첫 달은 철저한 식단과(쌀밥은 거의 안 먹음) 독소 부기 빠짐이었나 보다. 최근 3주는 거의 정체기에 가족 휴가로 3일 먹방+맥주로 자체 치팅 기간이 아주 길었다. 또한 첫 달에는 손에도 일절 대지 않았던 강의실 간식들도 수업시간에 당 땡김이 심해져서 간간히 과자도 먹어주고 한 것 치고는 선방했다. 첫 달 6번 그룹PT 나간 것 빼고는 거의 홈트였고 2달째는 올 홈트. 특히 장마기간이 길었기에 근처 공원 산책도 거의 못하고 오로지 야밤에 집에서만 홈트..
2020.08.13 -
비전공자 머신러닝 혼자 공부하기 커리큘럼(feat.선형대수)
3개월째 정부 지원 교육 - 머신러닝 과정에 매일 풀타임으로 공부하고 있는 1인. 수업 첫 주부터 시작했던 자바의 그 낯섦을 잊을 수 없다. 자바, 스프링, R, 파이썬 등을 거쳐 내가 가장 관심 있었던 파이썬 기반 머신러닝 과정에 진입하면서 수많은 영상과 자료들 리스트에만 저장해놓고 빠른 진도에 허덕이다 멘붕이 왔던 날을 돌아보며 나만의 베이스 학습 영상 루틴을 정해놓고 다른 자료들은 그때그때 찾아보며 익히는 길이 지금 시점에서는 가장 바람직할 것 같다. 6개월 과정 중에 4개월 이론 + 2개월 프로젝트로 진행되는데 이제 이론수업이 앞으로 딱 한 달 남은 상황. 어차피 단기로 잠깐 공부하고 그만둘 건 아니고 커리어 전환을 목표로 시작했기에 기초 소양을 잘 쌓고 어떻게 매일 마다 쏟아지는 신기술과 업계 ..
2020.08.13 -
머신러닝(Machine Learning) 분류
머신러닝 수업을 시작하긴 했으나 낯선 용어들과 빠른 진도로 큰 그림을 보기에는 부족한 것 같아서 개념들, 관련 영상들 찾아보면서 익히는 내용들 정리해 봅니다. 600페이지가 넘는 교재로 수업을 듣고 있기에 기본 개념들은 책에서 살짝 발췌하되 다루는 예제들도 이미 전 세계적으로 알려진 오픈소스니 영어 영상들 검색하면 다 나옵니다. 회귀, 강화학습 등 우리말로 풀었을 때 더 애매한 한자어들 어차피 코드 짜려면 다 영어라서 영어 표기도 함께! 먼저 AI, 머신러닝, 딥러닝의 개념을 아래 표와 함께 간단하게 정의하면, 인공지능 / 머신러닝 / 딥러닝 정의 인공지능(Artificial Intelligence) : 사고나 학습 등 인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 기술 머신러닝(Machine Lear..
2020.08.10 -
영덕 칠보산 자연휴양림 여름 휴가 후기
갑작스러운 폭우로 피해가 극심했던 지난 주말, 제가 살고 있는 남부지역은 폭염주의보.... 캠핑장 코로나 환자 발생 여파로 걱정은 되었으나 다행히 비도 내리지 않고 한정된 인원으로 거리두기를 철저히 했던 자연휴양림에서의 2박 3일, 몇 년만의 온 가족 휴가 잘 다녀왔기에 숲 내음 가득했던 칠보산 자연휴양림 풍경들 남겨봅니다. 치열한 국립휴양림 예약전쟁 8/1~3일 휴가 일정을 6월 말에 픽스하고 장소 또한 마마님이 찍어둔 영덕에 위치한 칠보산 자연휴양림으로 확정했는데 어랏.... 자연휴양림 공식 예약 일정은 이미 일주일이 지난 시점이었다는. 어쩐지 실검 1위에 자연휴양림 예약이 뜬 날이 있었는데 그걸 그냥 지나쳤다니... 숲나들e 예약하기 참고로 전국의 국공립 자연휴양림은 산림청에서 운영하는 숲나들e 사..
2020.08.04 -
귀국 3개월, 잠시 쉬어가기
오랜만의 한국에서의 휴가 드디어 내일부터 열흘 간의 휴가다. 수업도 한 주 쉬고, 내가 귀국하면서 모처럼 온 가족의 완성형 휴가를 짧게나마 갈 수 있게 되었다. 온 가족이 함께 여행간 건 2018년도 3월에 가족들이 나 보러 베트남에 와서 함께 다낭을 갔던 게 마지막. 만약 내가 지금 베트남에 있었다면, 올해는 꼭 사파, 라오스는 가리라 마음 먹었었는데. 향후 몇 년 간은 비행기는 제대로 탈 수 있을지 염려되는 상황이니 해외여행은 언감생심. 국내여행도 조심스럽긴 하니 많은 시간을 가족과 집에서 보내거나 그동안 쌓였던 숙제들을 쳐내는 시간들로 꾸며볼 예정. 일도 안하고 수업 듣는 학생 신분이면서 남는 게 시간일 텐데 무슨 거창한 휴가라고 말하냐 하겠지만, 귀국하자마자 2주 격리하고 바로 주 5일 수업에 돌..
2020.07.30 -
베트남 현지 샐러리 자료 찾는 방법
베트남에서 사업을 하거나 또는 현지에서 관리자로 근무하는 경우, 혹은 거주 예정이거나 공부하러 떠나는 경우 내가 사는 나라의 구성원들이 어느 정도의 월급을 받길래 저런 소비패턴을 보이고 가계를 꾸려 나가나 당연히 궁금해야만 합니다. 이번 포스팅에서는 베트남 현지인들 특히 한국 언론에서는 절대 알 수 없는 베트남 인재들의 급여 수준을 대략적으로 파악할 수 있는 자료를 찾는 방법에 대해 소개하고자 합니다. 앞선 글에서도 살짝 밝혔듯이 제가 베트남에서 하던 일이 회사와 구직자를 연결해 주는 헤드헌팅 업무였습니다. 베트남 현지인들의 CV는 몇 년 동안 질리도록 봐왔는데요, 제조업 등 한 분야에만 국한된 것이 아닌 우리가 생각해봄직한 모든 산업군의 회사들을 다뤘던 탓에 한국 언론에 잠깐씩 조명되는 공단에 위치한 ..
2020.07.29