캐리의 데이터 세상/캐리의 데이터 공부 기록(47)
-
오차 행렬(confusion matrix)로 분류 성능 평가
빅데이터 분석기사 시험에서 여러 형태로 출제되었던 confusion matrix 관련 기본 개념과 더불어 사이킷런 함수를 활용하여 분류기의 지표를 계산해 보겠습니다. 단순히 행렬 표와 정밀도, 재현율, F1 score 식만 외웠다면 시험용 한 번에 불과할 테니 어떻게 쓰이는지 핸즈온 머신러닝 책에 수록된 예시로 정리합니다. 그리고 MNIST 숫자 이미지 데이터셋을 지문으로 주어진 다음에 어떤 알고리즘이 쓰일 것인가 묻는 문제도 빅분기에서 출제되었는데요, 같이 활용해 보겠습니다^^ 참고 : MNIST 데이터셋은 고등학생과 미국 인구조사국 직원들이 손으로 쓴 70,000개의 작은 숫자 이미지를 모은 것입니다. 각 이미지에는 어떤 숫자를 나타내는지 레이블이 되어 있으며, 학습용으로 아주 많이 쓰입니다. 1. ..
2021.04.24 -
GPT-3란 무엇인가
최근 SKT에서 GPT-3 수준 한국어 AI 모델 개발에 나서겠다고 발표, 네이버 또한 지난해 하반기부터 자체적으로 한국어, 일본어판 GPT-3 개발에 들어갔다고 한다. GPT-3가 그럼 도대체 무엇인지 알기 위해, 2020년 6월 OpenAI가 공개한 GPT-3(Generative Pre-Trained Transformer 3) 관련 자료들을 아래와 같이 정리.1. GPT-3 개요GPT-3는 핵심어만 몇 개 넣으면 알아서 문장으로 만들어주는 기술인데, 500자 중문에서 일반 성인과 비슷한 수준으로 글을 만들어낸다. GPT-3은 기존 GPT–2의 개량 모델로 방대한 양의 데이터셋(3000억 개의 토큰)과 매개변수(1750억 개)를 갖춘 자연어 모델 기반의 딥러닝 시스템GPT-3는 문자 데이터 내에서 목적..
2021.04.11 -
데이터 과학의 불편한 진실
데이터 전처리의 중요성 데이터 사이언티스트 Kamil Bartocha의 저서 에 정리된 11가지 데이터 성질 참고. The Inconvenient Truth About Data Science 1. Data is never clean. 데이터는 절대 깨끗하지 않다. 2. You will spend most of your time cleaning and preparing data. 분석의 대부분 시간을 전처리 단계에서 보내게 될 것이다. 3. 95% of tasks do not require deep learning. 95%의 일은 딥러닝이 필요 없다 4. In 90% of cases generalized linear regression will do the trick. 분석의 90%는 일반화 선형 모형으로..
2021.04.06 -
sqld 준비 끄적끄적
기출문제 풀이하면서 두꺼운 SQL 기본서 역으로 찾으면서 다시 점검 중. 왠지 시험에 나올 것 같은 개념들 시험 직전에 보려고 올려 봅니다:) Inner vs. outer vs. cross join 비교 단일행 문자형 함수 예시 ROWNUM / TOP() 사용 View 사용 장점 및 특징 + View는 논리적인 Select 포함하는 Object 로 실제 데이터를 갖고 있지 않고 뷰 정의만 갖고 있음 + 뷰를 제거하기 위해서는 DROP VIEW 문 사용 SQL 문장 종류 + TCL - savepoint Drop, Truncate, delete 비교 트랜잭션 4가지 특징 - Row Chaining / Row Migration 개념 비교- 도메인 (Domain) : 각 속성은 가질 수 있는 값의 범위가 있는데..
2021.03.18 -
오라클 sql 파일 등록 (sqld 실습 soccer.sql파일)
SQL 전문가 가이드 책에 수록된 K 리그 실습파일을 DB에 추가하고 SQL Developer 실행시켜서 확인까지 해보겠습니다:) 저는 Toad나 다른 프로그램 대신에 SQL Developer를 오라클 홈페이지에서 다운받아 사용하고 있습니다. 기본으로 등록되어 있는 EMP 파일과 함께 사용하기 위해서 미리 구현되어 있는 scott 계정에 soccer.sql 파일을 추가했습니다. 1. 프롬프트에서 학습용 계정인 SCOTT 계정을 사용할 수 있는 상태로 만들기 위해서 system 계정으로 들어갑니다. sqlplus system/OOOO (OOO는 오라클 데이터베이스를 설치하면서 설정한 비밀번호 입니다) 2. SCOTT 계정 잠금 풀기! (하기 3줄 그대로 입력해 주세요!) ALTER USER SCOOT ID..
2021.03.06 -
R 패키지 설치 오류 시 해결 방법
아주 오랜만에..ADsP 준비하면서 R 예제 문제를 끄적이다가 일부 패키지 설치 오류에 부딪히면서 해결한 방법 남겨봅니다:) 민트색 ADsP책 325p에 있는 벌점화 후진제거법 예시인 전립선암 자료에서 AIC를 이용한 변수 선택 예시를 실행해보려고 하는데 상기와 같이 ElemStatLearn 패키지가 없다고 뜹니다.ElemStatLearn 패키지 다운 방법!1) stackoverflow 검색 후 답변 링크2) 해당 패키지 아카이브에서 최신 버전 압축파일(tar.gz)을 다운!(링크) 3) R Studio에서 상단 메뉴의Tools -> Install Packages..클릭4)Install from:선택 후Package Archive File (.zip;tar.gz)로 변경하면 팝업창이 뜸5) 팝업창에 2번..
2021.03.03