캐리의 데이터 세상(81)
-
오차 행렬(confusion matrix)로 분류 성능 평가
빅데이터 분석기사 시험에서 여러 형태로 출제되었던 confusion matrix 관련 기본 개념과 더불어 사이킷런 함수를 활용하여 분류기의 지표를 계산해 보겠습니다. 단순히 행렬 표와 정밀도, 재현율, F1 score 식만 외웠다면 시험용 한 번에 불과할 테니 어떻게 쓰이는지 핸즈온 머신러닝 책에 수록된 예시로 정리합니다. 그리고 MNIST 숫자 이미지 데이터셋을 지문으로 주어진 다음에 어떤 알고리즘이 쓰일 것인가 묻는 문제도 빅분기에서 출제되었는데요, 같이 활용해 보겠습니다^^ 참고 : MNIST 데이터셋은 고등학생과 미국 인구조사국 직원들이 손으로 쓴 70,000개의 작은 숫자 이미지를 모은 것입니다. 각 이미지에는 어떤 숫자를 나타내는지 레이블이 되어 있으며, 학습용으로 아주 많이 쓰입니다. 1. ..
2021.04.24 -
파이썬 리스트 명령어
파이썬에서 많이 사용되는 리스트(list) 활용법에 대해 간략하게 정리해 봅니다. 다른 프로그래밍 언어에서는 Array 배열이라고도 부르죠. 파이썬에서 리스트를 사용하면 하나의 변수 안에 여러 개의 숫자 및 문자가 접근할 수 있게 됩니다. 리스트에서는 인덱스(index)로 항목을 관리하는데요, index는 리스트 안에 들어있는 항목의 위치로 생각할 수 있습니다. 리스트 안에 항목 위치는 항상 [0]부터 시작하며, [1], [2], [3],.... 순서대로 인덱스가 증가합니다. 1. 파이썬 리스트의 활용 명령어 내용 .append(항목) 리스트 마지막에 항목 추가 .insert(index, 항목) 리스트 중간에 항목 추가 .remove(항목) 리스트 항목 지우기 del[index] index를 사용하여 리..
2021.04.23 -
코로나 시대, 여행 트렌드
해외여행이 원천적으로 봉쇄된 1년 동안, 한국 사람들은 어떤 여행 옵션을 선택했는지 또 세대별로 어떤 차이가 있는지 관광이동 행태를 분석한 한국관광공사 발표 자료 소개합니다. 이동 행태 분류에는 군집분석을 사용, 데이터 분석 결과에 대한 해석까지 자세하게 담겨 있어서 관심 있는 분들은 하단의 자료 출처 참고. 1. 2021 국내여행트렌드 코로나로 인한 불안감과 회복 기대감의 ‘사이’를 나타내는 BETWEEN로 선정 Break(균열) 코로나 19로 인한 여행산업의 변동 Encourage (위로) 위로를 전하는 일상 속 힐링 여행 Tie (연결) 더욱 끈끈해진 인근 지자체 간의 네트워크 Wherever (어디든 관광지) 내가 가는 곳이 여행 명소 Enhance (강화) 친밀한 사람들과 함께 즐기는 여행 Ex..
2021.04.14 -
디지털 트윈(Digital Twin) 정리
디지털 트윈, 메타 버스, 디지털 트랜스포매이션 등 코로나 상황 이후 더 자주 등장하고 있는 용어들 중에 디지털 트윈(Digital Twin)에 대해서 정리해 봤습니다. 기사나 각종 보고서들은 검색을 통해서 쉽게 찾을 수 있는데요, 최근 기술 동향이나 개념에 대해 정리해 놓은 한국전자통신연구원(ETRI)의 보고서를 주로 인용했습니다. 1. 디지털 트윈이란? 디지털 트윈(digital twin)은 미국 제너럴 일렉트릭(GE)이 주창한 개념으로, 컴퓨터에 현실 속 사물의 쌍둥이를 만들고, 현실에서 발생할 수 있는 상황을 컴퓨터로 시뮬레이션함으로써 결과를 미리 예측하는 기술이다 디지털 트윈은 제조업뿐 아니라 다양한 산업·사회 문제를 해결할 수 있는 기술로 주목 받는다. 그리고 기본적으로는 다양한 물리적 시스템..
2021.04.12 -
GPT-3란 무엇인가
최근 SKT에서 GPT-3 수준 한국어 AI 모델 개발에 나서겠다고 발표, 네이버 또한 지난해 하반기부터 자체적으로 한국어, 일본어판 GPT-3 개발에 들어갔다고 한다. GPT-3가 그럼 도대체 무엇인지 알기 위해, 2020년 6월 OpenAI가 공개한 GPT-3(Generative Pre-Trained Transformer 3) 관련 자료들을 아래와 같이 정리.1. GPT-3 개요GPT-3는 핵심어만 몇 개 넣으면 알아서 문장으로 만들어주는 기술인데, 500자 중문에서 일반 성인과 비슷한 수준으로 글을 만들어낸다. GPT-3은 기존 GPT–2의 개량 모델로 방대한 양의 데이터셋(3000억 개의 토큰)과 매개변수(1750억 개)를 갖춘 자연어 모델 기반의 딥러닝 시스템GPT-3는 문자 데이터 내에서 목적..
2021.04.11 -
인공지능(AI) 스피커 시장 규모
얼마 전 창년에서 인공지능 스피커인 아리아가 쓰러진 80대 할머니를 위한 구조 요청에 큰 역할을 했다는 기사를 보고 나서 홀로 사는 노인 돌봄 서비스에 인공지능을 접목시키는 시도들에 대해 한번 찾아보다가 AI 스피커 전체 시장은 어느 규모인지 구글 검색으로 통계 자료들을 찾아봤습니다. 로우데이터는 링크로 연결된 사이트에서 직접 확인. 조사 기관에 따라 통계 수치는 약간 차이가 있는 것 같습니다. 1. 인공지능 스피커 마켓 쉐어지난 4분기 기준, 아마존이 전체 마켓 28.3% 차지, 구글이 22.6%로 바짝 좇고 있습니다. 그 뒤를 중국 벤더인 Baidu, Alibaba, Xiaomi가 최근 조사에서 비중이 높아지고 있는데요, 중국 국내 마켓의 수요 급증에 따른 것.Sources : Market share..
2021.04.10