2020. 9. 12. 18:09ㆍ캐리의 데이터 세상/캐리의 데이터 공부 기록
마지막 팀 프로젝트를 준비하면서 주제가 자주 엎어지고 있긴 하지만 일단 개인 관심사로 찾아본 것들 기록.
확실히 머신러닝-딥러닝 과정의 특정 알고리즘 바탕의 프로젝트 사례들을 찾아보면 한국 자료는 수적으로 일단 부족하다. 물론 지금은 어떻게 돌아가는지 알아가는 과정이라 한국어 자료가 소중하긴 하지만 영문 자료 찾아 볼수록 내가 직접 분석하고 구현해 보고 싶은 주제들 아이디어들이 계속 떠오른다.
- Fake news detection 가짜 뉴스 탐지
나름 언론학도로서 그리고 한때 기자 지망생으로 가장 먼저 해보고 싶었던 것이 가짜 뉴스 걸러내기. 논문들 찾아보다가 딱 링크의 연구 같은 모델을 해보면 좋겠다 생각했는데 변수가 너무 많고 현재 캐파로는 힘들지 않을까 해서 NLP 전반적인 모델링 처리과정을 다 볼 수 있는 참고자료로 두고 공부용으로. NLP에서 다룰 수 있는 건 다 다루는 91페이지짜리 논문.
**Fake news detection using machine learning 참고 논문 링크**
내가 생각한 변수는 일단 자연어 처리에서 한글 분석을 위한 라이브러리가 부족하고 한국어의 문맥상 느낌을 분리해 내는 전처리 과정 특히 한국어의 조사와 부사 한단어에 따라 낚시성 기사로 만들어 버리는 타이틀이 많은 것에서 원하는 결과를 도출하긴 힘들 것 같았다. 이런 걸 떠나서... 대개 미국 언론 기사의 가짜 뉴스 관련 프로젝트는 신뢰성 있는 언론을 뉴욕타임스와 워싱턴포스트를 두고 비교하면서 검증을 하던데 과연 한국에는 모델로 삼을 신뢰할만한 언론이 없다는 게 가장 큰 문제이기에. 그리고 낚시성 기사의 최고봉은 고의적으로 기사 낚시를 하는 유튜브 영상들 및 페이스북으로 공유되는 기사들인데 크롤링이 힘든 것도 과제.
만약에 한다면, 시도해보고자 하는 가짜뉴스 관련 주제를 생각해 봤는데,
70프로 이상 포털에서 뉴스를 소비하는 실태의 언론환경에서 수많은 언론사들이 생산해 내는 기사들 중에 과연 보도자료 베껴쓰기가 아닌 뉴스의 비중은 얼마나 될지 검증하는 건 어떨까 싶다.
최근 미디어오늘 기사 중에 대전 지역 언론의 기사 60프로가 보도자료 기사라는 점에 착안해서. 각 기관의 보도자료 대비 포털에 올라오는 기사들의 유사성을 검증해서 언론사별로 보도자료 기사 비중 및 유사도도 확률로 보여줄 수 있을 것이고 그에 따른 랭킹을 매기는 것도.
실시간으로 한 언론사의 기사가 베껴쓰기인지 확인하려면 비교 보도자료는 학습을 위해 연합뉴스, 뉴시스 등 통신사 발 기사를 특정해서 비교군으로 두면 어떨까 생각해봤다. 기간을 넓게 잡으려고 생각하다 보니 막막했는데 이 정도는 3일에서 일주일 정도로만 기간 한정한 기사로만 한다면 금방 해볼 수 있을 것 같으니 개인 과제로 남겨두고 조만간 해봐야겠다.
추가 자료 영상 및 사이트 링크
(미국 학생이.. HackMIT에서 24시간 내에 완성한 프로젝트라는데 깃헙 코드까지 있음)
- TensorFlow 튜토리얼 (사이킷런에서 텐서플로 넘어오면서 헷갈리기 시작. 튜토리얼 영상들로 보충)
주말은 Mask R-CNN 관련 영상들, 외국 논문들 찾아보며 이해하는게 목표.
아. 코세라 앤드류 응 딥러닝 강의는 청강모드에서 결제하고 소화중. 49불로 한달안에 끝내야 한다:)
공부기록 코너는 그날그날 새롭게 접한 내용들 관련해서 정리해서 쫙 올려보는게 목표였으나, 지금은 공부하는데 시간을 더 쏟아야 할 것 같아서 찾아본 자료들 출처 정리용으로 매일매일 어떤내용 찾아보고 공부했는지 정도만 끄적이고 대신에 내 생각들 적어보는 방향으로. 10여년 나라를 바꿔가며 일했던 경험들에 적용하면서 어떤 걸 해볼 수 있을까 고민하는 것도 의미가 있으리라.
'캐리의 데이터 세상 > 캐리의 데이터 공부 기록' 카테고리의 다른 글
9/25 공부 기록 (1) | 2020.09.25 |
---|---|
Mask R-CNN - 가상환경에서 Demo 돌려보기 (0) | 2020.09.18 |
9/16 공부 기록 (0) | 2020.09.16 |
Coursera 코세라 딥러닝 강의 듣기 (0) | 2020.09.07 |
데이콘 대회 참여하기 (1) | 2020.08.26 |
판다스 get_dummies (0) | 2020.08.25 |
군집화 (Clustering) (0) | 2020.08.25 |