프로젝트 개요
프로젝트 명 : 시를 잊은 그대에게 - 취향에 맞는 시집을 분류해 추천드립니다
프로젝트 기간 : 2022년 6월 22 ~ 2022년 6월 27일
사용 데이터 : 알라딘, DBPia에서 파싱한 데이터
사용 모델 : K-means Clustering
웹 : Flask, Google Data Studio
이전부터 한 번은 해보고 싶었던 출판-문학을 주제로 프로젝트를 진행할 수 있어 하는 동안 즐거웠습니다. 웹상에서 BeautifulSoup이나 Selenium을 활용해서 필요한 데이터를 직접 구축하고, 배포까지는 안 했지만 배포할 수 있는 웹 서비스의 형태로 구성하는 과정이 특히 흥미로웠습니다.
항상 느끼는 거지만 문화 영역은 대부분이 수치화하기 힘든 질적 데이터로 구성되어 있어 접근하는 것이 어렵게 느껴집니다. 이번 프로젝트에서도 csv 파일 형식으로 구성된 적합한 데이터를 찾지 못했고, 알라딘에서 데이터를 파싱하는 과정에서도 추천 알고리즘을 구성하기 위한 독자에 대한 데이터를 찾을 수 없어 웹 서비스로 구현할 정도의 퀄리티 있는 서비스를 구성하는 데에는 실패했다고 생각합니다.
Selenium을 활용해 데이터를 가져오는 과정에서도 데이터가 누락되는 일이 발생하였습니다. 검색어를 입력하고 그 검색 개수를 가져오는 방식에서, 검색 결과가 많은 경우 로딩이 길어지면서 오히려 검색 결과를 가져오지 못해 'None' 값으로 입력되는 일들이 빈번하게 발생했습니다. 이런 이유로 클러스터링 모델의 설명력에도 다소 문제가 있을 것으로 예상됩니다. 다만, 이번 프로젝트는 이런 아이디어를 웹 상에서 작동시키는 것이 목적이었기에 소기의 목적은 달성한 것 같습니다.
이처럼 아쉬움도 많았던 프로젝트지만 같은 주제를 앞으로 발전시키기 위한 방향성을 잡았다는 데에는 큰 의의를 두고 싶습니다. 시간 관계상 가져오지 못했던 트위터 언급수, 그리고 통일되지 않은 형태로 제시되어 가져오지 못했던 작가 데이터나 책 소개 등은 이후 자연어 처리를 통해 보완하여 도입하고자 합니다. 이런 데이터들을 (만약 제공받을 수 있다면) 책 구매자 데이터와 병합하여 보다 성공적인 추천 서비스를 만들 수 있을 것 같습니다.
이정도 목표를 가지고 웹 디자인, 배포, 그리고 자연어 처리를 공부해 나가면서 기회가 된다면 다시 도전해보고 싶은 흥미로운 주제였습니다.
'Project' 카테고리의 다른 글
[Deep Learning] Gerhard Richter 소개하기 (자연어 처리, GAN) (0) | 2022.08.05 |
---|---|
[Machine Learning & Data Engineering] 시집 데이터를 분류해 추천하는 서비스를 웹으로 구현해보기 - 2 (0) | 2022.06.28 |
[Machine Learning & Data Engineering] 시집 데이터를 분류해 추천하는 서비스를 웹으로 구현해보기 - 1 (0) | 2022.06.28 |
[Machine Learning] 무엇이 미량영양소의 결핍을 야기하는가? (RandomForestClassifier) -2 (0) | 2022.06.14 |
[Machine Learning] 무엇이 미량영양소의 결핍을 야기하는가? - 1 (0) | 2022.06.13 |