The Road to Completion — Day 10

배우는 자(Learner Of Life)
3 min readApr 13, 2020

--

10th day — just wanted to be perfectly prepared…

  • 오늘의 성과

가만 보니 나의 데이터가 자주 나오는 단어의 순으로 정렬되어 있지 않은 것을 확인했다. 나의 데이터의 특성은 워낙 데이터의 양(단어의 수)이 방대하여 이를 명확하게 보여주기 위해서는 반드시 단어들을 빈도수의 순서대로 정렬하는 것이 필요했다. 그래서 단어들을 데이터베이스에 저장하기 전에 자주 나오는 단어의 순서대로 데이터를 재정리했다.

그림 1. 데이터(단어들)을 자주 나오는 빈도의 수(word_count) 에 따라 정렬한 모습

자, 이제는 정말 데이터를 시각화하기 위한 기본적인 준비가 끝났다고 볼 수 있다. 그에 대한 부분은 현재 작업 중이기 때문에 내일 부터 본격적으로 다루기로 하겠다.

  • 내일 할일

이제는 정말 데이터의 시각화가 필요하다. Word Cloud의 경우, jQCloud(https://mistic100.github.io/jQCloud/) 라는 것을 통해 jquery상에서 가져올 수 있을 것 같은데 문제는 grouped horizontal bar chart다. 이는 가로 형태의 히스토그램의 한 종류로, 각 단어마다 빈도수와 전체 문서에서 차지하는 비율을 나타내기 위해 반드시 필요한 툴이다. 대략적인 모습은 아래와 같다.

그림 2. 내가 원하는 이상적인 bar chart의 모습.

이를 구현하기 위해서 리소스를 찾고 있다. 다행히도 찾은 것 같기도 하다, (http://www.jqchart.com/jquery/chart/ChartTypes/StackedGroupedBarChart) 이를 참조해 볼 것이다.

이번 난관 만 넘으면 최종 목표를 달성한다. 일단 나의 목표는 최대한 이번 7주차 수업 이전까지 시각화에 필요한 모든 작업들을 마무리하고, 조금 더 툴을 수정해 보는 것이다. 그 작업은 나의 툴에서 doc파일에서 텍스트를 읽어올 수 있게 하는 것이다. 왜냐하면 doc파일이 가장 많이 사용되는 문서의 파일 포맷이기 때문이다. (지금 이렇게 txt 형태의 파일만 처리할 수 있는 것은 가용성이 크게 떨어진다고 본다.) 그렇게 해서 나의 프로젝트가 누구에게나 정말 쓸모있는 툴이 되었으면 좋겠다.

이제 정말 가장 중요한 단계가 남았다.

--

--

배우는 자(Learner Of Life)
배우는 자(Learner Of Life)

Written by 배우는 자(Learner Of Life)

배움은 죽을 때까지 끝이 없다. 어쩌면 그게 우리가 살아있다는 증거일지도 모른다. 배움을 멈추는 순간, 혹은 배움의 기회가 더 이상 존재하지 않는 순간, 우리의 삶은 어쩌면 거기서 끝나는 것은 아닐까? 나는 배운다 그러므로 나는 존재한다. 배울 수 있음에, 그래서 살아 있음에 감사한다.

No responses yet