Yours Ever, Data Chronicles

"나는 코딩도 잘 하는데 왜 데이터 분석이 어렵지?" 라는 생각이 들 때 추천하는 책 - 데이터 읽기의 기술 본문

Data Science/Books for Career

"나는 코딩도 잘 하는데 왜 데이터 분석이 어렵지?" 라는 생각이 들 때 추천하는 책 - 데이터 읽기의 기술

Everly. 2022. 1. 25. 12:45
숫자를 돈으로 바꾸는 데이터 읽기의 기술
- 차현나 지음, 청림출판(2019)

2022.01.24 완독

이 책은 인턴 시절, 다른 인턴 분의 추천으로 동저자의 ‘데이터 쓰기의 기술’이라는 책을 읽어본 적이 있었는데, 이 책의 내용이 좋아서 같은 시리즈였던 ‘데이터 읽기의 기술’은 직접 구매하여 읽어보았다.

이 책은 '데이터 분석'을 아예 모르는 사람들보다는 한번쯤 들어 보았고, 간단한 분석이라도 한번 해본 사람들에게 추천하는 책이다. 왜냐하면 분석을 하면 할수록 생기는 어려움 중 하나인 '배경 지식(암묵지)'에 관한 내용 위주로 들어 있기 때문이다.
데이터 분석을 아예 모르고 처음 접하는 사람들은 데이터 분석은 기술만 있으면 된다고 생각한다. 이를테면 Python, R 등으로 코딩을 잘 해야 하고 머신러닝 몇 개 정도 해보면 곧바로 자신의 업무에 적용 가능하다고 생각한다.

하지만 현실적으로 업무에 적용하기는 매우 어렵다(해보신 분들은 알 것이다.). 왜냐하면 실제로 데이터 분석을 해보면 기술적인 것 외의 문제가 발생하기 때문이다. 대표적으로 나는 2가지 문제가 있다고 생각하는데, 이 내용은 이전에 올린 나의 포스팅인 '초보 데이터 분석가가 느끼는 데이터 분석의 어려운 점에 대한 고찰'(클릭) 에서 확인할 수 있다.

이 책은 데이터 분석가의 어려움 중, 바로 ‘배경 지식(암묵지)’에 관한 내용이다. 데이터 분석에 있어 어떤 방향으로 접근을 하면 좋을지를 알려주는 책이라고 할 수 있다.
특히 내가 존경하는, 1세대 데이터 사이언티스트이신 하용호님께서 이 책의 추천사를 써주셨는데 이 추천사를 읽고 곧바로 구매를 결정했다.

데이터 분석 초기에는 개별 기술에 집착하게 됩니다. R, Python, SQL 등을 다룬 책들을 사고, 열심히 컴퓨터 앞에 앉아 수련을 계속해나갑니다. 하지만 어느 순간 알게 될 겁니다. 이 다음이 필요하다는 것을요. 내가 무엇을 어떤 관점에서 바라보고 어떻게 문제를 정의해나가야 할지는 참으로 배우기가 쉽지 않은 영역입니다.
저 역시도 이런 요청을 많이 받았으나 해결해주기가 참 쉽지 않았습니다. 왜냐하면 ‘관점’이라는 것은 ‘암묵지’의 영역이기 때문입니다. 암묵지란 내가 알고 있으나 말로 표현하기 어려운, 내게 체화된 지식을 말합니다. 흔히 노하우라는 것들이죠. (중략) 저자의 오랜 경험과 고생과 인생을 한 권의 책으로 배울 수 있다니 이 책을 읽을 여러분이 부럽습니다.
- 하용호님의 추천사 중에서

하용호님의 이러한 추천사를 보고 이 책을 사지 않을 수가 없었다. 코딩이나 머신러닝 등 기술적인 부분을 열심히 공부해온 내가, 왜 이렇게 데이터 분석에서 어려움을 겪고 머리가 아파하는 것일까? 그건 바로 나에게 이 ‘암묵지’의 영역이 부족하기 때문이었다.

이 책은 총 3부로 구성되어 있으며,

  • 1부: 데이터가 알려주는 소비자의 마음 10가지: 여기서는 어떻게 데이터를 통해 소비자의 마음을 알아볼 수 있는지 이렇게 분석해보라는 ‘암묵지’를 알려준다.
  • 2부: 데이터 앞에서 해야 할 질문 10가지: 이 파트에서는 데이터 분석을 할 때, 그에 앞서 해야 하는 질문들로 효과적인 데이터 분석을 하기 위해 필요한 것들을 설명한다.
  • 3부: 데이터를 어떻게 활용할 것인가: 실제로 실무에서 프로젝트를 할 때 & 보고서를 쓸 때 고려할 점을 간략히 제시한다.

책을 다 읽어보니, 1부 내용이 가장 인상적이었고 가장 얻어갈 것들이 많았다. 특히 데이터 분석을 직접 해야 하는 입장으로서, 이런 데이터 or 이런 프로젝트에서는 이렇게 분석해보면 되겠구나! 라는 깨달음을 얻을 수 있었다.

하지만 아쉬웠던 부분은 내용이 크게 자세하지는 않다는 것이다. 저자분께서 일한 곳을 대상으로 내용이 전개되다보니 전체 회사에 적용하긴 어려운 점이 있고 그렇다보니 더 두루뭉술하게 설명할수밖에 없었던 듯 하다. 내용이 아주 구체적이진 않지만, 이 책에선 ‘아! 이렇게 분석해볼까?’ 정도만 얻어가고, 실제로 본인이 일을 해봄으로써 해당 분야에 알맞은 암묵지를 스스로 터득해나가면 좋지 않을까 싶다. 🙂

이 책의 내용에서 인상깊었던 부분 몇 가지만 골라보았다.


1부

저자는 지속적으로 이 책에서 ‘데이터는 수단일 뿐이다’ 라고 이야기한다.
즉, 기업에서 데이터의 목적은 우선 ‘돈’을 버는 것이다. 이를 위해선, 소비자를 진심으로 이해하고, 그들의 필요를 채워줄 단서를 찾아야 한다.
하지만 기업에서 데이터로 하는 것은 보통 일반적인 것이다. 매출을 집계하거나 현재 현황만 보는 것. 이런 상황에서 데이터를 올바르게 볼 수 있는 ‘데이터 분석가(사이언티스트)’가 필요하다. 이들은 데이터를 보고, 소비자를 이해하고, 이를 바탕으로 구체적인 실행을 한다.

[‘분석’을 할 때의 팁(암묵지)]
데이터 분석을 하면, 데이터를 통해 소비자가 어떤 마음을 갖고 있는지 ‘추측’을 할 수 있다. 이 ‘추측’이 맞는지를 알기 위해서, 데이터 분석에 앞서 몇 가지 알아볼 것이 있다. 그게 바로 데이터의 육하원칙 파악이다.

  • Who(누가 샀는가?): 데모그래픽 정보는 이제 더이상 중요치 않다. 성별, 연령으로 묶어서 타겟팅하는 것은 옳지 않은데, 같은 성별 or 같은 연령이라고 다 같은 특성을 보이지 않기 때문이다. 이제는 “특정 개인의 취향(공통된 행동특성)”으로 묶어야 한다. → 클러스터링(Clustering)
  • What(무엇을 샀는가?): 무엇을 샀는지는 위에서 나눈 어떤 개별 군집들끼리 비슷할 수 있다. 한 군집 내에서 어떤 사람이 산 물건을 다른 사람은 안 샀다면, 이를 바탕으로 추천이 가능하다.
  • When(언제 팔리는가?): 계절 / 월 / 요일 / 어느 시간대 에 많이 or 적게 팔렸는지를 알아봐야 한다. → 프로모션으로 연결 / 또한, 재방문 및 재구매는 얼마의 주기를 간격으로 하는가?
  • Where(어디서 샀는가?): 오프라인 매장이 있는 기업이라면 중요한 질문이다. 앞으로 어디 지점을 오픈/폐장할지의 문제에 사용 가능
  • How(어떠한 지불수단을 썼는가?): 어떤 지불수단이 가장 인기인가? 어떤 연령대/지역에서 반응이 좋았나? 그리고 밀어주고 싶은 지불수단이 있다면 비용을 들여서라도 프로모션해야 한다. 앞서 발견한 인사이트들과 결합하여 프로모션하기
  • Why(왜 그런 행동을 했는가?): 그냥 데이터에선 추정밖에 못한다.(아마 이랬기 때문에 이런 결과가 나온 것 아닐까? 같이) 회사 입장에서 추정조차 못하겠으면 설문조사라도 하는 게 도움이 된다.

여기서 얻은 여러 인사이트를 가지고, 파보고 싶은 주제를 선정해 더 분석해볼 수 있다.
또한 저자는 책에서 보통 데이터 분석을 할 때 일반적으로 소비자의 마음은 ‘날씨’에 따라 바뀌고, ‘시간’에 따라 바뀌고, ‘장소’에 따라 바뀌는 등의 여러 가지 암묵지들을 제시하고 있다.

2부

2부에서는 효과적인 데이터 분석을 위해 해야 하는 질문들을 이야기하고 있다. 그냥 가볍게 쓱 읽어보면 좋을 것들이다.
가장 중요한 질문은 첫번째 질문인 ‘우리 회사가 돈을 버는 핵심 제품,서비스는 무엇인가’를 알아보는 것이다. 사실 기업들 중에선 데이터 분석을 하면 당연히 좋겠지만, 안 하더라도 잘 굴러가는 기업들이 있다. 자신의 회사가 어떤 유형인지를 파악하고, 데이터가 필수가 아닌 회사라면 데이터 분석을 적극적으로 지원해주기 어려우며 데이터로 놀라운 걸 갖고 와! 라고 어려운 지시를 할 수 있다는 점을 참고하자.
이외에도 데이터 분석을 긍정적으로 지원해주는 대표 및 임원진들이 있어야 한다는 점, 회사에 데이터 자체가 있는지/데이터를 처리할 시스템이 있는지 등도 꼭 고려해야 하는 요소이다.

3부: ‘있을 만한 질문에 답을 준비한다’는 생각으로 데이터 분석을 해보자.

마지막 3부에서는 실제로 기업에서 데이터 분석 프로젝트를 하고, 커뮤니케이션을 할 때 고려해야 할 점들을 제시했다. 실질적으로 회사에서 어떻게 하라는 그 방법을 알려주는 부분이다.

데이터 분석을 할 때 구체적인 질문이 있다면 이에 답하는 방식도 좋고, 또는 본인이 직접 가설을 세워 이를 검증하는 방법도 좋다. 아니면 조직에서 타 부서가 궁금해하는 것들을 해소해주는 것도 좋다.

p.244 데이터 분석은 ‘있을 법한 질문’들을 촘촘히 매우는 과정이다.
데이터로 스토리 만들기는 상사가 궁금해할 것들을 미리 질문 리스트를 만들어보고, 답을 채워넣는 과정으로 분석하는 것도 좋다.
예를 들어, 기업이 최근 행사를 마쳤다. 데이터 분석가인 당신은 어떤 데이터를 분석하고 준비해야 할지 다음 질문을 생각해볼 수 있다.

또한 이를 전달할 때, 발표 시에는 항상 메인 스토리는 짧게 + 더 궁금해하면 참고자료를 제시하도록 하자! (너무 길게 하면 집중하지 않을 가능성이 크기 때문)
그리고 data-driven 조직이라는 것은 데이터 분석 결과를 실제로 활용할 때 그 의미가 있기 때문에, 항상 모든 분석엔 ‘액션 플랜’을 담고 있어야 한다. 실행 부서와 말을 하지 않았다면, 대략적인 방향이나 제언이라도 꼭 첨언할 필요가 있다.


많은 초보 데이터 분석가들 중에 기술도 있고 코딩도 잘하는데, 분석을 하려고 하면 너무 힘들고 왜 힘든지 원인도 모르겠는 분들께 이 책을 강추한다. 살짝 내용이 두루뭉술한 부분도 있지만, 전체적으로 쭉 가볍게 읽다 보면 저자가 말하려고 하는 부분을 잘 알게 되리라 생각한다.
특히 나는 데이터 분석을 하기 전에 육하원칙을 따져보는 것, 1부에서 나온 여러 암묵지 팁을 활용해 분석해보는 것이 도움이 되었고, 분석이 산으로 가지 않기 위해 먼저 분석을 하는 '목적'부터 명확히 세우고 '있을 만한 질문에 답을 준비하는 식으로' 분석을 진행하는 것이 분석의 길을 잡는 데 도움이 많이 되었던 것 같다.

반응형