코딩하는 공무원

데이터 과학 : 더 나은 의사결정을 위한 통찰의 도구 (존 켈러허·브렌던 티어니 저, 권오성 역 / 김영사, 2010.10.2.) 본문

도서

데이터 과학 : 더 나은 의사결정을 위한 통찰의 도구 (존 켈러허·브렌던 티어니 저, 권오성 역 / 김영사, 2010.10.2.)

코딩펀 2025. 1. 8. 21:26

책의 부제를 보고 고민없이 구매한 책. 그러나 생각보다 딱딱하다. 마치 전공책 처럼.... ★ ★

이미지 출처 : kyobobook.co.kr

1장 데이터 과학은 무엇인가?

데이터 과학에서 예측은 이런 분류 규칙을 발견해주는 기술이다. <중략> 그럼에도 예측이라 하는 이유는 기술이 미래가 아니라 현재의 어떤 속성에서 누락된 값을 예측하기 때문이다. 즉, 스팸 사례의 경우, 해당 전자우편이 스팸인지 아닌지라는 누락된 속성의 값을 찾아내는 것이 바로 예측인 셈이다. (p14~15)
이렇게 추출한 패턴을 실행 가능한 통찰이라고 부르기도 한다. 여기서 통찰이란 그렇게 얻어낸 패턴이 분명하게 드러나지 않은 문제와 관련된 정보를 주어야 한다는 뜻을 담고 있다. 실행 가능성은 이런 통찰이 현재 보유한 역량으로 어떤 식으로든 활용할 수 있는 것이어야 한다는 의미이다. (p16)
빅데이터는 보통 3개의 v로 설명된다. 어마어마한 데이터의 양 Volume, 그 종류의 다양함 Variety, 데이터를 처리하는 속도 Velocity 등이다. (p20)

2장 데이터와 데이터 세트란 무엇인가?

데이터란 가장 단순하게 말하면 현실 세계의 어떤 것(사람, 사물, 또는 사건)에 대한 추상물이다. 변수, 특징, 속성 등은 이런 추상물의 개별 요소를 일컫는 마들로, 서로 섞여서 쓰인다. (p49)
데이터는 추상화 작업을 통해 생성되는 것이기 때문에 모든 데이터는 누군가의 결정과 선택의 산물이라 할 수 있다. 모든 추상화 작업은 누가가가 대상을 어떤 요소들로 추상화하고, 어떤 범주나 측정 방법을 이용해 이 추상화돤 값을 표현할 것인가를 결정해서 이뤄지는 것이다. 이 말은 데이터는 결코 세상에 대한 객관적인 표현물이 아니라는 것이다. 데이터는 항상 부분적으로 편향된 것이다. (p55)
맞는 데이터의 확보와 관련해 2016년 데이터 과학자에게 물은 설문조사를 보면 전체 응답자 평균 작업 시간의 79퍼센트가 데이터 준비에 들어가는 것으로 나타났다. 응답 전체 결과를 보면 작업 시간의 19퍼센트는 데이터 세트 수집에, 60퍼센트는 데이터의 정제와 정리에, 3퍼센트를 훈련용 세트를 만드는 데, 9퍼센트는 패턴을 찾기 위한 분석에, 4퍼센트는 알고리즘 개선에, 5퍼센트는 그 밖의 업무에 소요된 것으로 나타났다. (p74)

3장 데이터 과학 생태계

4장 기계학습 101

지도 학습의 목표는 각 인스턴스의 어떤 값들이나 속성으로부터 목표 속성이라고 부르는 속성의 값을 찾아내는 함수를 배우는 것이다. 예를 들어 스팸메일 필터를 훈련시키기 위해 지도 학습을 쓴다면, 알고리즘은 목표 속성으로 잡고 그 값을 결정하는 함수를 배우고자 할 것이다. (p106)
비지도 학습의 경우에는 목표 속성이 없다. <중략> 알고리즘은 입력값에서 출력값으로 최적의 연결을 찾아내는 특정한 문제를 해결하는 게 아니라 데이터에서 규칙을 찾아내야 하는 보다 막연한 일을 해야 하기 때문이다. 비지도 학습의 가장 흔한 형태는 데이터에서 서로 비슷한 인스턴스끼리의 군집을 찾는 군집 분석 알고리즘이다. (p108)
예측이란 주어진 인스턴스의 속성 값들을 바탕으로 목표 속성의 값을 추정하는 일을 말한다. 이는 지도 기계 학습 알고리즘의 과제로, 이런 알고리즘은 예측 모델을 생산한다. <중략> 예측 모델의 전형적인 활용 방법은 훈련용 데이터 세트에 포함되지 않는 새 인스턴스의 목표 속성 값을 추정하는 것이다. (p111)
모델을 검증하는 황금률은 훈련에 썼던 데이터를 검증에는 결코 써선 안된다는 것이다. <중략> 모델이 훈련 중에 검사용 데이터를 훔쳐보지 못하게 하는 표준적인 방법은 데이터 세트를 훈련용 세트. 확인용 세트, 검사용 세트 셋으로 나누는 것이다. 나누는 비율은 프로젝트에 따라 다르지만 50:20:30이나 40:20:40이 일반적으로 쓰인다. (p152~153)
데이터 세트는 과거에 있었던 관측의 반영이기 때문에 본질적으로 역사적이다. 그러니까 기계 학습 알고리즘이란 미래에도 일반화해서 적용할 수 있을지 모르는 어떤 패턴을 과거에서 찾는 도구라고 할 수 있다. (p156)

5장 표준적인 데이터 과학 업무

데이터 과학자의 가장 중요한 기술 가운데 하나는 현실 세계의 문제를 표준적인 데이터 과학 업무의 틀에 잘 맞추어 넣는 것이다. 대부분의 데이터 과학 프로젝트는 다음 같은 네 가지 일반적인 분류 가운데 하나에 속한다.
  • 군집화 (또는 세분화)
  • 이상 (또는 아웃라이어) 탐지
  • 연관 규칙 마이닝
  • 예측 (분류의 하위문제와 회귀까지 포함) (p157)
데이터 세트의 인스턴스(행) 사이에 유사성이나 차이점을 찾는 군집화나 이상 탐지와 달리 연관 규칙 마이닝은 속성(열) 사이 관계에 주목한다. (p171)
연관 마이닝은 장바구니 데이터를 고객에 대한 인구통계학적 데이터와 결합했을 때 더 강력해진다. 이것이 그토록 많은 소매 회사들이 고객 카드 제도를 운영하는 이유다이다. (p174)

6장 프라이버시와 윤리

데이터 과학 알고리즘은 객관적인 방식으로 작동하기보단 무도덕적인 방식으로 작동한다는 쪽이 진실에 가깝다. (p194)
차등 프라이버시는 '한 인구 집단에 대한 유용한 정보는 학습하면서 동시에 집단 내 한 개인에 대한 정보는 얻지 못하게 하려면 어떻게 해야 하는가'라는 문제에 대한 수학적 접근법이다. (p203)

7장 미래 동향과 성공의 원칙

Comments