최근 빅데이터를 활용하여 유용한 정보를 추출하는 방법론에 대한 연구가 활발한데, 머신러닝은 주어진 알고리즘 통해 데이터에 담긴 정보를 추출해내는 귀납적 러닝방법이다. 러닝 알고리즘에 대한 산업공학•신경물리학•통계학 간의 다양한 제 학문적 논의가 활발하지만, 실제 활용은 산업 현장 주도로 이루어지고 있는 양상이다. 그러나 미래예측은 현재 가늠할 수 없는 미래 변수의 비이성적 행동변화나 경제충격을 모델 설계에 반영할 수 없는 본질적 한계가 있으므로, 알고리즘에 전적으로 의존하기보다는 모델 설계자의 통찰력을 반영한 정성적 미세조정이 꼭 필요하다.
[목차]
1. 예측을 위한 모델링이란
2. 머신러닝 - 빅데이터 시대의 축약형 접근법
3. 머신러닝 기법을 활용한 변수 예측
4. 시사점
[Executive Summary]
○ 예측 모델링은 크게 인과관계에 기반한 이론적(theoretical) 모델링과 상관관계에 기반한 축약형(reduced-form) 접근법으로 분류됨
- 모델 설계자는 모델을 통한 직관적 해석(good stories)과 예측력 높은 결과(good forecasts) 도출을 목표로 하며, 이에 따라 이론적 적합성뿐 아니라 예측력을 모델의 평가 기준으로 활용
- 문제는 이 두 가지 목표가 종종 상충하거나 경제변수, 샘플 기간, 예측 기간(단기•장기)에 따라 예측 모델 간 우위가 변동
• 예측력 비교는 실증 분석 결과에 기반한 결과론적 평가로서, 문제의 상황에 맞게 모델러가 예측 모델의 후보군들을 설정해 이들을 비교하는 형태로 이루어짐
• 이론적 모델은 직관적 해석이 가능하나, 다수의 실증연구 결과에 따르면 실제 예측성과 관련이 높은 변수들만 포함한 간결한(parsimonious) 계량 모델들이 예측성에서는 더 우위에 있다는 결론
○ 빅데이터를 이용한 예측법은 축약형 접근법으로서, 최근 빅데이터를 활용하여 유용한 정보를 추출하는 방법에 대한 연구가 활발해짐
- 기존 축약형 모델은 빅데이터를 다룰 수 있는 틀을 제공하지 못하며, 경제이론이나 모델 설계자의 직관에 기반하여 몇 개의 설명변수를 선택하여 회귀분석 및 예측
- 반면 AI의 하위 카테고리인 머신러닝은 러닝 알고리즘으로서, 빅데이터에 담긴 정보를 추출•가공하여 경제변수를 예측할 수 있는 틀을 제공
• 머신러닝은 예측문제 환경에 대한 사전적인 이론적•구조적 지식 없이 주어진 알고리즘을 통해 데이터에 담긴 정보를 추출해내는 귀납적 러닝으로, 다양한 구조의 데이터를 분석 가능
• 알고리즘을 통해 데이터를 학습하고 해당 경제변수 예측에 관련성이 높은 정보를 추출함으로써 회귀분석이 가능한 규모의 프레임을 제공
○ 러닝 알고리즘에 대한 산업공학•신경물리학•통계학 간의 다양한 학제적 논의가 활발하지만, 실제 활용은 산업 현장 주도로 이루어지고 있는 양상
- 테크•서비스업체(Google, Facebook, Amazon, Uber, Yelp, Airbnb 등)는 이용자들의 패턴을 학습, 은행•제조업은 의사결정, 상품가격 예측 및 주요 경제변수의 향방 예측 등에 빅데이터를 적극 활용함
- [AI 활용의 예] (1) 철강•철강원료•경제변수 예측을 위한 빅데이터 활용 (2) 매 순간 만 단위로 쌓이는 빅데이터(de-identified)를 활용하여 행동패턴 학습(HR analytics) 및 직원들의 복지향상•인사정책 개선 방안 개발
○ 머신러닝 기법은 (1) 빅데이터에 담긴 정보를 활용할 수 있는 틀을 제공하며 (2) 검증 데이터(testing set)에서의 결과는 좋지만, (1) 분석결과의 직관적 해석이 어렵다는 점 (2) 실제 경제예측에서 어떠한 알고리즘도 뚜렷한 우월성을 지니고 있다는 것이 입증되지 않았다는 점(“No Free lunch Theorem”, Wolpert 1996)이 한계로 지적
- 최근 BlackRock의 경우 해석력 결여 문제를 지적하며 AI를 활용한 투자 리스크 모델링 접근법을 철회시킴 (Risk.net, 2018.11.12일자)
○ 경제예측성 평가는 현재까지 주어진 데이터를 기반으로 이루어지므로, 현재를 바탕으로 한 결과가 미래에도 유의미할 것인가는 자연스러운 의문
- 경제변수의 동태는 현존하는 의사결정 프레임에 의해 결정되는 것이고, 현 시점 최적의 알고리즘은 지금까지 채집 가능한 데이터에 기반한 것. 이는 모든 예측 모델링에 해당되는 근본적인 질문으로, “economic forecasting is an art, not a science”는 이러한 한계를 지적
- 특히, 머신러닝 기법은 변수 간의 선제적 가정 없이 빅데이터에 담긴 과거 정보를 알고리즘에 따라 분석하는데, 모델러의 조정 없이 단순히 기계 학습을 할 경우 잘못된 결론이 도출될 수도 있음
• Amazon은 기존 회사인력의 이력서 정보를 인사채용에 활용하였는데 AI 채용법이 기존 테크산업의 남성지배적인 구조를 고착화한다는 사실을 확인하고 이를 철회하기에 이름 (Reuters, 2018.10.10일자)
○ 예측은 현재 가늠할 수 없는 미래 변수의 비이성적 행동변화나 경제충격을 모델 설계에 반영할 수 없는 본질적 한계가 있으므로, 모델 설계자의 통찰력을 반영한 정성적 평가도 중요
- 산업 전문가의 직관이 반영된 현실적이고 적시성 있는 알고리즘 설계가 요구되며 시시각각 변하는 정치경제적 상황과 각 산업의 특수성을 고려한 미세조정이 필요. 빅데이터를 활용할 수 있는 프레임이 주는 장점을 활용하되, 질적인 정보나 산업 전문지식을 활용하여 모델을 맥락화하는 방안을 고안