인공지능(AI)/머신러닝을 통해 컴퓨터는 대량의 데이터로부터 패턴이나 규칙을 자동으로 학습할 수 있게 된다고 이전 포스팅에서 말씀드렸습니다.
그렇다면 우리가 일반적으로 말하는 데이터 분석을 다룸에 있어서, 인공지능/머신러닝과 통계학의 차이는 무엇일까요?
먼저 다시 한번 머신 러닝의 정의를 간단하게 정리해 보도록 하겠습니다.
데이터 분석 방법 중 하나인 머신러닝
머신러닝은 인공 지능(AI)의 한 분야로 컴퓨터가 데이터에서 자동으로 '학습'하는 과정을 말합니다. 이 기법은 대량의 데이터를 해석해, 그 데이터 내의 숨은 패턴이나 관련성을 찾아내는 것에 특화하고 있습니다. 전형적인 예로 스팸 메일 식별과 주가 예측, 얼굴 인식 등이 있습니다.
머신러닝에 대해 가장 중시되는 것은 '예측의 정밀도'입니다. 얼마나 잘 '설명'할 수 있는지 보다 미지의 데이터에 대한 '예측'이 정확한 지가 평가됩니다. 이 때문에 높은 예측 정확도를 가진 모델이 선호되는 경향이 있습니다.
머신러닝은 기존의 통계학적 기법보다 새로운 통찰이나 높은 정확도의 모델을 만들어 낼 수 있습니다. 통계학에서 가설 검증형 접근법은 기존 이론이나 가설을 바탕으로 데이터를 해석하지만, 머신러닝은 데이터 자체에서 패턴을 발견하기 때문에 미지의 연관성이나 새로운 발견이 가능합니다.
데이터 분석에서의 머신러닝과 통계학의 차이
통계학과 머신러닝은 모두 데이터를 해석하고 규칙이나 패턴을 찾는다는 공통점을 가지고 있습니다. 그러나 그것들을 적용하는 "목적"에 큰 차이가 있습니다.
통계학은 기본적으로 '설명'을 목적으로 하고 있습니다. 즉, 데이터가 어떤 배경, 가설, 이론에 기반을 두고 있는지 이해하고 그 내재된 규칙을 밝히는 것이 주된 목적입니다. 통계모델, 특히 회귀 모델 등은 그 규칙을 수학적으로 표현하고 데이터가 어떻게 생성됐는지 이해하는 수단으로 사용됩니다.
한편, 머신러닝은 '예측'을 주된 목적으로 하고 있습니다. 특히 최근에는 방대한 데이터에서 고정밀 예측 모델을 생성하는 것이 중시되고 있습니다. 예측의 정확도가 높으면 그 모델은 성공으로 여겨지는 경향이 있습니다. 이 때문에 통계학보다 계산량이 많고 복잡한 알고리즘이 이용되는 경우가 많습니다.
간단히 말해서 통계학은 '왜 그렇게 되는가'를 해명하려고 하고, 머신러닝은 '다음에 무슨 일이 일어날지'를 예측하려고 합니다. 이 차이가, 각각의 수법이나 접근법에 큰 영향을 주고 있습니다.
데이터 분석에서의 머신러닝 방법
그렇다면 데이터 분석에서의 머신러닝의 방법에 대해 더 자세히 알아보도록 하겠습니다.
우선, 머신러닝 방법으로는 아래와 같이 여러 가지가 있습니다. 그중 몇 가지는 딥러닝의 정의를 다루면서 (위 링크) 간단히 설명드리기도 했습니다. 이번에는 각각의 방법에 대해 조금 더 자세하게 다뤄보도록 하겠습니다.
내용이 조금 길어지기 때문에 이번 포스팅에서 처음 2개를 다루고, 다음 포스팅에서 나머지 항목들에 대해 다뤄보도록 하겠습니다.
- GAN (적대적 생성 네트워크)
- 랜덤 포레스트
- SVM (Support Vector Machine)
- 로지스틱 회귀
- 신경망
- k 근방법
- k-평균법 (k-means)
- 결정 트리
- 선형 회귀
- 나이브 베이즈
- 주성분 분석
GAN(적대적 생성 네트워크)
GAN(Generative Adversarial Networks, 적대적 생성 네트워크)은 데이터를 생성하기 위한 머신러 기법입니다. 이 기법은 Generator(생성기)와 Discriminator(식별기)라고 불리는 두 개의 신경망을 이용합니다. Generator는 실제 데이터에 가까운 의사 데이터를 생성하고, Discriminator는 해당 데이터가 진짜인지 가짜인지 식별하는 역할을 합니다.
양자는 일종의 '경쟁'을 실시하고, 그 과정에서 서로 정밀도를 높여 갑니다. 구체적으로는 Generator가 보다 '진짜 다운' 데이터를 생성하도록 진화하면 Discriminator도 그것을 정확하게 식별하는 능력을 높여줍니다. 이 상호작용을 통해 GAN은 고도의 데이터 생성 능력을 갖게 됩니다.
GAN은 다양한 응용이 있는데, 예를 들면 저화질의 화상을 고화질로 변환하거나 텍스트에서 화상이나 음성을 생성하는 등 많은 분야에서 이용되고 있습니다.
랜덤 포레스트
랜덤 포레스트는 다수의 결정에 목(분류 목)을 조합하여 고정밀 예측이나 분류를 하는 방법입니다. 각 결정에 목은 독립적으로 데이터를 분류 또는 예측하고 최종적으로 그 결과를 집약(다수결) 하여 하나의 결론을 도출합니다.
이 알고리즘의 가장 큰 특징은 '앙상블 학습'을 이용한다는 점입니다. 여러 모델의 예측을 조합함으로써 단일 모델보다 견고하고 정확도가 높은 모델을 만들 수 있습니다. 이것에 의해서, 개개의 결정에 목이 가지는 과학 습어 리스크를 경감하는 것과 동시에, 전체로서의 예측 정밀도를 높입니다.
또한 랜덤 포레스트는 파라미터 조정이 적어 실무에서의 적용이 매우 용이합니다. 일반적으로 깊이, 분할 기준, 사용하는 특징량의 수 등 인간이 수동으로 설정하는 파라미터가 적기 때문에 초보자도 비교적 쉽게 고정밀 모델을 구축할 수 있습니다.
나머지 머신러닝 방법에 대해서는 아래에 있는 다음 포스팅 링크를 눌러 확인해 보실 수 있습니다.
'인공지능 (AI)' 카테고리의 다른 글
통계학적 데이터 분석과 머신러닝의 차이 3 (2) | 2024.12.16 |
---|---|
통계학적 데이터 분석과 머신러닝의 차이 2 (0) | 2024.12.16 |
딥러닝 학습 방법과 종류, 활용 방법, 도입 사례 (4) | 2024.12.13 |
딥러닝의 정의, 특징, 알고리즘 종류 (6) | 2024.12.12 |
인공지능(AI) 개발 비용 요소, 개발 외주, 성공 요소 (2) | 2024.12.12 |