본문 바로가기
독서 log

28. AI 시대, 데이터로 사고하고 데이터로 리드하라 2-2

by Purchasing Engineer 97 2024. 8. 2.
728x90

1부에 이어서이제 머신러닝, 딥러닝, AI 지식에 대해서 이 책은 개념과 방법론에 대해서 설명하고 있다. 

■ 비지도 학습 : 데이터의 숨겨진 그룹과 패턴이 존재한다는 생각, 한마디로 예를 들면 엑셀의 데이터 시트에서 행(군집) 과열(차원축소)을 분류 압축하는 것이다. 정해진 올바른 분류 방법이 없고 기준이나 패턴도 없다. 

  • 차원축소(열 축소) : 한마디로 다수의 데이터를 더 작은 수의 변수로 압축하는 과정 ex) 연비, 중량, 마력 3가지 요소를 차량 효율이라는 1가지 차원으로 축소하는 것. 
  • 주성분 분석: 차원 축소를 위한 하나의 공통 되거나 상관관계가 있는 차원으로 축소가 어려울 때 주성분 분석을 이용하여 새로운 차원을 만드는 것. ex) 연비, 중량, 마력을 통해서 효율뿐 아니라 "성능"이라는 새로운 차원을 발견
  • 군집 분석(행 축소): 관측값 즉, 데이터터 시트의 행의 차원을 축소 하는 방법이다.
  • k-평균 군집 분석 : 분석가가 군집 수(k)를 지정하면 알고리즘은 N개의 데이터 행을 k개의 군집으로 나눈다. 같은 군집에 속한 데이터는 서로 유사, 다른 군집 데이터와는 서로 상이하게 분류되어야 한다. 

  ■ 지도 학습 : 이미 분류해야 될 값 즉, 출력 값을 알고 있고 현 입력 데이터와 분류 해야될 값과의 관계를 파악할 때 쓰이는 방법이다. 

  • 예) 
응용 분야 입력 출력 모델 종류
스팸메일 분류 이메일 텍스트 스팬 또는 비 스팸 분류
부동산 주택의 특징과 위치 추정 가격 회귀
음성 번역 영어 문장 중국어 문장 분류 
  • 선형 회귀 : 데이터 분포에 최적의 적합선을 찾기 위해 수학적인 계산을 도입하여 데이터의 선형적인 추세와 분산을 최대한 많이 설명하는 최적의 방법. 하기와 같이 점선의 선형 즉 최적의 적합 선이라고 보면 된다. 이에 따라 날씨라는 입력에 따라 매출이 얼마만큼 증대 할 수 있는지 선형적으로 예측할 수 있다. 엑셀의 분산 그래프를 활용하면 됨. 선형 회귀의 알고리즘에 투입되는 데이터는 표본에 불과 함으로 통계적 비판을 가지고 봐야지 그냥 바로 받아들이면 안 된다. 변수가 많다. 새로운 표본을 투입, 현재의 표본을 삭제할 수도 있다.

선형 회귀

 

  • 다중 공선성 : 변수들간에 서로 상관관계가 있으며 이것 때문에 보델을 해석하기 어려워지는 현상, 데이터 변수들 간에 상관관계가 있으면 다중 회귀 방식이 소용이 없다.
  • 와샵 오류: 입력 데이터 범위를 벗어난 예측, 방적식은 사고할 수 없다. 하기 선형 방식의 기온을 0도로 넣으면 -86.143이라고 예측하는 터무니없는 매출
  • 회귀모델 성능 검증: 예측값대비 실제 값을 항상 비교 해봐야 된다. 
  • 분류 모델 : 예측하는 값이 범주형 변수일때 사용 ex) 제품 구매 여부, 구직 면접 확률, 질병 여부 등, 이진 분류 (예, 아니요), 다중 분류 (차량 선택, 현대, 도요타, GM 등)로 나뉜다.     
  • 로지스틱 회귀 : 이해 안됨, 책 참조 바람
  • 의사결정 나무: 데이터 여러 부분으로 분할해 가면서 순서도와 같은 방식으로 예측할 수 있도록 분할 규칙 목록 제공, 이해가 잘 안 됨 그냥 분류를 많이 해서 최대한 정도 높은 예측을 하는 모델
  • 앙상블 모델: 수천번 알고리즘을  실행해서 나온 다양한 예측 결과를 합쳐서 예측하는 모델 

■ 비정형 데이터 분석 : 이메일, 뉴스기사, SNS, 각종 설문등 모든 단어와 문장을 분석 및 예측 할 수 있는 모델.

  • 텍스트를 우선 숫자로 바꿔야 한다: 컴퓨터는 그저 숫자를 보고 읽을 수 있기 때문에 숫자를 포함한 정형 데이터 구조로 변환해야 한다. 단어가방, N 그램, 단어 임배딩 같은 대표적인 텍스트를 숫자로 변환하는 방법이 있다.
  • 빅테크 기업은 풍부한 텍스트와 음성 데이터 그리고 강력한 성능의 컴퓨터를 통해 오디오 데이터에서도 대단한 발전을 이루고 있다. 

■ 딥러닝: 딥 러닝은 인간의 방식과는 다르다. 단지 최근의 기술 발전을 통한 컴퓨터의 성능, 방대한 데이터 등을 통해 통계 및 수학적으로 작동한다. 일종의 거대한 수식의 집합이라고 보면 될 것 같다. 딥러닝의 가장 중요한 요소는 학습 데이터의 양이다 데이터의 양이 많으면 많을수록 성능 및 정도율이 올라간다.  

■ 데이터의 편향 

  • 생존 편향 : 어떤 투자 회사의 뮤추얼 펀드의 수익률 연간 수익률 집계 할때 수익률이 저조해서 판매 중단된 제품을 제외하고 평균 수익률을 상회한 실적을 올린 펀드 데이터로 고객의 투자를 유도 이를 생존 편향이라고 함
  • 평균으로 회귀 : 무작위 사건에서 극단적이거나 이례적인 값이 발생한 뒤에는 그 정도로 극단적이지 않은 값이 뒤따르는 현상 이상값이 지속되지는 않는다 "행운이나 불운이 영원히 지속되지는 않는다."
  • 심슨의 역설 : 관측값, 실험 데이터의 오류로 인하여 결과 값이 외곡 되는 현상 
  • 확증 편향 : 데이터를 분석하기전에 이미 결론을 내고 데이터는 이를 뒷받침하는 용도로 사용  
  • 매몰비용 오류 (노력 편향) : 어떠한 프로젝트에 이미 많이 자원 투입 그 결과를 외면하기 힘듦
  • 알고리즘 편향 : 머신러닝을 통해 더 많은 의사결정이 자동화 되면서 데이터와 컴퓨팅에서 이미 형성된 알고리즘이 최선의 예측모델이라고 믿음.  

■ 통계와 머신러닝의 함정 

  • 상관관계를 인과관계로 생각하기 - 중요함 투자에서도 슈퍼볼 승패와 주식과의 관계는 상관 관계지 인과 관계가 아님 이에 슈퍼볼 승/패에 따라 주가가 움직이는 것은 아님.
  • p해킹 : 유의미한 유의 수준 p 값만 보고 믿는 행위, 
  • 대표성 없는 표본으로 조사 
  • 데이터 누수: 예측 시점에 사용할 수 없는 데이터로 모델을 훈련 
  • 과적합: 예전에 본 데이터에 대해서는 잘 작동하는 듯하지만 새로운 관측에 대한 예측 실패, 학습 데이터셋과 테스트 데이터셋으로 나눠서 과적합 방지 
  • 대표성 없는 학습 데이터 : 오하이오주의 주택 가격 예측을 위해 오하이오주의 부동산 데이터를 학습한 모델이 뉴욕시의 아파트 임대료를 예측할 수 없다. 

■ 데이터 리드 

  • 통계적 사고, 변동성이해 
  • 데이터 문해력 업무에서 마주치는 통계와 결과에 대해 명석하게 말하고 올바른 질문 
  • 머신러닝, 텍스트 분석, 딥러닝등을 이해 하고 있어야 한다. 
  • 데이터 통계 해석할때의 함정을 피해야 한다. 

2부는 나로서는 조금 이해가 되지 않고 어려운 부분이 있었으나, 머신러닝 딥러닝의 개념을 간단히 이해하고 통계와, 데이터 편향에 대한 정리를 통해서 향후 업무에 활용할 부분이 많아 보인다. 

 

728x90