Im between cherry

감성 분석, 선형 모형, 로지스틱 회귀분석, 경사하강법, 교차 엔트로피 본문

데이터분석/텍스트 데이터 분석

감성 분석, 선형 모형, 로지스틱 회귀분석, 경사하강법, 교차 엔트로피

meal 2020. 11. 27. 15:42

1. 감성 분석

- 문장의 감성을 예측

  • 감성: 긍/부정
  • 찬성/반대, 좋다/싫다 등

- 기쁨, 슬픔, 분노 등은 정서라고 함

 

 

감성 분석의 방법

- 사전 기반

- 기계 학습 기반

 

사전 기반 감성 분석

- 단어 별로 긍/부정을 분류하여 감성 사전 만듦

- 긍정 단어의 예) 좋다, 만족한다, 뛰어나다

- 부정 단어의 예) 나쁘다, 불만이다, 뒤떨어진다

- 문장에서 긍정단어의 수와 부정단어의 수를 세서 많은 쪽으로 결정

 

감성 사전의 장단점

- 장점: 배경지식이 있다면 감정사전 만들 수 있음. 복잡한 프로그래밍 필요 없음. 우리가 가진 지식  활용 가능

- 단점: 해박한 배경지식이 필요. 사전으로 만드는데 많은 노력이 필요. 문장의 어순을 고려 못함

 

기계 학습의 장단점

- 장점: 감정 사전보다 성능이 높음. 배경지식이 불필요. 모형에 따라 문장의 어순도 고려할 수 있음. 감성 사전을 자동으로 만들 수도 있음

- 단점: 대량의 학습용 데이터가 필요. 학습용 데이터에 긍/부정으로 레이블을 붙이는데 많은 노력이 필요. 통계나 기계학습 지식이 필요


2. 선형 모형

선형 모형을 이용한 감성 분석

  • 선형 모형 : y = wx + b
    • x: 문서 내 특정 단어의 빈도
    • y: 문서의 긍/부정(긍정=1, 부정=0)
    • w: 가중치 또는 계수
    • b: 절편 또는 편향

가중치에 따른 차이

  • 가중치가 + : x가 증가할수록 y도 증가 -> 긍정 단어
  • 가중치가 - : x가 증가하면 y는 감소 -> 부정 단어

3. 로지스틱 회귀분석

로지스틱 모형

  • 선형 모형의 경우 y가 -∞ ~ +∞의 범위를 가짐
  • 실제로 y는 긍정(1) 또는 부정(0)
  • 선형 모형에 로지스틱함수를 결합하여 y가 0~1범위를 가지게 함

로지스틱 함수

  • 벨기에 수학자 P.F. 베르헐스트가 고안
  • 기계학습에서는, S자 형태의 곡선이라 '시그모이드'라고도 함
    • sigma: 그리스어의 S
    • -oid: ~를 닮은(안드로이드: 인간을 닮은)

로지스틱 모형의 출력값에 대한 해석

  • 로지스틱 모형은 0~1 사이의 실수를 출력 -> 확률로 해석
  • ex) 0.8인 경우 -> 긍정일 확률 80% (부정일 확률 20%)
  • 보통 0.5를 기준으로 그보다 높으면 긍정, 낮으면 부정으로 예측

4. 경사하강법

로지스틱 모형의 학습 방법

 

  • '학습'이란 모형의 파라미터(w,b)를 추정하는 것
  • 모형의 예측과 문장의 실제 긍/부정의 차이손실 함수로 측정, 손실 함수의 값을 가장 작게 만드는 파라미터르를 찾음 -> 차이에 따라 w와 b를 조정해준다.
    • 중고등학교 때 배운것은 closed - form
    • 머신러닝, 기계학습, 통계는 데이터가 완벽하지 않고 오차가 들어있기 때문에, 오차를 작게 하는게 중요한 open - form
  • 주로 경사하강법(gradient descent)이라는 알고리즘을 사용

경사하강법의 원리

  • 데이터의 일부(batch)를 모형에 입력
  • 모형의 예측과 실제값을 비교하여 손실을 구함
  • 손실이 작아지는 방향으로 파라미터를 약간 수정
  • 위의 과정을 반복

5. 교차 엔트로피

교차 엔트로피

  • 기계 학습에서 사용할 수 있는 손실함수에는 여러 종류가 있음
  • 감성분석과 같이 0/1로 분류하는 문제일 경우, 교차 엔트로피를 손실 함수로 사용
  • p와 q 두 확률 분포가 비슷할 수록 작아짐: y와 y^이 얼마나 비슷한지 보는 것

p(실제 확률분포) * q(층정 확률분포)

우도(likelihood)

  • 어떤 모형 가정, 우리가 가진 샘플의 데이터가 관찰될 가능성
  • 우도가 높으면, 우리의 가정이 맞다고 생각할 수 있음(최대우도법)
  • 우도에 로그를 씌운 것이 로그 우도
  • 로그 - 우도 최대화 = 교차 엔트로피 최소화
    • 측정분포와 실제분포가 비슷하다
    • w,b가 관찰될 가능성이 크다
Comments