일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 편향-분산 교환
- programmers
- 교차 엔트로피
- github
- merge
- full request
- HTML
- 깃헙협업
- L2정규화
- hackerrank
- 온라인협업
- Git
- branch
- 코딩공부
- L1정규화
- window function
- sql
- 버전충돌
- leetcode
- coding
- mysql
- 클라우드컴퓨팅
- RLIKE
- AWS
- elastic net
- PYTHON
- 선형 모형
- CSS
- early stopping
- conflict
- Today
- Total
목록데이터분석/텍스트 데이터 분석 (3)
Im between cherry
정규화 - 일반화 오차를 줄이기 위한 기계학습의 모형이나 알고리즘의 수정 -- 모형의 파라미터에 제약을 가한다 -- 여러 개의 모형을 학습시킨다 -- 여러가지 과제에 학습시킨다 노름(Norm) - 길이 또는 크기를 일반화한 개념 - Lp 노름 L1 정규화 - 손실함수에 파라미터의 L1 노름을 추가: 가중치(w)를 최대한 작게, 손실 함수도 작게. - LASSO(통계 회귀분석에서 불리는 용어) - 가중치를 0으로 만드는 경향이 강함: 변수선택(fearue selection) - 중요하지 않은 변수는 날려버린다. 손실함수가 0이 됨. L2정규화 - 손실함수에 파라미터의 L2 노름을 추가: L1 정규화랑 큰 차이는 없지만, 이건 제곱을 하니까 계수를 작게하려는 경향이 있다. - Ridge 회귀분석(통계 회귀분..
일반화 - 학습된 결과를 새로운 데이터에 적용하는 것 - 일반화 오차: 일반화에서 발생하는 오차 - 보통 테스트를 통해 측정하므로 테스트 오차라고 함 용량 - 기계학습 모형이 표현할 수 있는 패턴의 범위 - 예시: y=wx, y=b, y=wx+b 과적합 - underfitting(과소적합): 데이터의 패턴이 모형이 표현할 수 있는 것보다 복잡 - overfitting(과대적합): 모형이 표현하는 패턴이 실제 데이터보다 복잡 - 과적합이 발생하면 일반화 오차가 커짐 No Free Lunch Theorem (공짜 점심은 없다) - 모든 가능한 문제들에 대한 기계학습 방법의 평균적 성능은 같다 - 항상 더 좋은 방법은 없음 - 단, 어떤 문제들에 대해서는 항상 더 좋은 방법이 있을 수 있다. 하이퍼파라미터 -..
1. 감성 분석 - 문장의 감성을 예측 감성: 긍/부정 찬성/반대, 좋다/싫다 등 - 기쁨, 슬픔, 분노 등은 정서라고 함 감성 분석의 방법 - 사전 기반 - 기계 학습 기반 사전 기반 감성 분석 - 단어 별로 긍/부정을 분류하여 감성 사전 만듦 - 긍정 단어의 예) 좋다, 만족한다, 뛰어나다 - 부정 단어의 예) 나쁘다, 불만이다, 뒤떨어진다 - 문장에서 긍정단어의 수와 부정단어의 수를 세서 많은 쪽으로 결정 감성 사전의 장단점 - 장점: 배경지식이 있다면 감정사전 만들 수 있음. 복잡한 프로그래밍 필요 없음. 우리가 가진 지식 활용 가능 - 단점: 해박한 배경지식이 필요. 사전으로 만드는데 많은 노력이 필요. 문장의 어순을 고려 못함 기계 학습의 장단점 - 장점: 감정 사전보다 성능이 높음. 배경지식..