일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- leetcode
- L2정규화
- github
- HTML
- programmers
- early stopping
- 깃헙협업
- window function
- full request
- AWS
- Git
- PYTHON
- conflict
- coding
- 버전충돌
- 교차 엔트로피
- 온라인협업
- 클라우드컴퓨팅
- mysql
- 코딩공부
- sql
- 선형 모형
- elastic net
- CSS
- L1정규화
- merge
- RLIKE
- hackerrank
- 편향-분산 교환
- branch
- Today
- Total
목록데이터분석 (95)
Im between cherry
정규화 - 일반화 오차를 줄이기 위한 기계학습의 모형이나 알고리즘의 수정 -- 모형의 파라미터에 제약을 가한다 -- 여러 개의 모형을 학습시킨다 -- 여러가지 과제에 학습시킨다 노름(Norm) - 길이 또는 크기를 일반화한 개념 - Lp 노름 L1 정규화 - 손실함수에 파라미터의 L1 노름을 추가: 가중치(w)를 최대한 작게, 손실 함수도 작게. - LASSO(통계 회귀분석에서 불리는 용어) - 가중치를 0으로 만드는 경향이 강함: 변수선택(fearue selection) - 중요하지 않은 변수는 날려버린다. 손실함수가 0이 됨. L2정규화 - 손실함수에 파라미터의 L2 노름을 추가: L1 정규화랑 큰 차이는 없지만, 이건 제곱을 하니까 계수를 작게하려는 경향이 있다. - Ridge 회귀분석(통계 회귀분..
일반화 - 학습된 결과를 새로운 데이터에 적용하는 것 - 일반화 오차: 일반화에서 발생하는 오차 - 보통 테스트를 통해 측정하므로 테스트 오차라고 함 용량 - 기계학습 모형이 표현할 수 있는 패턴의 범위 - 예시: y=wx, y=b, y=wx+b 과적합 - underfitting(과소적합): 데이터의 패턴이 모형이 표현할 수 있는 것보다 복잡 - overfitting(과대적합): 모형이 표현하는 패턴이 실제 데이터보다 복잡 - 과적합이 발생하면 일반화 오차가 커짐 No Free Lunch Theorem (공짜 점심은 없다) - 모든 가능한 문제들에 대한 기계학습 방법의 평균적 성능은 같다 - 항상 더 좋은 방법은 없음 - 단, 어떤 문제들에 대해서는 항상 더 좋은 방법이 있을 수 있다. 하이퍼파라미터 -..
1. 감성 분석 - 문장의 감성을 예측 감성: 긍/부정 찬성/반대, 좋다/싫다 등 - 기쁨, 슬픔, 분노 등은 정서라고 함 감성 분석의 방법 - 사전 기반 - 기계 학습 기반 사전 기반 감성 분석 - 단어 별로 긍/부정을 분류하여 감성 사전 만듦 - 긍정 단어의 예) 좋다, 만족한다, 뛰어나다 - 부정 단어의 예) 나쁘다, 불만이다, 뒤떨어진다 - 문장에서 긍정단어의 수와 부정단어의 수를 세서 많은 쪽으로 결정 감성 사전의 장단점 - 장점: 배경지식이 있다면 감정사전 만들 수 있음. 복잡한 프로그래밍 필요 없음. 우리가 가진 지식 활용 가능 - 단점: 해박한 배경지식이 필요. 사전으로 만드는데 많은 노력이 필요. 문장의 어순을 고려 못함 기계 학습의 장단점 - 장점: 감정 사전보다 성능이 높음. 배경지식..
leetcode.com/problems/reformat-department-table/ Reformat Department Table - LeetCode Level up your coding skills and quickly land a job. This is the best place to expand your knowledge and get prepared for your next interview. leetcode.com 이 문제를 풀 때마다 SUM()을 쓰는 이유에 대해 헷갈렸다! 선미님께서 CASE()와 GROUP BY()의 속성을 생각한다면 조금 더 쉽게 이해할 수 있을 거라고 하셔서, 다시 정리하며 풀어 보았다! 더보기 선미님 강의는 아래 링크 참고! www.inflearn.com/cours..
DATE_ADD(), DATE_SUB() 함수 MySQL에서 특정 시간을 기준으로 더해야 할 때 쓰는 함수가 바로 `DATE_ADD()`함수이다. 똑같이 특정 시간을 기준으로 빼야 할 때 쓰는 함수는 `DATE_SUB()` 함수이다. 다시말해, `DATE_ADD()`는 기준 날짜에 입력된 기간만큼을 더하는 함수고, `DATE_SUB()`는 기준 날짜에 입력된 기간만큼을 빼주는 함수이다. DATE_ADD(), DATE_SUB() 사용 형식과 예제 DATE_ADD() 함수 `DATE_ADD(기준 날짜, INTERVAL)` 예) 현재 시간 2020-11-07 10:00:00에 하루를 더하고 싶을 때, `SELECT DATE_ADD(NOW(), INTERVAL 1 DAY)` 이렇게 쓴다. DATE_SUB() 함..
야매 데이터를 만들어서 쉽고 재밌게 python으로 회귀분석을 해보았다. 어렵게만 느껴졌던 통계와 pandas로 데이터분석하는 법까지 자연스럽게 익힐 수 있어서 너무 재밌었다. 이제 다같이 야매데이터와 놀아보자 야놀자 1) 어떤 카페가 좋은 카페일까? 카페를 20가지 정도 나열한 다음 '좋은 카페'를 판단할 수 있는 요인을 생각해보았다. 우리는 '빵,케잌의 맛, 커피맛, 콘센트 적합도, 화장실 퀄리티, 공부분위기, 접근성, 가격'에 1점~5점까지의 점수를 매기고 '선호도'에 어떤 영향을 줄지 (야매로)분석해보려 했다. 우선, pandas가 실행될 수 있도록 환경을 세팅해보자! (Anaconda에서 jupyternotebook을 실행하여 진행하였다.) #pandas를 불러들인다. 이때 pd라는 별명을 붙인..
윈도우 함수란 행과 행 간의 관계를 정의하기 위해 순위, 합계, 평균, 행 위치 등을 조작하기 위해 GROUP BY 구문과 병행하여 사용하지 않을 때 사용된다. 윈도우 함수 구조 SELCECT WINDOW_FUNCTION(ARGUMENTS) OVER (PARTITION BY 칼럼 ORDER BY WINDOWING절) FROM 테이블명; -> ARGUMENTS: 윈도우 함수에 따라 0~N개의 인수를 설정한다. -> PARTITION BY: 전체 집합을 기준에 의해 소그룹으로 나눈다. -> ORDER BY: 어떤 항목에 대해서 정렬하다. -> WINDOWING: 행 기준 범위를 정한다. ROWS는 물리적 결과의 행 수이고, RANGE는 논리적인 값에 의한 범위이다. SUM, MAX, MIN과 같은 집계 윈도..
MySQL Subquery는 다른 쿼리 내에 중첩된 쿼리입니다. MySQL Subquery를 내부 쿼리라고하고, Subquery를 포함하는 쿼리를 외부 쿼리라고 합니다. Subquery는 해당 표현식이 사용되는 모든 곳에서 사용할 수 있으며 괄호로 묶어야 합니다. SELECT lastName, firstName FROM employees WHERE officeCode IN (SELECT officeCode FROM offices WHERE country = 'USA'); 위 예에서 Subquery는 미국에 있는 사무실의 모든 사무실 코드를 반환합니다 . 외부 쿼리는 Subquery서 반환된 결과 집합에 사무실 코드가 있는 사무실에서 일하는 직원의 성과 이름을 선택합니다. 출처: www.mysqltutor..