본문 바로가기

전체 글277

[Stat] 집단간 평균 비교 집단간 평균 비교 두 집단간 평균 비교.(종속변수가 연속형 변수일 때.) 두 집단의 평균이 동일한지를 확인하려고 한다. 일반적으로는 t-검정을 사용하겠으나. t-검정을 위해서는 전제조건이 필요하다. 독립성 : 각 집단은 서로 독립 정규성 : 각 모집단은 정규분포를 이루어야 한다. 등분산성 : 각 집단별 분산 정도가 비슷해야 한다. 세가지가 모두 만족될 경우 t-test를 시행하면 된다. 하지만 그것이 아니라면? * 정규성을 만족하지 않을 경우 : Mann-Whitney U test 정규성을 만족하지 않지만 집단간 평균을 비교해야 하는 경우가 존재한다. 나머지를 만족하는데, 정규성만 만족하지 않을 경우에는 t-test 대신에 Mann-Whitney U test를 해야 한다. Mann-Whitney U te.. 2021. 9. 3.
[SQL] LeetCode - 181. Employees Earning More than their Manager 문제 링크 https://leetcode.com/problems/employees-earning-more-than-their-managers/ 문제는 간단하다. 자신의 봉급이 자신의 매니저보다 높은 사람들 모두 출력하는 것이다. 내 풀이 SELECT Name as Employee FROM (SELECT E.Name, E.Salary as E_Salary, M.Salary as M_Salary FROM Employee AS E LEFT JOIN Employee as M ON E.ManagerId = M.Id ) AS sub WHERE E_Salary > M_Salary 자신의 매니저의 봉급 데이터를 별도로 붙여서, 가져와야 한다. 이때 주의 사항이, ON을 어떻게 하냐인 부분인데, 자신의 매니저와 실제 매.. 2021. 9. 2.
[SQL] HackerRank - Contest Leaderboard 문제 출처 https://www.hackerrank.com/challenges/contest-leaderboard/problem?isFullScreen=true 문제 설명 Hackers table, Submission Table이 주어진다. 제출 데이터에서 유저별로 얻은 최종 득점(과제별 최고점의 합)을 계산 후, Hacker table과 결합하여 해커id, 해커 이름, 최종 점수를 고득점자 순서대로 나열한다. (동률일 경우 해커 이름 사전순) 이 때, 합산 점수가 0점인 해커는 제외된다. 풀이 과제별로 Max를 얻는 부분부터 나눠야 한다. 해당 테이블을 얻어서 join 시킬 생각을 해야 한다. 즉 작은 서브쿼리부터 만들어 해결하면 쉽다. SELECT a.hacker_id, a.name, b.total_.. 2021. 9. 1.
[자연어] 트위터 문자 분류 문제를 통한 자연어 처리 실습(1) 트위터 문자 분류 문제를 통한 자연어 처리 실습. 캐글의 여러 노트북을 참고하여 따라해보았고, 개인적으로 진행 가능한 부분을 추가해보았다. 문제 설명 문제 출처 : https://www.kaggle.com/c/nlp-getting-started 트위터의 메세지를 보고, 해당 메시지가 재난에 관련된 내용인지 아닌지를 분류하는 간단한 문제이다. 먼저 간단한 전처리 이후, 나이브 베이즈를 활용하여 분류하는 방법을 알아보자. 탐색 및 전처리 과정 Train set 확인 댜음과같이 각 메세지별로 키워드와 작성 위치, text 내용이 적혀있다. 1일 경우 재난 관련 내용이, 0일 경우 재난이 아닌 내용이 담겨있다는 의미이다. 1과 0의 비율 확인을 해보면 다음과 같다. 데이터의 불균형은 크지가 않아, 크게 문제되지.. 2021. 9. 1.
[회고] 2021 카카오 인턴 간단 후기 2021 카카오 인턴 간단 후기 저는 Stat 직군으로 입사했으며, 데이터 분야 공부 경험은 2020년 12월 시작으로, 정말 얼마 되지 않았습니다. 이제 8~9개월 정도 공부하고, 본격적 시작은 4월에 공부한 햇병아리의 이야기입니다. - 1차 공통 코딩테스트 코딩테스트는 턱걸이로 합격하였습니다. 마지막 문제는 손도 못 댔고, 3번 문제를 반절 이상 정도 풀었습니다. 알맞은 자료구조가 종료 1분 30초전에 떠올라서 어떻게 할 수가 없었습니다. 하지만 다행히 2차 코딩테스트의 기회가 주어졌습니다. - 2차 Stat 코딩테스트 Stat직군은 별도의 코딩테스트를 봅니다. 문제 형식을 설명드릴수는 없지만, 여러 다양한 통계 문제들을 코딩으로 푼다고 생각하시면 될 것 같습니다. 2차 코딩테스트는 생각보다 할만했으.. 2021. 8. 31.
[Data] kNN 이해하기 및 활용 kNN 알고리즘 원리 kNN(k-Nearest Neighbor)은 분류 또는 회귀 모두에서 사용 가능한 모델이다. 일반적으로는 분류에서 사용하는 모델이나, 회귀에서도 kNN을 적용할 수 있다. kNN의 개념 kNN은 주어진 데이터셋에서 새로운 점이 들어왔을 때, 해당 점을 어떻게 분류할지에 대해 고려하는 것이 문제이다. 예를 들어, 다음과 같은 데이터 셋이 주어졌을 때 붉은색과 녹색으로 분류하는 문제를 고려하자. 여기서, 검은색 데이터가 새로 들어 왔을대를 고려할 때, k = 3이라면 검은색에서 가장 가까운 데이터 3개를 확인한다. 여기서는 빨강 1개, 초록 2개이니 검은색을 초록색으로 분류하게 된다. 모델 설계시 고려해야 할 사항 정규화 변수의 값이 적당히 퍼진 정도가 아니라, 매우 넓게 퍼진다면 편차.. 2021. 8. 28.