본문 바로가기

Topics277

[Project] 원티드 채용 공고 분석 및 인사이트 도출 (2) 기존(1) 에 이어서... 단계 2 / 기초 전처리 추가 진행 전처리를 추가로 진행하였다. 우선 추가로 진행한 사항은 다음과 같다. (1) category를 대분류, 중분류로 나누어 각 분야별로 분석이 가능하게 텍스트 분리 (2) 주요 업무 / 자격 요건 / 우대 사항을 분리하여 분석할 수 있도록 만듬 (3) 공백, 특수 문자등에 대한 전처리 실시 (4) 형용사 등은 공고의 핵심어와는 상관없으므로 명사만 취급하며 별도의 stopword를 지정하여 제외 가장 어려운 부분은 stopwords의 목록을 만드는 일이다. 현재도 분석하면서 계속적으로 stopword를 추가 중, import pandas as pd import re job_df = pd.read_csv('C:/Users/USER/Desktop/pe.. 2024. 1. 5.
[Project] 원티드 채용 공고 분석 및 인사이트 도출 (1) 프로젝트 계기 데이터를 직접 취득하여 무언가 인사이트를 얻을 수 있을 좋은 프로젝트 소스를 고민하다가 이전에 데이터 분석쪽 취업을 위해 열심히 사용했던 Wanted 사이트가 기억나게 되었다. Wanted 채용 공고를 다양하게 분석하여 무언가 얻어보기로 한다. 프로젝트 목표 - Wanted에는 어떤 분야의 채용공고가 가장 많이 올라올까? - 각 직군별로 요구 사항, 우대 사항, 업무는 어떻게 다를까? - 그 외 데이터를 탐색하며 유의미한 인사이트 및 가설검정 해보기 단계 1 / 데이터 취득 동적 크롤링을 무작정 돌리기에는 직군이 매우 많아 좋지 않아, 정적 크롤링을 활용하였다. 원티드의 공고에는 번호가 있어, 해당 번호를 바탕으로 크롤링을 실시하였다. 데이터를 더 많이 하고 싶으나, 컴퓨터의 한계도 존재하.. 2024. 1. 2.
[프로그래머스] 시소 짝꿍(Lv 2) https://school.programmers.co.kr/learn/courses/30/lessons/152996 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 우선 무게 배열 크기가 10만까지이다. O(n^2)일 경우, 100억으로 TLE 확정이다. (TIP : 1억까지가 확정) 즉, 반복문을 돌려서 풀 수 없는 문제이다. 잘 생각해보면, 무게당 몇명인지만 알면 인원수의 계산이 가능하다. 같은 무게일 경우에는 2명씩만 짝지으면 되고 다른 무게끼리는 인원수끼리 곱하는 경우의 수 문제. def solution(weights): answer = 0 weig.. 2023. 12. 31.
[프로그래머스] 리코쳇 로봇 (Lv 2) 솔직히 2단계 치고는 조금 어렵지 않나 싶다. https://school.programmers.co.kr/learn/courses/30/lessons/169199 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr BFS 문제이다. 이동 불가능할때까지 넣으면 된다. 핵심은 도달하는 순간 끝내고 답 내주면 된다. 그렇기에 도달 기록을 가진 visit에 아예 count를 저장해두면 편하다. 미끄러지는 것을 구현을 이렇게 복잡하게 할 이유는 없긴 하지만 직관적인 방향이라 이 방법대로 갔다. 정통적인 bfs 방법으로도 깔끔하게 될 거 같은데, 행간의 이해는 이게 더 .. 2023. 12. 31.
[Data] A/B test 간단 정리 A/B Test란? 처리군과 대조군의 비교 - 즉, 새로운 처리법이 더 나은가? 일반적으로 데이터 분석 현장에서는 얼마나 유의미하게 클릭율 / 전환율 등이 향상되었는가?를 확인. A/B 테스트의 여러 주의사항. - 한 번에 한 가지 요인에 대해서만 테스트 -> 외부 변수는 모두 같은 조건이 되게 통제 필요 - 분석대상 Page에 대해 방문자 충분히 유입되어야 한다. - 페이지의 개선사항에 체크를 해서 가설 설정 필요 - A, B 집단은 임의적으로 할당해야 한다. 또한 실험은 조기 중단X, 과거 결과는 맹신하지 말아야 한다. O A, B 집단의 할당은 계통추출법을 활용하여 mod2로 분배하거나, 아예 NRU만 실험 대상으로 써도 문제 없을 것. - 임의로 숫자를 보고 판단하는 것이 아니라, t-test를 .. 2023. 12. 31.
[프로그래머스] 무인도 여행 (Lv 2) https://school.programmers.co.kr/learn/courses/30/lessons/154540 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 기초적인 BFS 문제이다. 별 거 없이 방문여부, 현재 좌표, 최대 길이, 지도 전체 등등 다 넘겨버리면 그만. BFS 사용 자체가 간만이라 기초 연습문제로 몸풀기. # bfs 풀이가 필요함 from collections import deque dx = [0, 0, 1, -1] dy = [1, -1, 0, 0] def bfs(maps, i, j, n, m, visit): queue = deque.. 2023. 12. 27.