Project 4

[2024 KBO 타자 별 OPS 예측 모델 개발] KBO 타자들의 역대 기록 크롤링 [ ** utf-8 vs utf-8-sig ]

OPS 는 On-base Plus Slugging 의 약자로 야구에서 타자를 평가하는 스탯 중 하나로 출루율 (OBP) + 장타율 (SLG) 로 계산한다. MLB 에서는 꽤 오래 전부터 공식 기록으로 인정받고 있지만 KBO 리그에서는 공식적으로 인정하는 기록이 아니였기 때문에 KBO 홈페이지 기록실에는 2002년도 부터 OBP SLG OPS 기록이 업로드 되어있다. 따라서 2002~2023 년도 기록을 모두 크롤링 하여 데이터를 확보 한 뒤 모델링을 하도록 해본다. kbo 기록실이 너무 난잡하여........... 다른 참고 사이트인 https://statiz.sporki.com/ 의 기록실을 활용하여 2002년 부터 2023년동안 기록되어 있는 선수들의 기록을 크롤링 하여 모두 1003 명 분의 기록을..

Project 2024.04.08

[2024 KBO 타자 별 OPS 예측 모델 개발] 예측 해야 할 타자 리스트 작성 2

야구는 시즌 진행 중 2군(퓨처스 리그) 선수가 1군에 등록되어 경기에 출전하거나 1군 선수가 2군으로 내려가 퓨처스 리그 경기에 출전하는 경우도 있다. (부상, 컨디션 등등 영향) 따라서 1군 선수로만 OPS예측을 해도 괜찮지만 2군 선수도 포함하여 예측하기 위해 크롤링 기준일에 따라 1,2 군에 등록된 모든 포수, 내야수, 외야수 즉 타자들의 이름 명단을 크롤링 해보자 퓨처스 리그 페이지는 구단별로 클릭해서 선수들을 조회해야해서 애먹었따........ 역시 뭐든 쉽지가 않다........... from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import ..

Project 2024.04.08

[2024 KBO 타자 별 OPS 예측 모델 개발] 예측 해야 할 타자 리스트 작성

from selenium import webdriver from selenium.webdriver.common.by import By import csv driver = webdriver.Chrome() try: driver.get('https://www.koreabaseball.com/Player/RegisterAll.aspx') # 선수 이름을 저장할 리스트 - 크롤링 일자 기준 1군 등록된 포수, 내야수, 외야수 player_names = [] # 선수 이름을 찾는 코드 for i in range(1, 10): catchers = 'td:nth-child(5) > ul > li:nth-child({})'.format(i) catchers = driver.find_elements(By.CSS_SELE..

Project 2024.04.08

[2024 KBO 타자 별 OPS 예측 모델 개발] 프로젝트 기획안

1. 추진 배경 2023년 기준 관중수가 810 만명을 돌파한 프로야구는 한국 프로 스포츠 최고 인기 종목으로 프로야구의 인기와 더불어 데이터 분석에 대한 인식이 높아짐에 따라 각 구단에서 데이터 분석의 수요가 늘고 있음 야구의 경우 특정 선수의 성적 변동성이 해마다 매우 크기 때문에 내년 성적을 예측하기 까다로운 부분이 많음 ​ 2. 필요성 및 목적 필요성 프로야구의 데이터 분석 중요도가 높아짐에 따라 정확한 분석의 중요성이 대두됨 데이터 분석의 역량 증진의 필요성이 있음 목적 2024년 타자들의 상반기 OPS를 예측하는 모델 개발 야구 데이터 활용을 통한 정확한 분석으로 구단의 선수별 성적의 불확실성 문제 해결을 위함 ​ 3. 목표 문제를 해결하는 과정을 통해 데이터 분석 역량을 증진시킬 수 있다. ..

Project 2024.04.08