연습문제

택시 이동시간 예측

난이도
Medium
참가자
5 명
제출 형식
csv

뉴욕시의 택시 운행별 이동시간(하차시간-승차시간)을 예측하는 문제입니다.
뉴욕 택시 리무진 위원회에서 발표한 주요 데이터셋을 이용하며, 픽업 시간, 위도, 경도, 승객 수 및 기타 여러 변수가 포함되어 있습니다.

주어진 Feature들을 이용하여 택시 운행 시간(duration)을 예측해보세요!

데이터셋 설명

데이터셋 설명
데이터는 두 그룹으로 분할되었습니다.
training set(train.csv)
test set(test.csv)

Training set
기계 학습 모델을 구축하는 데 사용되어야 합니다.
각 택시 운행별 이동시간을 제공합니다. 

Test set
보이지 않는 데이터에서 모델이 얼마나 잘 작동하는지 확인하는 데 사용해야 합니다.
각 택시의 운행별 이동시간에 대한 실제 정보를 제공하지 않습니다. 이러한 결과를 예측하는 것이 귀하의 임무입니다.
train set의 각 택시에 대해 훈련한 모델을 사용하여 택시의 운행시간을 예측합니다.​

[데이터 설명]
train.csv [파일]
id : 승차 데이터별 식별자
vendor_id : 제공자 코드 
pickup_datetime : 승차하여 미터기가 시작된 날짜 및 시간
dropoff_datetime : 하차하여 미터기가 꺼진 날짜 및 시간 (학습데이터에만 포함)
passenger_count : 승객 수
pickup_longitude : 승차하여 미터기가 시작된 위치의 경도
pickup_latitude : 승차하여 미터기가 시작된 위치의 위도 
dropoff_longitude : 하차하여 미터기가 꺼진 위치의 경도
dropoff_latitude : 하차하여 미터기가 꺼진 위치의 위도 
store_and_fwd_flag : 해당 trip record(승하차 기록)가 차량 메모리에 저장되었다가 서버에 전달되었는지 여부(차량은 서버와 직접 연결이 안됨) (Y: 차량 메모리에 저장되어 전달된 기록, N: 차량 메모리에 저장되어 전달된 기록이 아님)

test.csv [파일]
train 데이터와 구성 동일
trip_duration(이동 시간, 초) 가 존재하지 않음

sampleSubmission.csv [파일]
제출을 위한 기본 양식
id : 샘플 별 고유 ID
trip_duration : 예측한 값을 기입하여 제출

[평가 산식]

RMSLE (Root Mean Squared Logarithmic Error): 예측값과 실제값의 차이를 로그 스케일에서 측정한 평균 제곱근 오차

Python 코드:

import numpy as np
from sklearn.metrics import mean_squared_log_error
score = np.sqrt(mean_squared_log_error(truth_df["count"], submission_df["count"]))

train.csv

test.csv

sample-submission.csv