이 포스팅은 Kaggle::Santander Transaction 시리즈 2 편 중 1 번째 글 입니다.

  • Part 1 - This Post
  • Part 2 - 02: EDA
▼ 목록 보기

Santander Customer Transaction Prediction 문제를 분석한다.

문제 정의

거래 금액에 관계없이 미래에 어떤 고객이 특정 거래를 할 것인지 파악한다.

Load Data, Package

import gc
import os
import logging
import datetime
import warnings
import numpy as np
import pandas as pd
import seaborn as sns
import lightgbm as lgb

from tqdm import tqdm_notebook # 진행바 표시하기
import matplotlib.pyplot as plt

from sklearn.metrics import mean_squared_error
from sklearn.metrics import roc_auc_score, roc_curve
from sklearn.model_selection import StratifiedKFold
warnings.filterwarnings('ignore') # 주피터에서 경고 안뜨게하기

IS_LOCAL = False
if(IS_LOCAL):
    PATH="../input/Santander/"
else:
    PATH="../input/"
os.listdir(PATH)
['sample_submission.csv', 'test.csv', 'train.csv']

캐글에서 한다면 위에 같이 하면 된다.


# 읽는데 걸리는 시간 파악하기
%%time
train_df = pd.read_csv(PATH+"train.csv")
test_df = pd.read_csv(PATH+"test.csv")
CPU times: user 15.2 s, sys: 2.09 s, total: 17.3 s
Wall time: 17.4 s

Reference

kaggle Notebook