본문 바로가기

데이터 사이언스

빅데이터 분석기사 실기 라이브러리 정리

빅데이터 분석기사 실기 키워드&라이브러리 정리

  • 데이터 수집
    • DBMS
    • ETL
    • 스쿱, 스크래파이, 플럼, 스크라이브
  • 데이터 정제
    • 이상값 : describe
    • 결측값 : isna
    • 원핫인코딩: get_dummies
    • 교체: replace, apply(lambda x: x)
  • 데이터 모형 구축
    • 교차검증 sklearn.model_selection
      • Hold-out: train_test_split
      • K-fold: KFold, cross_val_score
      • LOOCV, LpOCV, 부트스트랩
      • GridSearchCV, RandomizedSearchCV
    • 추출 방법
      • 계통추출(systematic, shuffle=False)
      • 층화추출(stratify)
    • 데이터 정규화: sklearn.preprocessing
      • MinMaxScaler
      • StandardScaler
  • 데이터 모형 구축
    • 선형회귀 sklearn.linear_model
      • LinearRegression
      • LogisticRegression
      • 릿지(L2)Ridge
      • 라쏘(L1)Lasso
      • 엘라스틱넷(L1,L2혼합) ElasticNet
    • kNN
    • 의사결정나무
    • SVM(Support Vector Machine)
    • 나이브 베이즈: sklearn.naive_bayes
      • 가우시안 나이브 베이즈(정규분포): GaussianNB
    • 인공신경망(ANN)
      • 퍼셉트론
      • DNN
      • RNN
      • CNN
      • GAN
      • 드롭아웃
    • 앙상블 기법: sklearn.ensemble, xgboost (Classifier/Regressor)
      • 랜덤 포레스트: RandomForest
      • 보팅: Voting
      • 배깅: Bagging
      • 부스팅: AdaBoost, GredientBoosting, XGB
      • 스태킹: Stacking
    • 군집분석: sklearn.cluster
      • KMeans
        • k값 결정법: 엘보우, 실루엣, 덴드로그램
      • DBSCAN
      • 가우시안 혼합 모델(GMM)
      • EM알고리즘
    • 연관규칙분석: apyori.apriori, FP-Growth (시험에서 제공하지 않는 라이브러리)
      • 지지도(교/전): min_support
      • 신뢰도(교/대): min_confidence
      • 향상도(신/P(Y)): min_lift
  • 데이터 모형 평가: sklearn.metrics
    • 분류모델
      • 재현율=민감도=TPR, 정밀도, 특이도, 거짓긍정률=FPR, 정확도, F1
      • 혼동행렬(오차행렬, 오류행렬) : confusion_matrix
      • 예측 리포트 : classification_report
      • ROC(TPR,FPR) : roc_curve
      • ROC AUC : roc_auc_score
      • Lift
    • 예측모델
      • RMSE, MSE: mean_squared_error
      • MAE: mean_absolute_error
      • MAPE: mean_absolute_percentage_error
      • MPE(Mean Percentage Error): 직접 계산 np.mean((y_test-pred_test)/y_test)*100
      • R^2 score: r2_score

시험 팁

  • help()
  • dir()
  • pd.set_option("display.max_columns", 50)