빅데이터 분석기사 실기 키워드&라이브러리 정리

데이터 수집
- DBMS
- ETL
- 스쿱, 스크래파이, 플럼, 스크라이브

데이터 정제
- 이상값 : describe
- 결측값 : isna
- 원핫인코딩: get_dummies
- 교체: replace, apply(lambda x: x)
데이터 모형 구축
- 교차검증 sklearn.model_selection
  - Hold-out: train_test_split
  - K-fold: KFold, cross_val_score
  - LOOCV, LpOCV, 부트스트랩
  - GridSearchCV, RandomizedSearchCV
- 추출 방법
  - 계통추출(systematic, shuffle=False)
  - 층화추출(stratify)
- 데이터 정규화: sklearn.preprocessing
  - MinMaxScaler
  - StandardScaler
데이터 모형 구축
- 선형회귀 sklearn.linear_model
  - LinearRegression
  - LogisticRegression
  - 릿지(L2)Ridge
  - 라쏘(L1)Lasso
  - 엘라스틱넷(L1,L2혼합) ElasticNet
- kNN
- 의사결정나무
- SVM(Support Vector Machine)
- 나이브 베이즈: sklearn.naive_bayes
  - 가우시안 나이브 베이즈(정규분포): GaussianNB
- 인공신경망(ANN)
  - 퍼셉트론
  - DNN
  - RNN
  - CNN
  - GAN
  - 드롭아웃
- 앙상블 기법: sklearn.ensemble, xgboost (Classifier/Regressor)
  - 랜덤 포레스트: RandomForest
  - 보팅: Voting
  - 배깅: Bagging
  - 부스팅: AdaBoost, GredientBoosting, XGB
  - 스태킹: Stacking
- 군집분석: sklearn.cluster
  - KMeans
    - k값 결정법: 엘보우, 실루엣, 덴드로그램
  - DBSCAN
  - 가우시안 혼합 모델(GMM)
  - EM알고리즘
- 연관규칙분석: apyori.apriori, FP-Growth (시험에서 제공하지 않는 라이브러리)
  - 지지도(교/전): min_support
  - 신뢰도(교/대): min_confidence
  - 향상도(신/P(Y)): min_lift
데이터 모형 평가: sklearn.metrics
- 분류모델
  - 재현율=민감도=TPR, 정밀도, 특이도, 거짓긍정률=FPR, 정확도, F1
  - 혼동행렬(오차행렬, 오류행렬) : confusion_matrix
  - 예측 리포트 : classification_report
  - ROC(TPR,FPR) : roc_curve
  - ROC AUC : roc_auc_score
  - Lift
- 예측모델
  - RMSE, MSE: mean_squared_error
  - MAE: mean_absolute_error
  - MAPE: mean_absolute_percentage_error
  - MPE(Mean Percentage Error): 직접 계산 np.mean((y_test-pred_test)/y_test)*100
  - R^2 score: r2_score

시험 팁

help()
dir()
pd.set_option("display.max_columns", 50)

'데이터 사이언스' 카테고리의 다른 글

빅데이터 기사 필기 - 빅데이터 분석 기획 키워드 정리 (0)	2022.10.23

Pi's 수학, 코딩 노트

빅데이터 분석기사 실기 라이브러리 정리

빅데이터 분석기사 실기 키워드&라이브러리 정리

시험 팁

'데이터 사이언스' 카테고리의 다른 글

티스토리툴바

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

빅데이터 분석기사 실기 라이브러리 정리

빅데이터 분석기사 실기 키워드&라이브러리 정리

시험 팁

'데이터 사이언스' 카테고리의 다른 글

'데이터 사이언스' 관련글

티스토리툴바