# æ¨¡åž‹éªŒè¯(ModelValidationï¼‰

æ¨¡åž‹éªŒè¯å°±æ˜¯å½“é€‰æ‹©äº†æ¨¡åž‹å’Œè¶…å‚æ•°åŽï¼Œé€šè¿‡å¯¹è®ç»ƒæ•°æ®è¿›è¡Œå¦ä¹ ï¼Œå¯¹æ¯”æ¨¡åž‹å¯¹å·²çŸ¥æ•°æ®çš„é¢„æµ‹å€¼å’Œå®žé™…å€¼çš„å·®è·ã€‚

ç„¶åŽæ ¹æ®ä¸åŒçš„å·®è·ï¼Œè¿›è¡Œè°ƒæ•´ï¼Œé€‰æ‹©ã€‚


## é”™è¯¯çš„æ¨¡åž‹éªŒè¯

æ¨¡åž‹éªŒè¯éœ€è¦å¯¹æ•°æ®é›†è¿›è¡Œé€‰æ‹©åˆ†ç±»ï¼Œå¦‚æžœä½¿ç”¨è®ç»ƒé›†è¿›è¡ŒéªŒè¯æˆ–è€…é”™è¯¯çš„æ•°æ®é›†åˆ†ç±»ï¼Œåˆ™å¯èƒ½å¯¼è‡´é”™è¯¯ç»“è®ºã€‚

ä¸Šé¢çš„é¸¢å°¾èŠ±ä¾‹åå°±è¯´å…¸åž‹çš„é”™è¯¯ç»“è®ºï¼Œä¸€èˆ¬å¾ˆå°‘å‡ºçŽ°éªŒè¯ç»“æžœå®Œå…¨æ£ç¡®çš„æƒ…å†µï¼Œäº‹å‡ºåå¸¸å¿…æœ‰å¦–ï¼Œå°å¿ƒï¼ï¼ï¼

é€šè¿‡æ£€æŸ¥ä»£ç æˆ‘ä»¬å‘çŽ°ï¼Œä¸Šé¢é¸¢å°¾èŠ±å‡ºçŽ°ç™¾åˆ†ç™¾æ£ç¡®çš„æƒ…å†µä¸»è¦é—®é¢˜æ˜¯ï¼Œæˆ‘ä»¬è®ç»ƒæ¨¡åž‹ç”¨çš„æ•°æ®å’Œæµ‹è¯•æ¨¡åž‹ç”¨çš„æ•°æ®
æ˜¯åŒä¸€æ‰¹æ•°æ®ï¼Œç»ƒä¹ é¢˜å±…ç„¶å’Œè€ƒè¯•é¢˜æ˜¯ä¸€å¥—ï¼Œæ€ªä¸å¾—äººäººéƒ½æ‰“æ»¡åˆ†ï¼Œè¿™æ ·æ˜¯ä¸è¡Œçš„ã€‚

## æ¨¡åž‹éªŒè¯çš„æ£ç¡®æ–¹æ³•ï¼šç•™å‡ºé›†(HoldOut)

ä¸ºäº†è§£å†³ä¸Šé¢è€ƒè¯•é¢˜å’Œç»ƒä¹ é¢˜åŒä¸€å¥—çš„é—®é¢˜ï¼Œå³ä¸ºäº†æ›´å®¢è§‚çš„è¯„ä¼°å¦ç”Ÿçš„æˆç»©ï¼Œæœ€ç®€å•çš„åŠžæ³•å°±æ˜¯è€ƒè¯•é¢˜ä¸èƒ½ä½¿å¹³æ—¶çš„è®ç»ƒé¢˜ï¼Œæˆ‘ä»¬åœ¨
è¯„ä¼°ç»“æžœçš„æ—¶å€™ï¼Œä½¿ç”¨çš„æ•°æ®é›†ä¸èƒ½æ˜¯è®ç»ƒçš„æ•°æ®é›†ï¼Œè¿™æ ·å°±éœ€è¦åœ¨å¯»æ¥å¼€å§‹å¯¹æ€»æ•°æ®é›†è¿›è¡Œåˆ†ç±»ï¼Œä¸€éƒ¨åˆ†ç”¨æ¥è®ç»ƒï¼Œ
ä¸€éƒ¨åˆ†ç”¨æ¥éªŒè¯ã€‚

ç”¨æ¥è€ƒè¯•çš„é¢˜éœ€è¦ä»Žç»ƒä¹ é¢˜ä¸é¢„å…ˆç•™å‡ºæ¥ï¼Œæˆ‘ä»¬æŠŠè¿™ç±»æ•°æ®é›†å«åšç•™å‡ºé›†ã€‚

æ•°æ®é›†å¯ä»¥æ‰‹åŠ¨åˆ†å‡ºï¼Œä½†æ‰‹åŠ¨åˆ†å˜åœ¨ç€è®¸å¤šé—®é¢˜ï¼Œå¸¸è§çš„æ¯”å¦‚åˆ†å‡ºçš„æ•°æ®ä¸ç§‘å¦ä¸å®¢è§‚ï¼Œæˆ‘ä»¬ä¸€èˆ¬ä½¿ç”¨sklearnç»™æˆ‘ä»¬æä¾›çš„åˆ†ç±»å·¥å…·ã€‚

Sklearä¹Ÿä¸ºæˆ‘ä»¬æä¾›äº†ç›¸åº”çš„å·¥å…·ï¼Œç”¨æ¥åˆ†ç±»æ•°æ®é›†ï¼š `train_test_split`


```python
# å¯¼å…¥æ•°æ®é›†åˆ†ç±»å·¥å…·
# sklearn 0.2 yä»¥ä¸Šç‰ˆæœ¬ç§»å…¥model_selectionåŒ…ä¸
# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split

#è®ç»ƒé›†å’Œæµ‹è¯•é›†å„å 50%
X1, X2, y1, y2 = train_test_split(X, y, random_state=0, train_size=0.5)


#ä½¿ç”¨ä¸€éƒ¨åˆ†ç”¨æ¥è®ç»ƒ
model.fit(X1, y1)

#ã€€ä½¿ç”¨å¦ä¸€éƒ¨åˆ†æµ‹è¯•
y2_model = model.predict(X2)

#å¯¹ç•™å‡ºé›†çš„é¢„æµ‹åŽçš„ç»“æžœå’ŒåŽŸæ¥çœŸå®žå€¼è¿›è¡Œå¯¹æ¯”
rst = accuracy_score(y2, y2_model)

print("æ¨¡åž‹å‡†ç¡®çŽ‡ï¼š{}ï¼…".format(rst * 100))

```

    æ¨¡åž‹å‡†ç¡®çŽ‡ï¼š90.66666666666666ï¼…
    

## äº¤å‰éªŒè¯

å¦‚æžœä½¿ç”¨ç•™å‡ºé›†æµ‹è¯•ï¼Œå¾—å‡ºçš„ç»“æžœæ˜¯å€¼å¾—ä¿¡èµ–çš„ï¼Œä½†ä¹Ÿæœ‰ä¸€ä¸ªç¼ºç‚¹ï¼Œæ¨¡åž‹å¤±åŽ»äº†ä¸€éƒ¨åˆ†è®ç»ƒçš„è®¡åˆ’ï¼Œ
å³æˆ‘ä»¬æŠŠåŽŸæ¥ç”¨æ¥è®ç»ƒçš„æ•°æ®æ‹¿æ¥æµ‹è¯•äº†ï¼Œè¿™å¯èƒ½å¯¼è‡´ç»“æžœå¹¶ä¸æ˜¯æœ€ä¼˜ç»“æžœï¼Œç‰¹åˆ«æ˜¯å¯¹è®ç»ƒé›†è§„æ¨¡æ¯”è¾ƒå°çš„æ—¶å€™ï¼Œ
ç”šè‡³å¯èƒ½ä¼šå¯¼è‡´é”™è¯¯ç»“æžœã€‚

è§£å†³è¿™ä¸€é—®é¢˜çš„æ–¹æ³•æ˜¯äº¤å‰éªŒè¯ï¼Œä¹Ÿå°±æ˜¯ä¸€ç»„æ‹Ÿåˆï¼Œè®©æ•°æ®çš„æ¯ä¸ªåé›†å³æ˜¯è®ç»ƒé›†åˆæ˜¯éªŒè¯é›†åˆ,æ–¹æ³•å¦‚ä¸‹ï¼š
- è®¡ç®—æ€»å…±åˆ†ä¸ºä¸¤è½®
- ç¬¬ä¸€è½®X1ä¸ºè®ç»ƒé›†ï¼ŒX2æ˜¯æµ‹è¯•é›†
- ç¬¬äºŒè½®X2ä¸ºè®ç»ƒé›†ï¼ŒX1æ˜¯æµ‹è¯•é›†

è¿™æ ·è™½ç„¶å¤šäº†ä¸€è½®å·¥ä½œï¼Œä½†ä½¿æ¨¡åž‹å¾—åˆ°äº†å……åˆ†è®ç»ƒã€‚


```python
#è¿™é‡Œç”¨ä¸¤è½®éªŒè¯ï¼Œè½®æµç”¨ä¸€èˆ¬æ•°æ®ä½œä¸ºç•™å‡ºé›†

y2_model = model.fit(X1, y1).predict(X2)
y1_model = model.fit(X2, y2).predict(X1)

rst1 = accuracy_score(y1, y1_model)
rst2 = accuracy_score(y2, y2_model)

print("æ¨¡åž‹1å‡†ç¡®çŽ‡ï¼š{}ï¼…".format(rst1 * 100))
print("æ¨¡åž‹2å‡†ç¡®çŽ‡ï¼š{}ï¼…".format(rst2 * 100))
```

    æ¨¡åž‹1å‡†ç¡®çŽ‡ï¼š96.0ï¼…
    æ¨¡åž‹2å‡†ç¡®çŽ‡ï¼š90.66666666666666ï¼…
    

ä»¥ä¸Šäº¤å‰éªŒè¯å…±è¿›è¡Œäº†ä¸¤è½®ï¼Œæœ€ç»ˆç»“æžœå¯ä»¥æŠŠä¸¤æ¬¡ç»“åˆè®¡ç®—ï¼Œæ¯”å¦‚æ±‚å¹³å‡å€¼ï¼Œç§°ä¸ºä¸¤è½®äº¤å‰éªŒè¯ã€‚

å¯¹ä¸¤è½®äº¤å‰éªŒè¯çš„æ¦‚å¿µå¯ä»¥æ‰©å±•ï¼Œæ¯”å¦‚äº”è½®äº¤å‰éªŒè¯ï¼Œå³æ¯æ¬¡é€‰å– 20% ä½œä¸ºç•™å‡ºé›†ï¼Œè¿™æ ·å¯ä»¥è¿›è¡Œäº”è½®ã€‚ æˆ–è€…å¯ä»¥ç†è§£æˆåˆ†æˆäº”ç‰ä»½ï¼Œæ¯æ¬¡ä¸€ä»½(20%)ç”¨æ¥ä½œä¸ºç•™å‡ºé›†ï¼Œå…¶ä½™å››ä»½ä½œä¸ºè®ç»ƒé›†ã€‚




```python
# sklearn 0.2 ä»¥åŽç‰ˆæœ¬ç§»å…¥model_selectionåŒ…
# from sklearn.cross_validation import cross_val_score
from sklearn.model_selection import cross_val_score


# sklearn.model_selection.cross_val_score(estimator, X, y=None, 
#                                          scoring=None, cv=None, 
#                                          n_jobs=1, verbose=0, 
#                                          fit_params=None, 
#                                          pre_dispatch=â€˜2*n_jobsâ€™)
# estimatorï¼šæ•°æ®å¯¹è±¡
# Xï¼šæ•°æ®
# yï¼šé¢„æµ‹æ•°æ®
# soringï¼šè°ƒç”¨çš„æ–¹æ³•
# cvï¼šäº¤å‰éªŒè¯ç”Ÿæˆå™¨æˆ–å¯è¿ä»£çš„æ¬¡æ•°
# n_jobsï¼šåŒæ—¶å·¥ä½œçš„cpuä¸ªæ•°ï¼ˆ-1ä»£è¡¨å…¨éƒ¨ï¼‰
# verboseï¼šè¯¦ç»†ç¨‹åº¦
# fit_paramsï¼šä¼ é€’ç»™ä¼°è®¡å™¨çš„æ‹Ÿåˆæ–¹æ³•çš„å‚æ•°
# pre_dispatchï¼šæŽ§åˆ¶å¹¶è¡Œæ‰§è¡ŒæœŸé—´è°ƒåº¦çš„ä½œä¸šæ•°é‡ã€‚å‡å°‘è¿™ä¸ªæ•°é‡å¯¹äºŽé¿å…åœ¨CPUå‘é€æ›´å¤šä½œä¸šæ—¶CPUå†…å˜æ¶ˆè€—çš„æ‰©å¤§æ˜¯æœ‰ç”¨çš„ã€‚è¯¥å‚æ•°å¯ä»¥æ˜¯ï¼š
#     - æ²¡æœ‰ï¼Œåœ¨è¿™ç§æƒ…å†µä¸‹ï¼Œæ‰€æœ‰çš„å·¥ä½œç«‹å³åˆ›å»ºå¹¶äº§ç”Ÿã€‚å°†å…¶ç”¨äºŽè½»é‡çº§å’Œå¿«é€Ÿè¿è¡Œçš„ä½œä¸šï¼Œä»¥é¿å…ç”±äºŽæŒ‰éœ€äº§ç”Ÿä½œä¸šè€Œå¯¼è‡´å»¶è¿Ÿ
#     - ä¸€ä¸ªintï¼Œç»™å‡ºæ‰€äº§ç”Ÿçš„æ€»å·¥ä½œçš„ç¡®åˆ‡æ•°é‡
#     - ä¸€ä¸ªå—ç¬¦ä¸²ï¼Œç»™å‡ºä¸€ä¸ªè¡¨è¾¾å¼ä½œä¸ºn_jobsçš„å‡½æ•°ï¼Œå¦‚'2 * n_jobs'


rst = cross_val_score(model, X, y, cv=5)
print("æ¨¡åž‹å‡†ç¡®çŽ‡ï¼š{}".format(rst * 100))
```

    æ¨¡åž‹å‡†ç¡®çŽ‡ï¼š[ 96.66666667  96.66666667  93.33333333  93.33333333 100.        ]
    

è¿™ç§æŠŠæ•°æ®åˆ†æˆï¼®ä»½ï¼Œä¸€ä»½ä½œä¸ºç•™å‡ºé›†ï¼Œå…¶ä»–ç”¨æ¥è®ç»ƒçš„äº¤å‰éªŒè¯ç±»åž‹å«LOO(LeaveOneOut)äº¤å‰éªŒè¯ã€‚

æžç«¯æƒ…å†µä¸‹æˆ‘ä»¬å¯ä»¥æŠŠæ•´ä¸ªæ•°æ®é›†æ¯ä¸ªæ•°æ®ä½œä¸ºä¸€ä¸ªé›†åˆï¼Œæ¯æ¬¡æ‹¿å‡ºä¸€ä¸ªæ•°æ®ä½œä¸ºç•™å‡ºé›†ã€‚



```python
from sklearn.model_selection import LeaveOneOut, cross_val_score
 
scores = cross_val_score(model, X, y, cv=LeaveOneOut())

print("éªŒè¯åˆ†æ•°æ€»å…±ï¼š{}".format(scores))

#æ¯æ¬¡ç»“æžœæ±‚å‡å€¼ä½œä¸ºæœ€ç»ˆç»“æžœ
print("\næœ€ç»ˆéªŒè¯ç»“æžœï¼š{}".format(scores.mean()))
```

    éªŒè¯åˆ†æ•°æ€»å…±ï¼š[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
     1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
     1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1.
     0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
     1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0.
     1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
     1. 1. 1. 1. 1. 1.]
    
    æœ€ç»ˆéªŒè¯ç»“æžœï¼š0.96