文章頁面
投資必懂樣本內、樣本外是什麼?如何避免只會擬合歷史
認識樣本內與樣本外測試在量化研究中的角色,建立更可靠的驗證流程。
只要談到量化研究,很快就會聽到兩個名詞:樣本內(In-Sample) 和 樣本外(Out-of-Sample)。
這兩個概念非常重要,因為它們直接關係到你做出來的策略,到底是真的有機會在未來成立,還是只是把歷史資料擬合得很好看。
什麼是樣本內?
樣本內,可以理解成你拿來:
- 建立想法
- 設計規則
- 調整參數
- 初步驗證策略
的那一段資料。
這就像你在做考古題時,用來摸清題型和練習解法的範圍。
什麼是樣本外?
樣本外,就是一段沒有參與策略設計與調參的資料。
它的目的不是幫你把策略修得更漂亮,而是檢查:
- 這套規則離開原本資料後,是否還能站得住腳
- 研究結果是否具有一定泛化能力
如果樣本內像練習題,那樣本外就更像正式考試。
為什麼一定要分開?
如果你所有研究、調參和驗證都在同一段資料上完成,就很容易出現一種情況:
- 你不是找到規律
- 而是把這段資料的特殊性學進去了
也就是說,你得到的是一個很會解「過去這份考卷」的策略,而不是一個真的理解市場邏輯的策略。
一個簡單的研究流程
最常見的做法,是把歷史資料拆成兩段或多段:
- 一段做樣本內研究
- 一段做樣本外驗證
例如:
- 2012 到 2020 年做樣本內
- 2021 到 2025 年做樣本外
然後你在樣本內完成訊號定義與參數設定後,不再修改策略,再去看樣本外結果。
樣本外結果要看什麼?
不是要求樣本外一定要和樣本內一模一樣漂亮,而是看:
- 邏輯方向是否一致
- 效果是否仍存在
- 波動與回撤是否可接受
- 結果是否合理,而不是完全崩掉
如果樣本內極強、樣本外幾乎消失,通常就是警訊。
常見誤區
1. 偷偷看樣本外再回頭調參
這是最常見的問題。
一旦你看完樣本外結果,又回頭根據它修改策略,那這段樣本外資料其實也被你「用掉了」。它就不再是乾淨的驗證集。
2. 只做一次切分就過度自信
如果只剛好切到一段對自己有利的期間,也可能產生誤判。所以很多研究者還會進一步做:
- 滾動測試
- walk-forward
- 多期切分驗證
3. 把樣本外當成保證
樣本外表現不錯,代表策略更值得研究,但仍不代表未來一定有效。它只是提高你對結果可信度的信心,而不是提供確定性。
樣本外的真正價值
樣本外測試最重要的意義,不是讓績效更好看,而是幫助你對抗自己。
因為人很容易對漂亮結果產生偏愛,而樣本外測試是一種紀律:
- 不讓你無限制地修策略
- 不讓你只挑對自己有利的證據
- 不讓你把偶然誤認成能力
小結
樣本內與樣本外,是量化研究最基本也最關鍵的分工:
- 樣本內用來研究與設計
- 樣本外用來驗證與質疑
如果你想做的是可重複、可部署、可持續的量化策略,那就不能只讓策略在歷史裡看起來聰明,而要讓它在未參與設計的資料上也有基本說服力。
文章延伸
前後文章
繼續閱讀