Vertex 機器學習中繼資料簡介

科學方法的重要環節是記錄觀察結果和實驗參數。在資料科學中,追蹤機器學習 (ML) 實驗中使用的參數、構件和指標也至關重要。這類中繼資料可協助您:

  • 分析正式版機器學習系統的執行作業,瞭解預測品質的變化。
  • 分析機器學習實驗,比較不同超參數組合的成效。
  • 追蹤機器學習構件 (例如資料集和模型) 的沿襲,瞭解哪些項目促成構件的建立,或該構件如何用於建立後代構件。
  • 使用相同的構件和參數重新執行機器學習工作流程。
  • 追蹤機器學習構件的下游使用情形,以利管理。

Vertex 機器學習中繼資料可讓您記錄機器學習系統產生的中繼資料和構件,並查詢該中繼資料,以利分析、偵錯及稽核機器學習系統的效能,或該系統產生的構件。

Vertex 機器學習中繼資料是以 Google TensorFlow Extended 團隊開發的開放原始碼 ML Metadata (MLMD) 程式庫所用概念為基礎。

Vertex 機器學習中繼資料總覽

Vertex 機器學習中繼資料會以圖表形式擷取機器學習系統的中繼資料。

在元資料圖中,構件和執行作業是節點,事件則是邊緣,可連結構件做為執行作業的輸入或輸出。脈絡代表子圖,用於以邏輯方式將構件和執行作業集分組。

您可以將鍵/值組合中繼資料套用至構件、執行作業和環境。 舉例來說,模型的中繼資料可能包含訓練模型所用的架構,以及模型準確率、精確度和喚回度等成效指標。

進一步瞭解如何追蹤機器學習系統的中繼資料。如要分析 Vertex AI Pipelines 的中繼資料,請參閱這份逐步教學課程

機器學習構件歷程

如要瞭解機器學習系統的成效變化,您必須能夠分析機器學習工作流程產生的中繼資料,以及構件的沿襲。Artifact 的沿襲包括促成其建立的所有因素,以及衍生自這個 Artifact 的 Artifact 和中繼資料。

舉例來說,模型的沿襲可能包含下列項目:

  • 用於建立模型的訓練、測試和評估資料。
  • 模型訓練期間使用的超參數。
  • 用來訓練模型的程式碼。
  • 訓練和評估程序記錄的中繼資料,例如模型的準確率。
  • 衍生自這個模型的構件,例如批次預測結果。

使用 Vertex 機器學習中繼資料追蹤機器學習系統的中繼資料,即可回答下列問題:

  • 訓練特定模型時使用了哪個資料集?
  • 哪些機構模型是使用特定資料集訓練的?
  • 哪個執行作業產生的模型最準確?訓練模型時使用了哪些超參數?
  • 特定模型部署至哪些部署目標,以及部署時間?
  • 在特定時間點,系統使用哪個版本的模型建立預測?

進一步瞭解如何分析機器學習系統的中繼資料