コース: Microsoft Azure AIの基礎知識:Azureでのワークロードと機械学習

二項分類とは

二項分類は、「はい」と「いいえ」、 または「価値がある」と「価値がない」など 2つの結果のいずれかを予測します。 これは、特徴にラべルが 割り当てられていることを必要とする 教師あり技術です。 回帰と同様に学習、検証、評価のプロセスに 従います。 ただし、分類アルゴリズムは通知ではなく、 クラス割り当ての確率を計算します。 例えば血圧、コレステロール、BMI、 タバコの習慣などの特性値に基づいて、 人が糖尿病を発症するかどうかを 予測するモデルを構築するとします。 このモデルはデータに統合する関数を 使用するアルゴリズムを用いて学習され 糖尿病の確率を0から1の範囲で 計算します。 例えば、なる確率が 0.7 の場合、 糖尿病にならない確率は 0.3 です。 回帰と同様に多くのアルゴリズムが あります。 例えば、ロジスティック回帰、決定域、 ランダムフォレスト、サポート ベクターマシーンなどがあります。 ロジスティック回帰はそのシンプルさで 人気があります。 0から1の範囲の SG 型の シグモエイド関数を使用して予測を行い しきい値、通常 0.5 と比較します。 0.5 以上の値は糖尿病1を示し、 0.5 未満の値は糖尿病ではない0ことを 示します。 回帰と同様にモデルを検証するために データのランダムな サブセットを確保します。 モデルを評価するために、各クラスの 正しい予測と誤った予測の数を記録する 混同行列を作成します。 これは少し混乱しやすいかもしれませんが、 簡単に説明します。 糖尿病モデルが次の行列の結果を示すと、 仮定します。 真陰性 TN はモデルが非糖尿病のケースを 正しく予測したことを示します。 偽陽性 FP は糖尿病の誤った予測を 示します。 偽陰性 FN は非糖尿病の誤った予測を 示します。 真陽性 TP はモデルが糖尿病を正しく 予測したことを示します。 混同行列を作成した後、 これらの指標を計算します。 精度 Accuracy は正しい予測の割合を示し、 この場合は 83%です。 再現率 Recall はモデルが実際の 糖尿病係数をどれだけ 正確に識別するかを測定し 75%を正しく識別しています。 適合率 Precision はモデルの陽性予測が どれだけ正確であるかを測定し 適合率は 100%です。 最後に F1 スコアは再現率と適合率を 組み合わせたもので、 単一の性能指標として有用です。 このモデルの F1 スコアは 0.86 です。 もうひとつの重要な指標は曲線下面積、 AUCです。 英語では、Area Under the Curve と言います。 これはモデルがランダムな推測と比較して、 糖尿病をどれだけ正確に 予測するかを示します。 ほとんどのソフトウェアでは、 この計算が自動的に行われます。 AUC が1の場合、モデルは 完璧であることを示します。 AUC が 0.5 以下の場合、 モデルがランダムに推測していることを 意味します。 目標としては AUC が 0..5 から1の間に あることが望ましいです。 二項分類の学習から評価までの詳細を知って 判断ができるシステムの開発が できるようになりましょう。

目次