AlteryxでKaggleに挑戦する
じょんすみす
自己紹介
• じょんすみす
• クラスメソッド株式会社 DI部
• どこにでもいる普通のアル中
• 札幌から来ました!
これ→
本日のテーマ
• Kaggleってご存知ですか?
本日のテーマ
• Kaggleってご存知ですか?
• 機械学習のコンペサイト
本日のテーマ
• KaggleにAlteryxで挑みます!
• 今回はTitanicに挑戦します
• Tutorial的なもの
• 乗客の情報から生存の有無を予測
まずは試しにやってみる
まずは試しにやってみる
データを見てみる
データを見てみる
データを見てみる
データを見てみる
データを見てみる
※ Y軸にJitter入れてます
あれ?実はそんなに関連性ない?
データを見てみる
なんとなくlogをとると、
Ageの値が小さいほうで
生存率が上がってるっぽい
他の変数との相関は微妙だったし
とりあえず欠損値には平均を入れて
18歳以上か否かのデータの有無で変わるか
見てみる
(欠損値の扱いは別途考える)
Ageの変換
平均値で埋めて
Ageの変換
いくつかの手法で試してみる
Ageの変換
Ageをそのまま使った場合
変換した場合
Ageの変換
Ageをそのまま使った場合
変換した場合
チャレンジ2回目
ここでもう1回やっている
Ageの推定
今回は他のサイトの情報を参考にする
Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感
(http://www.mirandora.com/?p=1804)
敬称と年齢に関係あるという性質を利用
(なぜそうしているかも直感的にわかりやすい)
※ 参考にしているのはこの記述のみで
実際の手法を利用しているわけではありません
Ageの推定
結果は変わらず。。
今後
• Ageの欠損値について
• 他にもやり方はいろいろあり、Discussionに欠損値の話はある
• https://www.kaggle.com/c/titanic/discussion/3189 など
• 年齢の分け方を18歳(日本基準の未成年)にしたが検証してない
• 機械学習のモデル選択・パラメータチューニング
• 他の手法を試してみるとかもやってない
• Alteryxでは実装されていない手法もある
• Age以外にも注目してみる
• nameなど直接使っていないの属性を利用
• SibSp, Parchに基づいて家族推定とかしたらまたなんかあるかも
まとめと所感
• Alteryxでもkaggleに挑める
• データを確認するための可視化
• 前処理・特徴抽出など
• アルゴリズム選択
• とはいえできないこともある
• Alteryxでは単一ツールでは実現できない手法が有効な場合
• RツールやRun Commnadツールで実現自体は可能
• Galleryをあされば誰かが作ってくれてるかも?

More Related Content

PPTX
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
PPTX
全部Excelでやろうとして後悔するデータ分析
PPTX
PoCで終わらせない!データ分析・AI活用
PPTX
ML Sagemaker Dev.IO
PPTX
Amazon SageMakerでゼロからはじめる機械学習入門
PPTX
Alteryx UG3 LT #alteryx_ug
PDF
Alteryx Inspire2017 新製品&新機能紹介
PDF
How to create Yarn Application #cmdevio2017
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
全部Excelでやろうとして後悔するデータ分析
PoCで終わらせない!データ分析・AI活用
ML Sagemaker Dev.IO
Amazon SageMakerでゼロからはじめる機械学習入門
Alteryx UG3 LT #alteryx_ug
Alteryx Inspire2017 新製品&新機能紹介
How to create Yarn Application #cmdevio2017

More from __john_smith__ (9)

PDF
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
PPTX
この素晴らしいSQLに祝福を!
PPTX
PDF
Jubatus hack2
PPTX
5分でわかる 怖くない機械学習
PPTX
LSTMで話題分類
PPTX
初心者向け「凛ちゃん」
PPTX
SparkRをつかってみた(Japan.R)
PPT
Jubatus Hackathon
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
この素晴らしいSQLに祝福を!
Jubatus hack2
5分でわかる 怖くない機械学習
LSTMで話題分類
初心者向け「凛ちゃん」
SparkRをつかってみた(Japan.R)
Jubatus Hackathon
Ad

Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

Editor's Notes

  • #5: 企業や研究機関などがデータを投稿 -> 実際にと期待問題とデータのセット データ分析な人たちがモデルの精度を争う -> 世界中の凄腕たちがライバル 優勝者には賞金も
  • #6: 予測は乗客IDとsurvivedの値を渡す すぐに結果がわかる 評価は正解率
  • #7: titanicは女性・子供の救助がまず優先され、その次に金持ちから順に(映画知識) →age, sex, fareのみでやってみる Sexは0, 1のダミー変数に展開 ロジスティック回帰(特にこれを選んだことに意味はない)
  • #8: スコア0.76077で5499位!(低い!)
  • #9: 各項目の意味はサイト上に記載されている
  • #10: Survivedの0と1の割合的に全部0にしても0.5以上になりそうですね Pclassは3が多い模様。死んだ人が多かったのと階級の下の人が多かったことには関係あるのかな? Ageは重要そうなのにnullが多い -> ここをどう補完するかがカギになりそう Cabinはほとんどnullなので使えないかも・・・(ちゃんと入れてるか否かとか使える?) その他、いろいろ -> SibSp, Parchは0が圧倒的に多いのでいったんおいとく(変数として使いはするが、ほかでよくしてから更なる精度向上に利用)
  • #11: Ageとの間にあまり相関がない
  • #12: Pclassとの間に弱めの負の相関がある SibSpとも弱めの相関あり
  • #14: pclassと微妙に相関あるし非線形な関係は見てないので推測は可能かも
  • #17: 指標は正解率だが、New Donorサンプルと同じ感じでAUCを出してみる
  • #21: たぶん未成年の人数自体が全体に対して少ないので、全体での平均に対してそんなに影響がない