SlideShare a Scribd company logo
Python 特徴抽出プラグイン
Tetsuya Shioda
Jubatus hands-on #5 November 1, 2017
Python 特徴抽出プラグイン とは
• Jubatus で特徴抽出を より簡単に 記述できる
Pythonモジュール
• 何が嬉しい?
• scikit-learn や NTLK など外部ライブラリと連携が可能
• Python で記述できる手軽さ。C++を書かなくてもOK。
• 利用環境:
• Python 2.6 以降、Python 3.3 以降をサポート
• Jubatus 1.0.5 以降で利用可能
Jubatus hands-on #5 2
今までの特徴抽出プラグインでは
• C++実装で、記述量が若干多い。
Jubatus hands-on #5 3
特徴抽出をもっと簡単に
• たった8行で特徴抽出ができるようになります
• 数値 / テキスト / バイナリ特徴量の特徴抽出に対応
• Python外部ライブラリとの連携が可能
Jubatus hands-on #5 4
数値特徴量に対する特徴抽出
Jubatus hands-on #5 5
NLTKによるテキスト特徴量抽出
Jubatus hands-on #5 6
foxes -> fox など原型変換できる
開始位置
文字列データ
データ長 スコア
0でもOK0でもOK 通常は1.0でOK
トークン化
使い方
1. 特徴抽出プラグインを実装する( .pyファイルを作成)
2. PYTHONPATHが通っているところに .py ファイルを配置する
3. 設定ファイルを記述、Jubatusサーバを起動すれば利用できる
Jubatus hands-on #5 7
.py ファイル名
クラス名
rulesの中で呼ぶ
デモ:
Jubatus hands-on #5 8
時系列特徴抽出プラグイン
https://github.com/jubatus/events/
hands-on-5th/python-plugin
時系列データ分析
• 時間とともに変化するデータ系列を予測したい
• 電力消費量、株価、売上高など
• 自己回帰(AR)モデル
• 最も単純な時系列データ予測手法の1つ
• AR(p)モデル:現在の値が、過去 p 期分のデータに依存する モデル
Jubatus hands-on #5 9
𝒚 𝒕 = 𝒄 + ෍
𝒊=𝟏
𝒑
𝒘𝒊 𝒚 𝒕−𝒊 + 𝜺 𝒕
AR(2)系列
321
Jubatus に
一工夫が必要
• Jubatusは受け取ったデータを学習してすぐ捨てる。保存はしない。
• 受け取ったデータを一時的に保存するキャッシュが必要
• 特徴抽出プラグイン側で保存するようにしよう
過去のデータを保存するには
Jubatus hands-on #5 10
Cache 必要なくなったら削除する
自己回帰モデルの特徴抽出
Jubatus hands-on #5 11
特徴量ごとにキャッシュを持つ
最新データをキャッシュに格納
一番古いデータを削除
過去p期分の特徴量を全て生成
特徴抽出結果とする
サンプルプラグイン
• GitHub の jubatus リポジトリで以下の4種類のサンプルを提供
• binary_length.py:バイナリデータ長取得
• number_multiplier.py:掛け算
• sentence_stemmer.py:NTLKによるステミング
• space_splitter.py:単語のスペース区切り
• 各プラグインの利用方法は、公式Webサイトをご覧ください
http://jubat.us/ja/fv_convert.html#python-bridge
Jubatus hands-on #5 12
さいごに
Pull-Request お待ちしてます!
https://github.com/jubatus/jubatus
Jubatus hands-on #5 13

More Related Content

PPTX
191030 anna-with-python
PPTX
210728 mpy
PPTX
211120 他人の書いたPythonスクリプトをステップ実行で理解する
PPTX
210630 python
PPTX
210911 これから始める電子工作とMicroPython
PPTX
他人が書いたコードのリファレンスをSphinxで作る方法
PDF
Gnomeとdogtai
PPTX
Nishimoto 170603-mruby
191030 anna-with-python
210728 mpy
211120 他人の書いたPythonスクリプトをステップ実行で理解する
210630 python
210911 これから始める電子工作とMicroPython
他人が書いたコードのリファレンスをSphinxで作る方法
Gnomeとdogtai
Nishimoto 170603-mruby

What's hot (20)

PPTX
スクリーンリーダーと点字ディスプレイの話
PDF
Python札幌 2012/06/17
PPTX
電子工作のためのPython
PDF
Pythonのすすめ
PDF
サードパーティパッケージの歩き方
PDF
The tale of I and python / Python とのはなし
PDF
スクレイピングとPython
PPTX
MicroPython + ESP32
PDF
言語処理するのに Python でいいの? #PyDataTokyo
PDF
次世代言語 Python による PyPy を使った次世代の処理系開発
PDF
S14 t0 introduction
PDF
Effective Python 第2版をオンライン読書会で。
PDF
本気でPythonで宛名書きした話
PDF
S18 t0 introduction
PPTX
Pythonスタートアップ勉強会201109 python入門
PDF
OSS Study#19_LT
PDF
Python & PyConJP 2014 Report
PDF
10分でわかるPythonの開発環境
PDF
僕と Python と 時々 NetBeans
PPTX
勉強会 Cvml python基礎
スクリーンリーダーと点字ディスプレイの話
Python札幌 2012/06/17
電子工作のためのPython
Pythonのすすめ
サードパーティパッケージの歩き方
The tale of I and python / Python とのはなし
スクレイピングとPython
MicroPython + ESP32
言語処理するのに Python でいいの? #PyDataTokyo
次世代言語 Python による PyPy を使った次世代の処理系開発
S14 t0 introduction
Effective Python 第2版をオンライン読書会で。
本気でPythonで宛名書きした話
S18 t0 introduction
Pythonスタートアップ勉強会201109 python入門
OSS Study#19_LT
Python & PyConJP 2014 Report
10分でわかるPythonの開発環境
僕と Python と 時々 NetBeans
勉強会 Cvml python基礎
Ad

Viewers also liked (20)

PDF
第1回 Jubatusハンズオン
PPTX
Jubatus: Jubakitでもっと楽をしよう
PDF
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
PDF
jubarecommenderの紹介
PDF
Jubaanomalyについて
PDF
JubaQLご紹介
PDF
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
PDF
Jubatus解説本の紹介
PPTX
Jubatus 1.0 の紹介
PDF
Jubakitの解説
PPTX
新機能紹介 1.0.6
PDF
Python 特徴抽出プラグイン
PDF
単語コレクター(文章自動校正器)
PPTX
新聞から今年の漢字を予測する
PPTX
かまってちゃん小町
PPTX
発言小町からのプロファイリング
ODP
小町のレス数が予測できるか試してみた
PPTX
銀座のママ
PPTX
小町の溜息
PPTX
JUBARHYME
第1回 Jubatusハンズオン
Jubatus: Jubakitでもっと楽をしよう
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
jubarecommenderの紹介
Jubaanomalyについて
JubaQLご紹介
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
Jubatus解説本の紹介
Jubatus 1.0 の紹介
Jubakitの解説
新機能紹介 1.0.6
Python 特徴抽出プラグイン
単語コレクター(文章自動校正器)
新聞から今年の漢字を予測する
かまってちゃん小町
発言小町からのプロファイリング
小町のレス数が予測できるか試してみた
銀座のママ
小町の溜息
JUBARHYME
Ad

Similar to Jubatus Python特徴抽出プラグイン (20)

PPTX
Fluentd1.2 & Fluent Bit
PPTX
LINEにおける GitHub Enterpriseの活用事例と LINE Notifyについて
PDF
PythonのGUI_2018 with NSEG
PDF
Pythonを取り巻く開発環境 #pyconjp
PDF
Python32 pyhackathon-201011
PDF
High performance python computing for data science
PPTX
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PDF
MQTTとAMQPと.NET
PDF
Qtではじめるクロスプラットフォームアプリケーション開発 osc2019 hamanako
PDF
「Python言語」はじめの一歩 / First step of Python
PPTX
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PPTX
Pythonの環境導入 2014年春季版
PPTX
Ossで作成するチーム開発環境
PDF
ALMツールたべくらべ
PDF
Cloudn PaaSチームのChatOps実践
PDF
2018 07-23
PDF
NGK2018B マルチプラットフォームQtと日本Qtユーザー会の紹介
PPTX
go-apt-cacher/mirror
PPTX
Gitの基本コマンド
PDF
EdisonでMQTT
Fluentd1.2 & Fluent Bit
LINEにおける GitHub Enterpriseの活用事例と LINE Notifyについて
PythonのGUI_2018 with NSEG
Pythonを取り巻く開発環境 #pyconjp
Python32 pyhackathon-201011
High performance python computing for data science
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
MQTTとAMQPと.NET
Qtではじめるクロスプラットフォームアプリケーション開発 osc2019 hamanako
「Python言語」はじめの一歩 / First step of Python
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
Pythonの環境導入 2014年春季版
Ossで作成するチーム開発環境
ALMツールたべくらべ
Cloudn PaaSチームのChatOps実践
2018 07-23
NGK2018B マルチプラットフォームQtと日本Qtユーザー会の紹介
go-apt-cacher/mirror
Gitの基本コマンド
EdisonでMQTT

Jubatus Python特徴抽出プラグイン