SlideShare a Scribd company logo
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Deep Dive Viya: NLP & AI
SAS Institute Japan 株式会社
今井 宏昭
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
A
I
AI
配置・運用
意思決定支援
画像処理
予測&最適化 統計解析&機械学習
データマネジメント
自然言語処理
レポーティング
データ探索
時系列予測
数理最適化
データマイニング
予測モデル
データ準備/データ統合
データ品質
スコアリング
モデル管理
ビジネスルール管理
リアルタイムディシジョン
AI・アナリティクスライフサイクル
2
ビジュアライゼーション
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
A
I
AI
配置・運用
意思決定支援
画像処理
予測&最適化 統計解析&機械学習
ビジュアライゼーション
データマネジメント
自然言語処理
レポーティング
データ探索
時系列予測
数理最適化
データマイニング
予測モデル
データ準備/データ統合
データ品質
スコアリング
モデル管理
ビジネスルール管理
リアルタイムディシジョン
AI・アナリティクスライフサイクル
3
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
配置・運用
意思決定支援
画像処理
予測&最適化 統計解析&機械学習
ビジュアライゼーション
データマネジメント
自然言語処理
レポーティング
データ探索
時系列予測
数理最適化
データマイニング
予測モデル
データ準備/データ統合
データ品質
スコアリング
モデル管理
ビジネスルール管理
リアルタイムディシジョン
AIはネットワーク & 掛け算
4
AI
自然言語 x 画像処理 ?
自然言語を単語の時系列
とみなす? 自然言語でも, モデリング, 評価,
運用には統計解析・MLの考え
文章の質と量 → モデルの質
データ読み込みの容易さ
文章のノイズ調査
結果の表示
モデルと運用を一元管理
自然言語処理
文章分類
感情分析
トピックモデル…etc
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Agenda
• ビジネスにおける自然言語って?
• 自然言語プロジェクトを行うということ。
• SAS Viya の自然言語 なぜ?
• Viya: 自然言語 × AI
• 自然言語分野の今後
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
自然言語の応用例1 IT部門におけるタスクの整理
ビジネス事例:
- 多国籍企業のIT部門には大量のリクエストや問い合わせが起き
ており、大量の人員を割いている
- 重要度の高いタスクが渋滞することで、各部署のタスクの流れも
止めてしまっている。きちんと整理されていない
• 過去の問い合わせをもとに、問い合わせの種類と
緊急性を調査。ランク付け
• マニュアルで人が対応する必要のあるものは、
対応。そうでないものは、過去事例へリンク
お客様向けのものは整頓されていても、内部のものも同
様に整頓されていますか?
→ IT部門だけでなく、バックオフィス業務のフロー
を改善。結果的に、工数の削減へ
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
ビジネス事例:
- 関連する過去の事例を調査する必要がある。専門家でも調査は
困難を極める
- 例えば、過去の特許申請、裁判結果、論文発表、盗作防止など
自然言語の応用例2 特許・文献 (スクリーニング)
• キーワードや文書に対して、関連するトピック全部を抽出
する必要がある
• 精度が重要。チェックしなきゃいけないものの次元を
下げるイメージ。(10万 → 5千 文書)
ここまで精度重視のものでなくても、スクリーニングが発生するときは
ビジネスの中で多々発生しているのではないでしょうか
• 似たものを持ってくるというより、違うものを確実にはじく
→結果的にチェックする必要がある工数の削減
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
ビジネス事例:
- 商品レビューをするのに、アンケートだけだと限界がある
- そもそも極端な意見を持っている人が積極的に回答しやすい
- 本当の消費者の本当の意見や関心を知るには、大多数の消費者自
身の言葉を理解する必要がある
自然言語の応用例3 EC, SNS: 感情分析
• Amazonや楽天といったECサイト, TwitterやFacebook
といった、SNSサイトにおける商品レビューを使用
• 感情分析で商品の反応を獲得
• トピックや競合製品との類似性・相違性を抽出
→ 新製品の開発やマーケティング戦略にフィード。
人が目視で確認できない量の情報も処理可能
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
- 音声 → 自然言語 → アクション
- 画像・動画 → タグ付け・要約
自然言語の応用例4 自然言語処理 x 音声認識 x 画像認識
• 自然言語と他のCogntive技術を掛け合わ
せたものが注目を浴びている。
例:
過去のコールセンターの問い合わせ x 実際の電話対応の音声
↓
 サービス自体の向上。
 詐欺検知 (保険など)
 音声が入ってきた時点で、他部署対応が必要な場合のアクション。
 電話対応の(半)自動化。
掛け合わせはインパクトが当然大きい。
今後も増え続ける。
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
- 音声 → 自然言語 → アクション
- 画像・動画 → タグ付け・要約
自然言語の応用例4 自然言語処理 x 音声認識 x 画像認識
• 自然言語と他のCogntive技術を掛け合わ
せたものが注目を浴びている。
例:
過去のコールセンターの問い合わせ x 実際の電話対応の音声
↓
 サービス自体の向上。
 詐欺検知 (保険など)
 音声が入ってきた時点で、他部署対応が必要な場合のアクション。
 電話対応の(半)自動化。
掛け合わせはインパクトが当然大きい。
今後も増え続ける。
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
自然言語の領域
文章の意味の理解度意味理解が不要
応用
基礎
音声認識
 構文解析
 形態素解析
 言語モデル
 文書分類
対話
機械翻訳
応答
自動要約
文章生成
 意味解析
 談話解析
 情報検索
 テキストマイニング
言語構造の研究
• 最も古典的な研究。
• 本当の基礎で、言語自体の
研究にも相当する。
古典応用
• ‘00年代に大きく進歩
• インターネットによるデータの爆増
とともに成長
意味自体の研究
• 言葉の意味の研究。
• 代名詞と名刺の関連性を表現す
るなど。
 照応解析
モダン応用
• ここ10年ほどで大きく進歩。
• Deep Learningと相性がよい。
感情解析 トピックモデル
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
自然言語分析の態
一般的なフロー
データ抽出
モデル作成期間
モデルを運用するまで
データ準備・探索 実装・運用モデリング
モデル運用に向けて
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
自然言語モデル
• 文書分類
• チャットボット
• 文書要約
• トピックモデル
• 音声認識…etc
A
自然言語分析の実態
現実
データ抽出
• 様々なファイル形式:
doc, pdf, txt, json…
• データベースにQuery
• ウェブのスクレイピング
• 手書き文書
• スピーチ…etc
データ準備・探索
• 記号除去
• ストップワード除去
• 形態素解析
• 構文解析
• 互換処理
• データ成形
• 単語重要度
• Word Embedding
トライ&エラー
行ったり来たり
パッケージによって使い方だけでなく、テキストデータの持ち方も変わったりする。
それぞれが、独立で、
別々のパッケージで存在
多種多様なデータソース
C
B
自然言語のモデルをつくるまで
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
モデリングを考えるにあたっては?
自然言語プロジェクトに関して
自然言語プロジェクトの要素は?
 モデリングの要素
• データの質
• データの量
• 文章自体の複雑さ
• モデルで行うタスク自体の難易度
 モデリングまでの時間
• データ取得の時間
• データ読み込みと加工の時間
• コーディングやGUI(ツール)の難易度
• モデルの学習・処理時間
 プロジェクトの管理の容易さ
• モデル・コードのメンテナンス
• リスク
よくデータ分析はクリーニング
80%といわれますが…
自然言語だけでも大量のパッケージ
を含んでしまうということは
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
自然言語プロジェクトに関して
自然言語プロジェクトの要素は?
 モデリングの要素
• データの質
• データの量
• 文章自体の複雑さ
• モデルで行うタスク自体の難易度
 モデリングまでの時間
• データ取得の時間
• データ読み込みと加工の時間
• コーディングやGUI(ツール)の難易度
• モデルの学習・処理時間
 プロジェクトの管理の容易さ
• モデル・コードのメンテナンス
• リスク
よくデータ分析はクリーニング
80%といわれますが…
自然言語だけでも大量のパッケージ
を含んでしまうということは…
モデリングを考えるにあたっては?
• 自然言語は事前処理がさらに必要
• 学習の難易度が高くなる
→ 実際にモデルを運用出るまでも長くなる
• それだけメンテナンスの難易度とリスクが上がる
• 解決したいビジネス課題は?
• 人の補助?自動化?新規データ取得?
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
• 難易度高そうなものは現状やる意味はない?
自然言語プロジェクトに関して
自然言語 は難しいけど…
• 言語をとりあえず大量に入力すれば、AIなら言語学習できるのでは?
• AIで事務職の仕事なくなるの?
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
• 難易度高そうなものは現状やる意味はない?
自然言語プロジェクトに関して
自然言語 は難しいけど…
• 言語をとりあえず大量に入力すれば、AIなら言語学習できるのでは?
• AIで事務職の仕事なくなるの?
• 現状、解決できる問題と、解決できない問題がある(実験的なところも)
• 浮いた工数は人による複合的な判断が必要なとこによりあてられる
• 未来のどこかで解決したい問題なら、どこかの時点でデータの質を確認して、
きれいな形で貯めておくことは必要
• Deep Learningでも目的にあった適切なデータを学習させる必要がある
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaの自然言語
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaの自然言語
SAS(Viya)のテキストデータの持ち方はいつでもシンプル
文書ID 本文
0 商品Aを2018/05/01にお客様が使い始めたところ、このランプが光ら
ないことに気が付いた。交換を希望しており..
1 機能Bの使い方を教えてほしい。取扱説明書にはこう書いてあったが….
文書ID 本文 タイトル センチメント ….
0 商品Aを.. 商品Aの初期不良 …. ….
1 機能Bの… Bの使い方。 …. ….
これだけで分析スタート可能
より複雑なモデルでも…
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaの自然言語
最初のモデルまでが早い
• Viyaのテキストの下処理はモデルに内包的
• 一番最初のモデルを試しに回すところまでが非常に早い
• どのモデルでも探索でもデータの形は一緒
• データをViyaにアップロードしたら探索でもモデルでも十分時
間がかけることができる
VDMML
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaの自然言語
統一された文法・言語
少し書き換えるだけで自然言語全般に対応できる
 対応自然言語
現状: 30カ国語 (ここを変えるだけ)
 文法:
• Viya(CASL) 全体を通じて統一
• Viya, Python, R, Luaでも統一
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaで実験 ①
トピック分析
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaで実験 ① トピックモデル
トピックモデルとは?
• トピックってどんな考え方?
• Rank付けされた単語の集合
- 政治, トランプ, 金正恩 → 北朝鮮問題?
• Latent Dirichlet Allocation(LDA) って何?.
- ベイズ, 教師なし
- ’00年代に大きく飛躍。
- 古典手法(Bag of Wordsベース)
=>Word Orderなし
• どんな時に使うの?
- 代表例は、大量のテキストが整理されていない(ラベルが付いていない)状態。
- 音楽や動画への応用もあり。
Blei, D., Ng, A. Y., and Jordan, M. I. (2003) Latent Dirichlet Allocation.
http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
自然言語の領域
文章の意味の理解度意味理解が不要
応用
基礎
音声認識
 構文解析
 形態素解析
 言語モデル
 文書分類
対話
機械翻訳
応答
自動要約
文章生成
 意味解析
 談話解析
 情報検索
 テキストマイニング
言語構造の研究
• 最も古典的な研究。
• 本当の基礎で、言語自体の
研究にも相当する。
古典応用
• ‘00年代に大きく進歩
• インターネットによるデータの
爆増とともに成長
意味自体の研究
• 言葉の意味の研究。
• 代名詞と名刺の関連性を表
現するなど。
 照応解析
モダン応用
• ここ10年ほどで大きく進歩。
• Deep Learningと相性がよい。
感情解析 トピックモデル
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
• データ: 「CD-毎日新聞データ集 2000年度版・2017年度版」
• 今回は経済欄にフォーカス
• それぞれトピック50個抽出
Viyaで実験 ①
Viyaで実験 ① トピックモデル
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaで実験 ①
Viyaで実験 ① トピックモデル
• 2017 • 2000
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Rank トピック 分類文書数 割合
1 役員人事 320 4.4%
2 食品 272 3.7%
3 投資・M&A 253
3.5%
4 新商品 239 3.3%
5 AI 229 3.2%
6 景気 218 3.0%
7 外交(貿易) 208 2.9%
8 自動車 207 2.9%
9 株式 204 2.8%
10 シャープ・液晶 203
2.8%
Rank トピック 分類文書数 割合
1 決算 317 3.7%
2 役員人事 304 3.5%
3 パソコン・デジタル 296 3.4%
4 買収・売却発表 269 3.1%
5 株式 266 3.1%
6 NTT & docomo 261 3.0%
7 そごう倒産 256 3.0%
8 アジア貿易 247 2.9%
9 金融不信 243 2.8%
10 市場 230 2.7%
Viyaで実験 ①
Viyaで実験 ① トピックモデル
• 2017 • 2000
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
AIのトピックって?
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaで実験 ① トピックモデル
古典的アプローチの限界は?
 コーパス
• 私はViyaに興味がある
• 私はAIに興味がある
• ViyaはSASのAI?らしい
One-hot 表現: Document Term Matrix
• 昔ながらの1/0で表すone-hot表現。
→ベクトル演算ができない。
• 単語間は独立で順序無視。
→ 文書全体のトピックを抽出するのには有効だが、それぞれの文章の意味は失われる。
• 単語に合わせて拡大するので、データが大きくなりがち。
私 は Viya に 興味 が ある AI SAS の ? らしい
1 1 1 1 1 1 1 1 0 0 0 0 0
2 1 1 0 1 1 1 1 1 0 0 0 0
3 0 1 1 0 0 0 0 1 1 1 1 1
単語
文書
は
AI
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaで実験 ②
Viyaで実験 ②自然言語生成: 日本語では?
※著作権の関係で原文とタイトルは載せられていません.
新聞の記事内容 生成された記事タイトル
• ある大手企業の人事部の方へのインタビュー
• 今後自分たちの業務がいかに人工知能にとって
代わると考えているか、について。
人事 人工の知性を下回る
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
AI x 自然言語
Deep Learning × 自然言語 × More ?
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
自然言語の領域
文章の意味の理解度意味理解が不要
応用
基礎
音声認識
 構文解析
 形態素解析
 言語モデル
 文書分類
対話
機械翻訳
応答
自動要約
文章生成
 意味解析
 談話解析
 情報検索
 テキストマイニング
言語構造の研究
• 最も古典的な研究。
• 本当の基礎で、言語自体の
研究にも相当する。
古典応用
• ‘00年代に大きく進歩
• インターネットによるデータの
爆増とともに成長
意味自体の研究
• 言葉の意味の研究。
• 代名詞と名刺の関連性を表
現するなど。
 照応解析
モダン応用
• ここ10年ほどで大きく進歩。
• Deep Learningと相性がよい。
感情解析 トピックモデル
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
 コーパス
• 私は犬を飼っている
• 私は猫を飼っている
• 私はうさぎを飼っている
• ViyaはSASのAIらしい
• ViyaはSASのAnalyticsらしい
• ViyaはCloudのAnalyticsらしい
AI x 自然言語
Word Embedding
Word Embedding(分散表現)
文脈が似ている単語は似たベ
クトル表現をもたせる。
Mikolov, T. et.al. (2013) Distributed Representations of Words and Phrases and their Compositionality https://arxiv.org/abs/1310.4546
Pennington, J. , Socher, R. and Manning, C.D.(2014) GloVe: Global Vectors for Word Representation https://nlp.stanford.edu/pubs/glove.pdf
うさぎ
猫
犬
AI
Analytics
Viya
Cloud
SAS
単語
Viya 0.25 0.75 0.42 …
SAS 0.3 0.9 0.55 …
AI 0.25 0.7 0.62 …
Cloud 0.4 0.8 0.36 …
Analytics 0.28 0.85 0.6 …
犬 0.8 0.3 0.24 …
猫 0.75 0.4 0.26 …
: : : : :
100-300次元のベクトル
• ’10年代の大きな進歩。
• 分散表現で文脈を表現
• Word2vec, GloVeなどが有名
• Deep Learningで自然言語をするときの、
inputとして使われている
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
AI x 自然言語
RNN x CNN
RNN: 再起型ニューラルネットワーク
• 時系列データ(順列)がinput
• テキストは単語の順列とみなせる。
Kim, Y. (2014) Convolutional Neural Networksfor Sentence Classification
http://www.aclweb.org/anthology/D14-1181
s1 s2 s3 sn
RNN
h1
input
output hnh2 h3
RNN CNN
CNN: 畳み込みニューラルネットワーク
• 画像処理によく使われている。
• 単語の分散表現をすることで、自然言語も
画像と同じような行列として扱うことができる。
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
AI x 自然言語
Deep Learning ベースの自然言語できること。例えば…
• 要約文の自動作成
• 文書全体での感情分析
• 文章分類(Doc単位でなく、Sentence)
• チャットボット(会話)
• 音声認識と組み合わせて、ロボットとの会話
• 画像と組み合わせて
• 画像・動画の自動タグ・説明付け
• 説明文から画像生成
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaで実験 ②
自然言語生成
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaで実験 ②
Viyaで実験 ②自然言語生成
• タスク: 自動でタイトル文の生成
• RNNの一種のLSTM
• 英語版Amazonのレビューデータ
• アプリ・ゲームに関して
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
Viyaで実験 ②
Viyaで実験 ②自然言語生成
レビュー(原文) レビュー 意訳 レビュータイトル 生成
Really Really enjoy playing this
game. It makes you feel very
smart as you solve some puzzles
quickly and then the next one will
be a real stumper....play it ALL the
time.
楽しくてとてもはまってい
る。パズルゲーム。
Crazy Addicted love this game
I previously had a different sudoko
application I could not really figure
out . This one is easy and fun, with
so many options, and it looks
nice.Two thumbs up!
簡単で楽しいアプリ。
Hard to stop
playing!
Very Nice
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
AI × 自然言語 の今後
どうこれから変わっていくの?
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
AI × 自然言語 の今後
自然言語の進歩
• 自然言語技術は応用幅がとても広く、使用されると工数の大幅な削減・仮
想工数の確保に繋がる
• 他の技術との組み合わせで使用されるとその応用幅もさらに広がる
皆さんが日常的に、無駄だな、繰り返し、つまらない、こんなに人が必要?と感じているタスク
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
AI × 自然言語 の今後
自然言語の進歩
• 自然言語技術は応用幅がとても広く、使用されると工数の大幅な削減・仮
想工数の確保に繋がる
• 他の技術との組み合わせで使用されるとその応用幅もさらに広がる
皆さんが日常的に、無駄だな、繰り返し、つまらない、こんなに人が必要?と感じているタスクAI x 自然言語 の発達はそれを減らしていくための大きな可能性
他の技術との組み合わせは、日常や仕事での体験を快適なものにする可能性
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
AI × 自然言語 の今後
自然言語の進歩と複合技術
最近の研究例 ①
画像のものに自動説明付け
Karpahy, A. and Fei-Fei, L. (2014) Deep Visual-Semantic Alignments for Generating Image Descriptions
https://cs.stanford.edu/people/karpathy/deepimagesent/
• RNNとCNNを組み合わせたものの延長
(R-CNN + BRNN + MRF) x RNN
• 目視で写真確認して…というような繰り返しのタスクの置き換え
• 画像・動画・音声 → 自然言語 (生成)
• 自然言語 → 画像・動画・ 音声(生成・検索)
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
AI × 自然言語 の今後
自然言語の進歩と複合技術
最近の研究例 ②
テキスト x 3Dオブジェクト
• conditional Wasserstein GAN
• 自然言語から3Dオブジェクトの取得(検索)
• 自然言語から3Dオブジェクトの生成
→ このまま発達していって…VR空間・3Dプリンターと一緒に使うと?
• 製造業・プロダクトデザインが大きく変わる?
• 購買体験の変化?
Chen, K. et al. (2018) Text2Shape: Generating Shapes from Natural Language by Learning Joint
Embeddings http://text2shape.stanford.edu/
sas.com
Company Confidential – For Internal Use Only
Copyright © SAS Institute Inc. All rights reserved.
End

More Related Content

PPTX
[2017年11月22日] Call Center Watsonのご紹介(日本IBM GTS Innovation Forum 2017)
PPTX
情報処理とは何か あとbigdataとか
PDF
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
PPTX
DeNAのプログラミング教育の取り組み #denatechcon
PDF
基調講演「データのグループウェア化」
PDF
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
PPTX
Ibm watson api サービス
PDF
深層学習の導入で抱える課題とユースケース実例
[2017年11月22日] Call Center Watsonのご紹介(日本IBM GTS Innovation Forum 2017)
情報処理とは何か あとbigdataとか
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
DeNAのプログラミング教育の取り組み #denatechcon
基調講演「データのグループウェア化」
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
Ibm watson api サービス
深層学習の導入で抱える課題とユースケース実例

Similar to SAS Viya Deep Dive: 自然言語処理&AI (20)

PDF
深層学習の導入で抱える課題とユースケース実例
PDF
日本や海外でのChatGPTを中心とした生成AIのさまざまな事例をまるっと紹介する資料
PDF
ソフトウェア開発の現場風景
PPTX
AI for Media 2018 - 放送/映像にまつわる AI 徹底解説 -
PDF
PDF
[db analytics showcase Sapporo 2017] MicrosoftのAIテクノロジーを活用しよう ~インテリジェントAPIからデ...
PDF
kukai: 省エネ世界2位のディープラーニング・スパコン
PDF
夏サミ2013【A1】基礎からわかるDevOps
PDF
DX Suite & UiPath さっくり読み取りさっくり連携
PDF
ノーツが日本を救う(2002/3/13)
PDF
【de:code 2020】 ”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート
PDF
110801 fatwire グローバルbtobサイト10のポイント
PDF
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
PDF
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
PPTX
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
PPTX
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
PPTX
Connect 2018 in Koriyama, with UDC - Microsoft AI Session
PDF
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
PDF
エヌビディアのディープラーニング戦略
PDF
jaws-ug kansai-special_kinesis_20150207
深層学習の導入で抱える課題とユースケース実例
日本や海外でのChatGPTを中心とした生成AIのさまざまな事例をまるっと紹介する資料
ソフトウェア開発の現場風景
AI for Media 2018 - 放送/映像にまつわる AI 徹底解説 -
[db analytics showcase Sapporo 2017] MicrosoftのAIテクノロジーを活用しよう ~インテリジェントAPIからデ...
kukai: 省エネ世界2位のディープラーニング・スパコン
夏サミ2013【A1】基礎からわかるDevOps
DX Suite & UiPath さっくり読み取りさっくり連携
ノーツが日本を救う(2002/3/13)
【de:code 2020】 ”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート
110801 fatwire グローバルbtobサイト10のポイント
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
Connect 2018 in Koriyama, with UDC - Microsoft AI Session
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
エヌビディアのディープラーニング戦略
jaws-ug kansai-special_kinesis_20150207
Ad

More from SAS Institute Japan (20)

PPTX
SAS Japan Blog 記事「統計的因果推論コラム(2)」補足資料
PPTX
SAS Japan Blog 記事「統計的因果推論コラム(1)」補足資料
PPTX
SAS Learning Subscription 登録手順
PDF
ディープラーニングは、時系列予測でも最強なのか?
PDF
SAS Viyaのディープラーニングを用いた物体検出
PPTX
SAS OnDemand for Academics 登録方法
PPTX
SAS Visual Analytics 8.3 におけるクロス集計表の作成と可視化
PDF
SAS Viyaによる意識改革からみえたData Scientistの生き方 ~僕たちはどう生きるか~
PDF
SAS ViyaのCNNを活用したProcess Innovation ~機械は解析図表をどう見ているのか~
PDF
SAS Viya Deep Dive: 予測モデリング
PPTX
SAS University Editionにおける日本語を含むファイルの取り扱い
PDF
SAS言語派集まれ!SAS StudioからSAS Viyaを使ってみよう!
PDF
SAS Viya で異常検知してみよう!
PDF
Pythonで操るSAS Viyaの画像処理技術入門編
PDF
Python / R で使うSAS Viya
PPTX
SAS OnDemand for Academics 登録方法
PDF
無料統計・予測分析ツールを提供:SAS Analytics U
PDF
SASによるテキスト・アナリティクス入門
PDF
SAS Enterprise Minerを使用した機械学習
PDF
SAS High-Performance Analyticsによるビッグデータ解析
SAS Japan Blog 記事「統計的因果推論コラム(2)」補足資料
SAS Japan Blog 記事「統計的因果推論コラム(1)」補足資料
SAS Learning Subscription 登録手順
ディープラーニングは、時系列予測でも最強なのか?
SAS Viyaのディープラーニングを用いた物体検出
SAS OnDemand for Academics 登録方法
SAS Visual Analytics 8.3 におけるクロス集計表の作成と可視化
SAS Viyaによる意識改革からみえたData Scientistの生き方 ~僕たちはどう生きるか~
SAS ViyaのCNNを活用したProcess Innovation ~機械は解析図表をどう見ているのか~
SAS Viya Deep Dive: 予測モデリング
SAS University Editionにおける日本語を含むファイルの取り扱い
SAS言語派集まれ!SAS StudioからSAS Viyaを使ってみよう!
SAS Viya で異常検知してみよう!
Pythonで操るSAS Viyaの画像処理技術入門編
Python / R で使うSAS Viya
SAS OnDemand for Academics 登録方法
無料統計・予測分析ツールを提供:SAS Analytics U
SASによるテキスト・アナリティクス入門
SAS Enterprise Minerを使用した機械学習
SAS High-Performance Analyticsによるビッグデータ解析
Ad

SAS Viya Deep Dive: 自然言語処理&AI

  • 1. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Deep Dive Viya: NLP & AI SAS Institute Japan 株式会社 今井 宏昭
  • 2. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. A I AI 配置・運用 意思決定支援 画像処理 予測&最適化 統計解析&機械学習 データマネジメント 自然言語処理 レポーティング データ探索 時系列予測 数理最適化 データマイニング 予測モデル データ準備/データ統合 データ品質 スコアリング モデル管理 ビジネスルール管理 リアルタイムディシジョン AI・アナリティクスライフサイクル 2 ビジュアライゼーション
  • 3. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. A I AI 配置・運用 意思決定支援 画像処理 予測&最適化 統計解析&機械学習 ビジュアライゼーション データマネジメント 自然言語処理 レポーティング データ探索 時系列予測 数理最適化 データマイニング 予測モデル データ準備/データ統合 データ品質 スコアリング モデル管理 ビジネスルール管理 リアルタイムディシジョン AI・アナリティクスライフサイクル 3
  • 4. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. 配置・運用 意思決定支援 画像処理 予測&最適化 統計解析&機械学習 ビジュアライゼーション データマネジメント 自然言語処理 レポーティング データ探索 時系列予測 数理最適化 データマイニング 予測モデル データ準備/データ統合 データ品質 スコアリング モデル管理 ビジネスルール管理 リアルタイムディシジョン AIはネットワーク & 掛け算 4 AI 自然言語 x 画像処理 ? 自然言語を単語の時系列 とみなす? 自然言語でも, モデリング, 評価, 運用には統計解析・MLの考え 文章の質と量 → モデルの質 データ読み込みの容易さ 文章のノイズ調査 結果の表示 モデルと運用を一元管理 自然言語処理 文章分類 感情分析 トピックモデル…etc
  • 5. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Agenda • ビジネスにおける自然言語って? • 自然言語プロジェクトを行うということ。 • SAS Viya の自然言語 なぜ? • Viya: 自然言語 × AI • 自然言語分野の今後
  • 6. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. 自然言語の応用例1 IT部門におけるタスクの整理 ビジネス事例: - 多国籍企業のIT部門には大量のリクエストや問い合わせが起き ており、大量の人員を割いている - 重要度の高いタスクが渋滞することで、各部署のタスクの流れも 止めてしまっている。きちんと整理されていない • 過去の問い合わせをもとに、問い合わせの種類と 緊急性を調査。ランク付け • マニュアルで人が対応する必要のあるものは、 対応。そうでないものは、過去事例へリンク お客様向けのものは整頓されていても、内部のものも同 様に整頓されていますか? → IT部門だけでなく、バックオフィス業務のフロー を改善。結果的に、工数の削減へ
  • 7. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. ビジネス事例: - 関連する過去の事例を調査する必要がある。専門家でも調査は 困難を極める - 例えば、過去の特許申請、裁判結果、論文発表、盗作防止など 自然言語の応用例2 特許・文献 (スクリーニング) • キーワードや文書に対して、関連するトピック全部を抽出 する必要がある • 精度が重要。チェックしなきゃいけないものの次元を 下げるイメージ。(10万 → 5千 文書) ここまで精度重視のものでなくても、スクリーニングが発生するときは ビジネスの中で多々発生しているのではないでしょうか • 似たものを持ってくるというより、違うものを確実にはじく →結果的にチェックする必要がある工数の削減
  • 8. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. ビジネス事例: - 商品レビューをするのに、アンケートだけだと限界がある - そもそも極端な意見を持っている人が積極的に回答しやすい - 本当の消費者の本当の意見や関心を知るには、大多数の消費者自 身の言葉を理解する必要がある 自然言語の応用例3 EC, SNS: 感情分析 • Amazonや楽天といったECサイト, TwitterやFacebook といった、SNSサイトにおける商品レビューを使用 • 感情分析で商品の反応を獲得 • トピックや競合製品との類似性・相違性を抽出 → 新製品の開発やマーケティング戦略にフィード。 人が目視で確認できない量の情報も処理可能
  • 9. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. - 音声 → 自然言語 → アクション - 画像・動画 → タグ付け・要約 自然言語の応用例4 自然言語処理 x 音声認識 x 画像認識 • 自然言語と他のCogntive技術を掛け合わ せたものが注目を浴びている。 例: 過去のコールセンターの問い合わせ x 実際の電話対応の音声 ↓  サービス自体の向上。  詐欺検知 (保険など)  音声が入ってきた時点で、他部署対応が必要な場合のアクション。  電話対応の(半)自動化。 掛け合わせはインパクトが当然大きい。 今後も増え続ける。
  • 10. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. - 音声 → 自然言語 → アクション - 画像・動画 → タグ付け・要約 自然言語の応用例4 自然言語処理 x 音声認識 x 画像認識 • 自然言語と他のCogntive技術を掛け合わ せたものが注目を浴びている。 例: 過去のコールセンターの問い合わせ x 実際の電話対応の音声 ↓  サービス自体の向上。  詐欺検知 (保険など)  音声が入ってきた時点で、他部署対応が必要な場合のアクション。  電話対応の(半)自動化。 掛け合わせはインパクトが当然大きい。 今後も増え続ける。
  • 11. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. 自然言語の領域 文章の意味の理解度意味理解が不要 応用 基礎 音声認識  構文解析  形態素解析  言語モデル  文書分類 対話 機械翻訳 応答 自動要約 文章生成  意味解析  談話解析  情報検索  テキストマイニング 言語構造の研究 • 最も古典的な研究。 • 本当の基礎で、言語自体の 研究にも相当する。 古典応用 • ‘00年代に大きく進歩 • インターネットによるデータの爆増 とともに成長 意味自体の研究 • 言葉の意味の研究。 • 代名詞と名刺の関連性を表現す るなど。  照応解析 モダン応用 • ここ10年ほどで大きく進歩。 • Deep Learningと相性がよい。 感情解析 トピックモデル
  • 12. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. 自然言語分析の態 一般的なフロー データ抽出 モデル作成期間 モデルを運用するまで データ準備・探索 実装・運用モデリング モデル運用に向けて
  • 13. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. 自然言語モデル • 文書分類 • チャットボット • 文書要約 • トピックモデル • 音声認識…etc A 自然言語分析の実態 現実 データ抽出 • 様々なファイル形式: doc, pdf, txt, json… • データベースにQuery • ウェブのスクレイピング • 手書き文書 • スピーチ…etc データ準備・探索 • 記号除去 • ストップワード除去 • 形態素解析 • 構文解析 • 互換処理 • データ成形 • 単語重要度 • Word Embedding トライ&エラー 行ったり来たり パッケージによって使い方だけでなく、テキストデータの持ち方も変わったりする。 それぞれが、独立で、 別々のパッケージで存在 多種多様なデータソース C B 自然言語のモデルをつくるまで
  • 14. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. モデリングを考えるにあたっては? 自然言語プロジェクトに関して 自然言語プロジェクトの要素は?  モデリングの要素 • データの質 • データの量 • 文章自体の複雑さ • モデルで行うタスク自体の難易度  モデリングまでの時間 • データ取得の時間 • データ読み込みと加工の時間 • コーディングやGUI(ツール)の難易度 • モデルの学習・処理時間  プロジェクトの管理の容易さ • モデル・コードのメンテナンス • リスク よくデータ分析はクリーニング 80%といわれますが… 自然言語だけでも大量のパッケージ を含んでしまうということは
  • 15. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. 自然言語プロジェクトに関して 自然言語プロジェクトの要素は?  モデリングの要素 • データの質 • データの量 • 文章自体の複雑さ • モデルで行うタスク自体の難易度  モデリングまでの時間 • データ取得の時間 • データ読み込みと加工の時間 • コーディングやGUI(ツール)の難易度 • モデルの学習・処理時間  プロジェクトの管理の容易さ • モデル・コードのメンテナンス • リスク よくデータ分析はクリーニング 80%といわれますが… 自然言語だけでも大量のパッケージ を含んでしまうということは… モデリングを考えるにあたっては? • 自然言語は事前処理がさらに必要 • 学習の難易度が高くなる → 実際にモデルを運用出るまでも長くなる • それだけメンテナンスの難易度とリスクが上がる • 解決したいビジネス課題は? • 人の補助?自動化?新規データ取得?
  • 16. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. • 難易度高そうなものは現状やる意味はない? 自然言語プロジェクトに関して 自然言語 は難しいけど… • 言語をとりあえず大量に入力すれば、AIなら言語学習できるのでは? • AIで事務職の仕事なくなるの?
  • 17. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. • 難易度高そうなものは現状やる意味はない? 自然言語プロジェクトに関して 自然言語 は難しいけど… • 言語をとりあえず大量に入力すれば、AIなら言語学習できるのでは? • AIで事務職の仕事なくなるの? • 現状、解決できる問題と、解決できない問題がある(実験的なところも) • 浮いた工数は人による複合的な判断が必要なとこによりあてられる • 未来のどこかで解決したい問題なら、どこかの時点でデータの質を確認して、 きれいな形で貯めておくことは必要 • Deep Learningでも目的にあった適切なデータを学習させる必要がある
  • 18. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaの自然言語
  • 19. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaの自然言語 SAS(Viya)のテキストデータの持ち方はいつでもシンプル 文書ID 本文 0 商品Aを2018/05/01にお客様が使い始めたところ、このランプが光ら ないことに気が付いた。交換を希望しており.. 1 機能Bの使い方を教えてほしい。取扱説明書にはこう書いてあったが…. 文書ID 本文 タイトル センチメント …. 0 商品Aを.. 商品Aの初期不良 …. …. 1 機能Bの… Bの使い方。 …. …. これだけで分析スタート可能 より複雑なモデルでも…
  • 20. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaの自然言語 最初のモデルまでが早い • Viyaのテキストの下処理はモデルに内包的 • 一番最初のモデルを試しに回すところまでが非常に早い • どのモデルでも探索でもデータの形は一緒 • データをViyaにアップロードしたら探索でもモデルでも十分時 間がかけることができる VDMML
  • 21. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaの自然言語 統一された文法・言語 少し書き換えるだけで自然言語全般に対応できる  対応自然言語 現状: 30カ国語 (ここを変えるだけ)  文法: • Viya(CASL) 全体を通じて統一 • Viya, Python, R, Luaでも統一
  • 22. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaで実験 ① トピック分析
  • 23. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaで実験 ① トピックモデル トピックモデルとは? • トピックってどんな考え方? • Rank付けされた単語の集合 - 政治, トランプ, 金正恩 → 北朝鮮問題? • Latent Dirichlet Allocation(LDA) って何?. - ベイズ, 教師なし - ’00年代に大きく飛躍。 - 古典手法(Bag of Wordsベース) =>Word Orderなし • どんな時に使うの? - 代表例は、大量のテキストが整理されていない(ラベルが付いていない)状態。 - 音楽や動画への応用もあり。 Blei, D., Ng, A. Y., and Jordan, M. I. (2003) Latent Dirichlet Allocation. http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
  • 24. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. 自然言語の領域 文章の意味の理解度意味理解が不要 応用 基礎 音声認識  構文解析  形態素解析  言語モデル  文書分類 対話 機械翻訳 応答 自動要約 文章生成  意味解析  談話解析  情報検索  テキストマイニング 言語構造の研究 • 最も古典的な研究。 • 本当の基礎で、言語自体の 研究にも相当する。 古典応用 • ‘00年代に大きく進歩 • インターネットによるデータの 爆増とともに成長 意味自体の研究 • 言葉の意味の研究。 • 代名詞と名刺の関連性を表 現するなど。  照応解析 モダン応用 • ここ10年ほどで大きく進歩。 • Deep Learningと相性がよい。 感情解析 トピックモデル
  • 25. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. • データ: 「CD-毎日新聞データ集 2000年度版・2017年度版」 • 今回は経済欄にフォーカス • それぞれトピック50個抽出 Viyaで実験 ① Viyaで実験 ① トピックモデル
  • 26. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaで実験 ① Viyaで実験 ① トピックモデル • 2017 • 2000
  • 27. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Rank トピック 分類文書数 割合 1 役員人事 320 4.4% 2 食品 272 3.7% 3 投資・M&A 253 3.5% 4 新商品 239 3.3% 5 AI 229 3.2% 6 景気 218 3.0% 7 外交(貿易) 208 2.9% 8 自動車 207 2.9% 9 株式 204 2.8% 10 シャープ・液晶 203 2.8% Rank トピック 分類文書数 割合 1 決算 317 3.7% 2 役員人事 304 3.5% 3 パソコン・デジタル 296 3.4% 4 買収・売却発表 269 3.1% 5 株式 266 3.1% 6 NTT & docomo 261 3.0% 7 そごう倒産 256 3.0% 8 アジア貿易 247 2.9% 9 金融不信 243 2.8% 10 市場 230 2.7% Viyaで実験 ① Viyaで実験 ① トピックモデル • 2017 • 2000
  • 28. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. AIのトピックって?
  • 29. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved.
  • 30. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaで実験 ① トピックモデル 古典的アプローチの限界は?  コーパス • 私はViyaに興味がある • 私はAIに興味がある • ViyaはSASのAI?らしい One-hot 表現: Document Term Matrix • 昔ながらの1/0で表すone-hot表現。 →ベクトル演算ができない。 • 単語間は独立で順序無視。 → 文書全体のトピックを抽出するのには有効だが、それぞれの文章の意味は失われる。 • 単語に合わせて拡大するので、データが大きくなりがち。 私 は Viya に 興味 が ある AI SAS の ? らしい 1 1 1 1 1 1 1 1 0 0 0 0 0 2 1 1 0 1 1 1 1 1 0 0 0 0 3 0 1 1 0 0 0 0 1 1 1 1 1 単語 文書 は AI
  • 31. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaで実験 ② Viyaで実験 ②自然言語生成: 日本語では? ※著作権の関係で原文とタイトルは載せられていません. 新聞の記事内容 生成された記事タイトル • ある大手企業の人事部の方へのインタビュー • 今後自分たちの業務がいかに人工知能にとって 代わると考えているか、について。 人事 人工の知性を下回る
  • 32. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. AI x 自然言語 Deep Learning × 自然言語 × More ?
  • 33. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. 自然言語の領域 文章の意味の理解度意味理解が不要 応用 基礎 音声認識  構文解析  形態素解析  言語モデル  文書分類 対話 機械翻訳 応答 自動要約 文章生成  意味解析  談話解析  情報検索  テキストマイニング 言語構造の研究 • 最も古典的な研究。 • 本当の基礎で、言語自体の 研究にも相当する。 古典応用 • ‘00年代に大きく進歩 • インターネットによるデータの 爆増とともに成長 意味自体の研究 • 言葉の意味の研究。 • 代名詞と名刺の関連性を表 現するなど。  照応解析 モダン応用 • ここ10年ほどで大きく進歩。 • Deep Learningと相性がよい。 感情解析 トピックモデル
  • 34. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved.  コーパス • 私は犬を飼っている • 私は猫を飼っている • 私はうさぎを飼っている • ViyaはSASのAIらしい • ViyaはSASのAnalyticsらしい • ViyaはCloudのAnalyticsらしい AI x 自然言語 Word Embedding Word Embedding(分散表現) 文脈が似ている単語は似たベ クトル表現をもたせる。 Mikolov, T. et.al. (2013) Distributed Representations of Words and Phrases and their Compositionality https://arxiv.org/abs/1310.4546 Pennington, J. , Socher, R. and Manning, C.D.(2014) GloVe: Global Vectors for Word Representation https://nlp.stanford.edu/pubs/glove.pdf うさぎ 猫 犬 AI Analytics Viya Cloud SAS 単語 Viya 0.25 0.75 0.42 … SAS 0.3 0.9 0.55 … AI 0.25 0.7 0.62 … Cloud 0.4 0.8 0.36 … Analytics 0.28 0.85 0.6 … 犬 0.8 0.3 0.24 … 猫 0.75 0.4 0.26 … : : : : : 100-300次元のベクトル • ’10年代の大きな進歩。 • 分散表現で文脈を表現 • Word2vec, GloVeなどが有名 • Deep Learningで自然言語をするときの、 inputとして使われている
  • 35. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. AI x 自然言語 RNN x CNN RNN: 再起型ニューラルネットワーク • 時系列データ(順列)がinput • テキストは単語の順列とみなせる。 Kim, Y. (2014) Convolutional Neural Networksfor Sentence Classification http://www.aclweb.org/anthology/D14-1181 s1 s2 s3 sn RNN h1 input output hnh2 h3 RNN CNN CNN: 畳み込みニューラルネットワーク • 画像処理によく使われている。 • 単語の分散表現をすることで、自然言語も 画像と同じような行列として扱うことができる。
  • 36. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. AI x 自然言語 Deep Learning ベースの自然言語できること。例えば… • 要約文の自動作成 • 文書全体での感情分析 • 文章分類(Doc単位でなく、Sentence) • チャットボット(会話) • 音声認識と組み合わせて、ロボットとの会話 • 画像と組み合わせて • 画像・動画の自動タグ・説明付け • 説明文から画像生成
  • 37. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaで実験 ② 自然言語生成
  • 38. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaで実験 ② Viyaで実験 ②自然言語生成 • タスク: 自動でタイトル文の生成 • RNNの一種のLSTM • 英語版Amazonのレビューデータ • アプリ・ゲームに関して
  • 39. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. Viyaで実験 ② Viyaで実験 ②自然言語生成 レビュー(原文) レビュー 意訳 レビュータイトル 生成 Really Really enjoy playing this game. It makes you feel very smart as you solve some puzzles quickly and then the next one will be a real stumper....play it ALL the time. 楽しくてとてもはまってい る。パズルゲーム。 Crazy Addicted love this game I previously had a different sudoko application I could not really figure out . This one is easy and fun, with so many options, and it looks nice.Two thumbs up! 簡単で楽しいアプリ。 Hard to stop playing! Very Nice
  • 40. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. AI × 自然言語 の今後 どうこれから変わっていくの?
  • 41. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. AI × 自然言語 の今後 自然言語の進歩 • 自然言語技術は応用幅がとても広く、使用されると工数の大幅な削減・仮 想工数の確保に繋がる • 他の技術との組み合わせで使用されるとその応用幅もさらに広がる 皆さんが日常的に、無駄だな、繰り返し、つまらない、こんなに人が必要?と感じているタスク
  • 42. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. AI × 自然言語 の今後 自然言語の進歩 • 自然言語技術は応用幅がとても広く、使用されると工数の大幅な削減・仮 想工数の確保に繋がる • 他の技術との組み合わせで使用されるとその応用幅もさらに広がる 皆さんが日常的に、無駄だな、繰り返し、つまらない、こんなに人が必要?と感じているタスクAI x 自然言語 の発達はそれを減らしていくための大きな可能性 他の技術との組み合わせは、日常や仕事での体験を快適なものにする可能性
  • 43. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. AI × 自然言語 の今後 自然言語の進歩と複合技術 最近の研究例 ① 画像のものに自動説明付け Karpahy, A. and Fei-Fei, L. (2014) Deep Visual-Semantic Alignments for Generating Image Descriptions https://cs.stanford.edu/people/karpathy/deepimagesent/ • RNNとCNNを組み合わせたものの延長 (R-CNN + BRNN + MRF) x RNN • 目視で写真確認して…というような繰り返しのタスクの置き換え • 画像・動画・音声 → 自然言語 (生成) • 自然言語 → 画像・動画・ 音声(生成・検索)
  • 44. Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. AI × 自然言語 の今後 自然言語の進歩と複合技術 最近の研究例 ② テキスト x 3Dオブジェクト • conditional Wasserstein GAN • 自然言語から3Dオブジェクトの取得(検索) • 自然言語から3Dオブジェクトの生成 → このまま発達していって…VR空間・3Dプリンターと一緒に使うと? • 製造業・プロダクトデザインが大きく変わる? • 購買体験の変化? Chen, K. et al. (2018) Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings http://text2shape.stanford.edu/
  • 45. sas.com Company Confidential – For Internal Use Only Copyright © SAS Institute Inc. All rights reserved. End