SlideShare a Scribd company logo
平成23年11月9日
  マイニング探検会
シー・ビブリオ
   書籍とその関連情報(紹介文等)を、パソ
    コンの画面をフルに使い、リッチに垂れ流
    す
       本は読むだけではなく、
     書架に並んでいる本を眺めて、
     読みたい本を探すのも面白い
本の
                                  表紙

    「中年ボケを防ぐクスリ」
スタイリッシュに
センテンスを流す   これは福音だ!

    タイトルに騙されてはいけません


                      J

                          再生・停止等のコント
「同ジャンルの本」を流し続ける。          ローラーバー(画面に
 ジャンル切り替えボタンで変更           マウスを載せると表
                          示)
◦ 寝っ転がりながらTVニュースをみるく
  らいのノリで本の情報を得るのをひとつ
  のスタイルにできないか
   書店の販売促進や図書館の利用促進に使えるかも
   たとえば、検索用端末でスクリーンセーバーみたい
    に使うとか
シー・ビブリオ
書籍タイトル一覧

• 「シー・ビブリオ」サービス提供者が
  紹介したいタイトルの一覧

書籍の紹介情報(クールなフレーズやぱっと
分かるフレーズなど)

• サービス提供者側での自作は大変なの
  で、Webから機械的に入手したい

             これが大きな問題
スタイリッシュな画面レイアウト
       (複数パターン)の作成
                           [タイトル]
                           ・縦位置は中央配置
                           ・テキストボックスは透過
  0123456                  ・42文字以上はフォント縮小
  7890123
  4567890
  1234567
  8901234                           01234567
                                    89012345
  5678901                           67890123
[内容紹介抜粋1]                           45678901
・ない場合は非表示                             234
・36文字以上はフォント縮小

                      [内容紹介抜粋2]         テキストボックスを
            0123456   ・なければ、サブタイトル表示
            7890123   ・双方ともなければ非表示
                                       時計まわり回転させる
            4567890   ・36文字以上はフォント縮小
            1234567
            8901234
お気に入りタイ
再生                           トルをチェック
           巻き戻し    ジャンル
                    変更




                       J



                           テキスト
     早送り          停止       読み上げ
Web
 特定分野の                      データ収集
図書リストを
   送信


                                    データ蓄積

              Web・APサーバ     バックオフィス



                          タイトル→関連センテンス収集

                    クライアントから
                    一定量のコンテン
                    ツを要求(プル)

    ユーザに見せる
                          株式会社ネクスト・吉次政人氏と相談
アプリケーションとしての実装はできておらず、あくまでもイメージです

                   画面デザイン
                    東京大学・前田朗
                    東京電気大学・日向野達郎
•書籍タイトル一覧・書籍の紹介情報に「近刊検索
β」を採用(書店の在庫や図書館の蔵書タイトル一覧で
の実験はまだ難しい)
•書籍の紹介情報から使用するセンテンスの切り出
し、画面レイアウトへの実際の適用等をテスト
      「近刊検索β」
       ◦ 版元ドットコムが提供する刊行予定書籍情報
       ◦ 書誌情報・分類(Cコード)・内容紹介・コンテン
         ツを含む
       ◦ 実験申請がとおれば、APIによりデータを入手可
       ◦ http://www.hanmoto.com/jpokinkan/
実験サービスとしての実現性あり(要開発コスト)
ピアノが苦手

必ず弾けちゃ                   で嫌いな人で
                         も伴奏が弾け
                         てしまう本で
うピアノ伴奏                   す


譜                       楽譜が読めな
                        くても色に
                        そって弾けま
                        す



               コードで弾け
               ば
実際はアニメーションあり
誰にも言えない


       保育の悩みがプ
       ラス思考でスッ
       キリ解決する本
保育者の退職理由の多くは人間関係。その悩みの解決法を示します。現場
経験豊富な著者のアドバイスで、様々の悩みにお答えします。

  実際はアニメーションあり
昨年要望の多
                     かった「あそび
                     のヒント」の紹
2012-2013年版          介や「グループ
                     分け表」などを
U-CANの保育実            追加して
用ダイアリー



               保育者向け実用
               手帳
実際はアニメーションあり
昨年要望の多
                      かった「あそび
                      のヒント」の紹
2012-2013年版       ランダム介や「グループ
                  0. 総記
                      分け表」などを
U-CANの保育実         1.哲学追加して
                  2.歴史
用ダイアリー            3.社会科学
                  4.自然科学
                  5.工学
                  6.産業
                  7.芸術
                  8.言語
                  9.文学

              保育者向け実用
              手帳
                   J
天然物合成で活躍した反応
    ~実験のコツとポイント~


   天然物全合成に使われる反応は汎用性が高
   い!




実際はアニメーションあり
「安全な食べもの」って
     なんだろう? 放射線と
     食品のリスクを考える



  ちまたにあふれるさまざまな食の
  情報を、リスクの目で科学的に整
  理して伝える。関心の高い、放射
  線の影響についても正しく紹介。
実際はアニメーションあり
シー・ビブリオ
   タイトル一覧は、国立国会図書館の「国会図書
     館サーチ」よりハーベスティングして入手
    このタイトル一覧の500件に関連した紹介情報を
     得られるかどうか実験を行った

     実験データサンプル
書名             著者           出版社           ISBN          分類
              Kent,Pauline. / 北
紛争解決グローバル     原, 淳 / ポーリ
                                ミネルヴァ書房   9784623057917 DE1
化・地域・文化       ン・ケント,北原淳
              編著
世界金融・経済危機の
             植田, 和男 / 植田
全貌 : 原因・波及・              慶應義塾大学出版会 9784766417753 DE141
             和男 編著
政策対応
タイで勝つ!! : 直感 松田, 健 / 松田健
                         重化学工業通信社 9784880531267 DE151
力こそ成功のカギ     著
シー・ビブリオ
内容紹介
                  (BOOKデータベー    ユーザーレビュー      書影
                  スほか)

Amazon Product                  入手不可に(以前は
                  入手不可                        実験せず
Advertising API                 できた)

                  500タイトル中139   スクレイピングすれ
                                              小さい書影へ
楽天ブックス総合          タイトルで入手・      ば技術的には可能だ
検索API (*)         利用可。3か月以内     が、楽天からNGとの    のリンクを取
                                              得可能
                  のキャッシュ可       回答あり
                  500タイトル中0タ
                  イトルで入手可.た                   小さい書影へ
Google Books                    スクレイピングして
                                もよければ入手可      のリンクを取
API               だし、タイトルを                    得可能
                  選べば抜粋のみ入      500タイトル中10件
                  手できる.

          *「楽天ブックス総合検索API」については、
          楽天に電子メールで問い合わせて確認しています。
   内容紹介
    ◦ 多くは、[BOOKS]データベース(日外アソシエーツが
      販売)を使っている. APIで提供されてはいるが使っ
      て大丈夫か?
    ◦ → 楽天に確認。「楽天ブックス書籍総合API」では全文
      使用OK
   ユーザレビュー
    ◦ 「引用」の対象となる「一般に公開された著作物」と考え
      ることができる.スクレイピングでデータを取得せざるを
      得ないほうが問題か?
    ◦ → 楽天に確認。「楽天ブックス」ではNGとのこと。
   書影
    ◦ オークション目的での商品写真の利用は可能
シー・ビブリオ
   「言選Web」とYahoo Web検索APIを組み合わせた書
    籍関連フレーズの抽出実験(さらにノイズを減らせな
    いか研究の余地あり。東京大学・前田朗)

タイトル         サイ    フレーズ1   フレーズ2   フレーズ3   フレーズ4
             ト数
公益通報が行政を変
                   公益通報者保          公益通報制
える : 市民の声を    40          行政機関             保護
                   護法              度
行政に

                           日本法制史講 日本法制史
日本法制史         40法制度                        法制史基礎
                           義      研究
                                   新版憲法演
憲法演習          40行政法演習      行政法             民法演習
                                   習
日本国憲法制定の経
緯 : 連合国総司令    40憲法改正       司令部案    憲法改正案   連合国軍
部の憲法文書による
   実際に書籍タイトルで検索した感触では、Yahoo!よりも
    Googleのブログ検索が比較的よい結果が得られる

      「近代東アジア国際関係史」をGoogleブログ検索 ⇒
    検索結果トップから2件めと3件めで求める書評がヒット!

     「衛藤瀋吉 『近代東アジア国際関係史』 (東京大学出版会). えらく硬いタ
     イトルだが、東大での国際政治学の講義を活字にしたもので、話し言葉に近
     く読みやすい。 『眠れる獅子』や著作集の『二十世紀日中関係史』との重
     複も多いが、変な <b>...</b>」
              http://flavius.cocolog-nifty.com/blog/   より

     だが、後になって、東大での衛藤教授の講義録が「近代東アジア国際関係
     史」(東大出版会)として出版された。これを読んで、私の聴いた講義内容
     と概ね同じだったことが分かった。 この「近代東アジア国際関係史」につ
     いては、以前、次のよう <b>...</b>
               http://blog.goo.ne.jp/torumonty_2007/    より
ホームページ上の情報は「公開された著作物」であり、引用
可と考えられる。Yahoo! Web検索APIが返す「サマリー」
をそのまま使えるので、スクレイピング不要。しかし以下の
課題は残る。

   検索時のノイズ
    ◦ タイトルと無関係なブログがヒットすることがある
   検索結果のノイズ
    ◦ ブログ中のタイトル一覧などがサマリーなど
   「クールなセンテンス」「ぱっとみてわかるセンテンス」
    を抽出する
    ◦ サマリーから、さらにセンテンスを絞る必要がある
シー・ビブリオ
RSS
           書籍の紹介情報だけ
           取り出し
           (編集部の内輪話などは
           除外)


図書紹介等の情報源として蓄積。
RSS・ツイッターとも想定外のプ
ラットフォームで使うことになるが、              ツイッター
著作権的には大丈夫か?


  RSSやツイッターを使っている出版社は少ないため、
   そのまま垂れ流すとジャンルのバランスが悪そう
   現状では出版社の網羅性は低い
    ◦ 出版社サイトサンプル調査 → 35/246 サイ
      トのみ確認
   出版社以外の書評・図書紹介ブログを使
    うほうが情報を得やすいかもしれない
    ◦ 紀伊國屋書店書評空間
      http://booklog.kinokuniya.co.jp/
    ◦ HONZ http://honz.jp/
   現状では出版社の網羅性は低い
    ◦ 出版社サイトサンプル調査 → 19/ 246 サイトのみ
      確認
   必要な書籍関連情報のみにどのように絞るか?
   出版社関係のツイッターをまとめたブログ
    ◦ http://d.hatena.ne.jp/niemands/20091023/1256
      312037
   ツイッターに、書店・出版社関係のツイッター
    アカウントをまとめたリストあり。
    ◦ https://twitter.com/home#/list/ganchankadoya/
      books-publish
シー・ビブリオ
   重要文抽出
    ◦ フリーソフト「展望台システム」をテスト
    ◦ TF*IDFで重要文を取り出す方式では、短文に不向き?
    ◦ 文の位置情報が有効とのことだが、雑多な情報源の場合、
      それがうまく働くか?
   意見・評判情報処理
    ◦ ブログから意見文を抽出するという研究はすでにあり
    ◦ Yahoo!ブログ検索の「評判情報検索」では、評価に使う
      語彙に着目している
    ◦ 「評価値表現辞書」を活用できるか?
    ◦ http://www.syncha.org/evaluative_expressions.html
    既存の研究等を調査したが、よい解法が見あたらない。
          ⇒学術研究テーマになりえる?
シー・ビブリオ
やさしい(と判断した)読み物の場合   難しい(と判断した)図書の場合

      これは福
       音だ!



  「中年ボケを防ぐクスリ」
  タイトルに
  騙されては
  いけません



キャラクターと吹き出しを使うとか



                    文字のスタイルに凝るとか
   なぜ表紙画像が選書に有効か
    ◦ 表紙のデザインによって、くだけた内容か固い
      内容の本かなどの難読度の判断をしている?
    ◦ 本ごとにデザインのバリエーションがあること
      で、本の情報を見続けたときに、退屈をするこ
      とがない?
   Amazonなどの書影をWebページ中に埋め込
    むこともできるが…

    紹介する本の難読度によって画面デザインを
      バリエーション多く変えることで、
       情報を見やすく楽しくできないか
   Web情報の専門性を得る方法はあるらしい(手法
    は不明)
    ◦ Yahoo! ラボ判定サーチ
      (http://labs.yahoo.co.jp/detail/?pid=32)

書籍とは別だが、一般論として、情報のリンク関係を使い難
易度を得られないか。たとえば、難易度の低いものから、同
等もしくは高いものへのリンク(より高度な情報へのナビ
ゲート)は多くありそうだが、逆はあまりないなど。(東京
大学・前田朗の思いつき)

分野別にひらがなの使用率を調べておき、ある敷居
値を越えたものを低難易度としては(東京大学・清
田陽司先生案)
1.和の新刊本の書名をユーザ辞書(「わかる」「詳解」などの語彙)
 を使い、入門書・教養書、専門書、その他(一般書)に仕分ける。
2.仕分けた入門書と専門書の発売日、著者、出版社、カテゴリー、価
 格、ページ数別に傾向を調べる(何らかの判断基準が見つかる可能性
 がある)。
3.入門書と専門書それぞれについて、書名と書評の乖離度を調べる。
   例1)書名が「わかるXX」なのに、評価は「わかりづらい」
   ⇒乖離大⇒お勧めしない
   例2)書名が「わかるXX」で、評価も「わかりやすい」
   ⇒乖離小⇒お勧め!
タイトル中の語

ねころんだ

経済

はらへった

・・・・・




        画像と単語の対応表が用意できれば、
            実現ができるかも?
シー・ビブリオ
◦ Book Vision
 ◦ 書店専用の映像広告メディア
 ◦ http://www.bookvision.jp/
◦ ツイッターの書店・出版社のリスト
 ◦ 書籍関係のつぶやきを見続けることができる
 ◦ https://twitter.com/home#/list/ganchankadoya/books
   -publish
◦ WebGL Bookcase (Google)
 ◦ 螺旋式の仮想書棚で書籍をブラウジング
 ◦ http://workshop.chromeexperiments.com/bookcase
   野田市立図書館「在庫なう!」
    ◦ http://www.library-noda.jp/
   Trend Catcher
    ◦ Windows Vistaのサイドバーガジェット
    ◦ Amazonの売れ筋を表示
   本のある時間
    ◦ 書評にとりあげた書籍のブラウジングが可
    ◦ http://www.timewithbooks.com/

More Related Content

PPTX
シー・ビブリオ(作成中)
PDF
情報科学演習 09
PPTX
[2015年度] 看護文献の探し方(オーダーメイド講習会:看護研究Ⅰ)
PPTX
H25教セミ講義用(医学分館)
PDF
学生の情報探索行動の実態調査 実施報告
PDF
電子書籍小説の「立ち読み」インタフェース 牛尼剛聡
PDF
2014年電子出版関連の気になるニュースまとめ
PDF
新潟県村上市Facebook連続3回セミナーその1in山北商工会
シー・ビブリオ(作成中)
情報科学演習 09
[2015年度] 看護文献の探し方(オーダーメイド講習会:看護研究Ⅰ)
H25教セミ講義用(医学分館)
学生の情報探索行動の実態調査 実施報告
電子書籍小説の「立ち読み」インタフェース 牛尼剛聡
2014年電子出版関連の気になるニュースまとめ
新潟県村上市Facebook連続3回セミナーその1in山北商工会

Viewers also liked (20)

PPT
Social Developers Summit - Suhail Doshi
PPTX
NDC Rader ~日本語テキストの日本十進分類レーダーチャートによる可視化アプリケーション~
PDF
Abordaje de la investigación - Parte 2
PDF
El problema de investigación
PPT
Angelina jolie
PPTX
opac検索ログさらなるビジョン
PPTX
蔵書選定のための学位論文タイトルマイニング
PPTX
[要検証]分類法による雑誌案内
PPTX
Libx家庭版
PPT
4つの自作自然言語処理ツール
PPT
マイタン#3 国会図書館件名標目連想検索
PPTX
図書館のDB比較から新たな価値を!
PPT
所蔵調査の効率アップ作戦
PPTX
前田朗(マイタンでやりたいこと)
PPTX
前田朗(マイタンでやりたいこと)
PPTX
大学学部図書館のための図書選定補助ツールの 紹介と考察
PPTX
Ci niiによるリアルタイムデータマイニングの可能性
PPTX
サービス作る系」のVision
PPTX
El papá francisco.
DOCX
Trabajo final planif-sgc
Social Developers Summit - Suhail Doshi
NDC Rader ~日本語テキストの日本十進分類レーダーチャートによる可視化アプリケーション~
Abordaje de la investigación - Parte 2
El problema de investigación
Angelina jolie
opac検索ログさらなるビジョン
蔵書選定のための学位論文タイトルマイニング
[要検証]分類法による雑誌案内
Libx家庭版
4つの自作自然言語処理ツール
マイタン#3 国会図書館件名標目連想検索
図書館のDB比較から新たな価値を!
所蔵調査の効率アップ作戦
前田朗(マイタンでやりたいこと)
前田朗(マイタンでやりたいこと)
大学学部図書館のための図書選定補助ツールの 紹介と考察
Ci niiによるリアルタイムデータマイニングの可能性
サービス作る系」のVision
El papá francisco.
Trabajo final planif-sgc
Ad

Similar to シー・ビブリオ (20)

PDF
pg_trgmと全文検索
PDF
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
PDF
電子出版基礎講座No2
PDF
第26回HTML5とか勉強会発表資料
PDF
Uchimura kanzo(20100703)
PDF
LinkData.orgを使ったRDF教育とデータ公開化運動の推進
PDF
Ksws3rd nagao keynote(20101218)
PDF
言語処理学会へ遊びに行ったよ
PDF
Storytelling ux tokyo-en
PPTX
Infosta実習 発表ver
PDF
Il Cl(20100304)
PDF
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
PDF
異分野融合型の科学データ公開サイトLink data.org
PDF
UX TOKYOとワークショップ サード・プレイスとしての機能と役割
PDF
UX TOKYOとワークショップ サード・プレイスとしての機能と役割
PDF
小松左京が遺した夢
PPT
ビジネスがセマンティックに求める未来
PPTX
リテラシー研修 Amano 201210_ss
PDF
20090306 ku-librarians勉強会 #109 : 利用者中心視点からOPACのあり方を考える
PDF
INFOSTA(20110527)
pg_trgmと全文検索
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
電子出版基礎講座No2
第26回HTML5とか勉強会発表資料
Uchimura kanzo(20100703)
LinkData.orgを使ったRDF教育とデータ公開化運動の推進
Ksws3rd nagao keynote(20101218)
言語処理学会へ遊びに行ったよ
Storytelling ux tokyo-en
Infosta実習 発表ver
Il Cl(20100304)
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
異分野融合型の科学データ公開サイトLink data.org
UX TOKYOとワークショップ サード・プレイスとしての機能と役割
UX TOKYOとワークショップ サード・プレイスとしての機能と役割
小松左京が遺した夢
ビジネスがセマンティックに求める未来
リテラシー研修 Amano 201210_ss
20090306 ku-librarians勉強会 #109 : 利用者中心視点からOPACのあり方を考える
INFOSTA(20110527)
Ad

シー・ビブリオ

  • 3. 書籍とその関連情報(紹介文等)を、パソ コンの画面をフルに使い、リッチに垂れ流 す 本は読むだけではなく、 書架に並んでいる本を眺めて、 読みたい本を探すのも面白い
  • 4. 本の 表紙 「中年ボケを防ぐクスリ」 スタイリッシュに センテンスを流す これは福音だ! タイトルに騙されてはいけません J 再生・停止等のコント 「同ジャンルの本」を流し続ける。 ローラーバー(画面に ジャンル切り替えボタンで変更 マウスを載せると表 示)
  • 5. ◦ 寝っ転がりながらTVニュースをみるく らいのノリで本の情報を得るのをひとつ のスタイルにできないか
  • 6. 書店の販売促進や図書館の利用促進に使えるかも  たとえば、検索用端末でスクリーンセーバーみたい に使うとか
  • 8. 書籍タイトル一覧 • 「シー・ビブリオ」サービス提供者が 紹介したいタイトルの一覧 書籍の紹介情報(クールなフレーズやぱっと 分かるフレーズなど) • サービス提供者側での自作は大変なの で、Webから機械的に入手したい これが大きな問題
  • 9. スタイリッシュな画面レイアウト (複数パターン)の作成 [タイトル] ・縦位置は中央配置 ・テキストボックスは透過 0123456 ・42文字以上はフォント縮小 7890123 4567890 1234567 8901234 01234567 89012345 5678901 67890123 [内容紹介抜粋1] 45678901 ・ない場合は非表示 234 ・36文字以上はフォント縮小 [内容紹介抜粋2] テキストボックスを 0123456 ・なければ、サブタイトル表示 7890123 ・双方ともなければ非表示 時計まわり回転させる 4567890 ・36文字以上はフォント縮小 1234567 8901234
  • 10. お気に入りタイ 再生 トルをチェック 巻き戻し ジャンル 変更 J テキスト 早送り 停止 読み上げ
  • 11. Web 特定分野の データ収集 図書リストを 送信 データ蓄積 Web・APサーバ バックオフィス タイトル→関連センテンス収集 クライアントから 一定量のコンテン ツを要求(プル) ユーザに見せる 株式会社ネクスト・吉次政人氏と相談
  • 12. アプリケーションとしての実装はできておらず、あくまでもイメージです 画面デザイン 東京大学・前田朗 東京電気大学・日向野達郎
  • 13. •書籍タイトル一覧・書籍の紹介情報に「近刊検索 β」を採用(書店の在庫や図書館の蔵書タイトル一覧で の実験はまだ難しい) •書籍の紹介情報から使用するセンテンスの切り出 し、画面レイアウトへの実際の適用等をテスト  「近刊検索β」 ◦ 版元ドットコムが提供する刊行予定書籍情報 ◦ 書誌情報・分類(Cコード)・内容紹介・コンテン ツを含む ◦ 実験申請がとおれば、APIによりデータを入手可 ◦ http://www.hanmoto.com/jpokinkan/ 実験サービスとしての実現性あり(要開発コスト)
  • 14. ピアノが苦手 必ず弾けちゃ で嫌いな人で も伴奏が弾け てしまう本で うピアノ伴奏 す 譜 楽譜が読めな くても色に そって弾けま す コードで弾け ば 実際はアニメーションあり
  • 15. 誰にも言えない 保育の悩みがプ ラス思考でスッ キリ解決する本 保育者の退職理由の多くは人間関係。その悩みの解決法を示します。現場 経験豊富な著者のアドバイスで、様々の悩みにお答えします。 実際はアニメーションあり
  • 16. 昨年要望の多 かった「あそび のヒント」の紹 2012-2013年版 介や「グループ 分け表」などを U-CANの保育実 追加して 用ダイアリー 保育者向け実用 手帳 実際はアニメーションあり
  • 17. 昨年要望の多 かった「あそび のヒント」の紹 2012-2013年版 ランダム介や「グループ 0. 総記 分け表」などを U-CANの保育実 1.哲学追加して 2.歴史 用ダイアリー 3.社会科学 4.自然科学 5.工学 6.産業 7.芸術 8.言語 9.文学 保育者向け実用 手帳 J
  • 18. 天然物合成で活躍した反応 ~実験のコツとポイント~ 天然物全合成に使われる反応は汎用性が高 い! 実際はアニメーションあり
  • 19. 「安全な食べもの」って なんだろう? 放射線と 食品のリスクを考える ちまたにあふれるさまざまな食の 情報を、リスクの目で科学的に整 理して伝える。関心の高い、放射 線の影響についても正しく紹介。 実際はアニメーションあり
  • 21. タイトル一覧は、国立国会図書館の「国会図書 館サーチ」よりハーベスティングして入手  このタイトル一覧の500件に関連した紹介情報を 得られるかどうか実験を行った 実験データサンプル 書名 著者 出版社 ISBN 分類 Kent,Pauline. / 北 紛争解決グローバル 原, 淳 / ポーリ ミネルヴァ書房 9784623057917 DE1 化・地域・文化 ン・ケント,北原淳 編著 世界金融・経済危機の 植田, 和男 / 植田 全貌 : 原因・波及・ 慶應義塾大学出版会 9784766417753 DE141 和男 編著 政策対応 タイで勝つ!! : 直感 松田, 健 / 松田健 重化学工業通信社 9784880531267 DE151 力こそ成功のカギ 著
  • 23. 内容紹介 (BOOKデータベー ユーザーレビュー 書影 スほか) Amazon Product 入手不可に(以前は 入手不可 実験せず Advertising API できた) 500タイトル中139 スクレイピングすれ 小さい書影へ 楽天ブックス総合 タイトルで入手・ ば技術的には可能だ 検索API (*) 利用可。3か月以内 が、楽天からNGとの のリンクを取 得可能 のキャッシュ可 回答あり 500タイトル中0タ イトルで入手可.た 小さい書影へ Google Books スクレイピングして もよければ入手可 のリンクを取 API だし、タイトルを 得可能 選べば抜粋のみ入 500タイトル中10件 手できる. *「楽天ブックス総合検索API」については、 楽天に電子メールで問い合わせて確認しています。
  • 24. 内容紹介 ◦ 多くは、[BOOKS]データベース(日外アソシエーツが 販売)を使っている. APIで提供されてはいるが使っ て大丈夫か? ◦ → 楽天に確認。「楽天ブックス書籍総合API」では全文 使用OK  ユーザレビュー ◦ 「引用」の対象となる「一般に公開された著作物」と考え ることができる.スクレイピングでデータを取得せざるを 得ないほうが問題か? ◦ → 楽天に確認。「楽天ブックス」ではNGとのこと。  書影 ◦ オークション目的での商品写真の利用は可能
  • 26. 「言選Web」とYahoo Web検索APIを組み合わせた書 籍関連フレーズの抽出実験(さらにノイズを減らせな いか研究の余地あり。東京大学・前田朗) タイトル サイ フレーズ1 フレーズ2 フレーズ3 フレーズ4 ト数 公益通報が行政を変 公益通報者保 公益通報制 える : 市民の声を 40 行政機関 保護 護法 度 行政に 日本法制史講 日本法制史 日本法制史 40法制度 法制史基礎 義 研究 新版憲法演 憲法演習 40行政法演習 行政法 民法演習 習 日本国憲法制定の経 緯 : 連合国総司令 40憲法改正 司令部案 憲法改正案 連合国軍 部の憲法文書による
  • 27. 実際に書籍タイトルで検索した感触では、Yahoo!よりも Googleのブログ検索が比較的よい結果が得られる 「近代東アジア国際関係史」をGoogleブログ検索 ⇒ 検索結果トップから2件めと3件めで求める書評がヒット! 「衛藤瀋吉 『近代東アジア国際関係史』 (東京大学出版会). えらく硬いタ イトルだが、東大での国際政治学の講義を活字にしたもので、話し言葉に近 く読みやすい。 『眠れる獅子』や著作集の『二十世紀日中関係史』との重 複も多いが、変な <b>...</b>」 http://flavius.cocolog-nifty.com/blog/ より だが、後になって、東大での衛藤教授の講義録が「近代東アジア国際関係 史」(東大出版会)として出版された。これを読んで、私の聴いた講義内容 と概ね同じだったことが分かった。 この「近代東アジア国際関係史」につ いては、以前、次のよう <b>...</b> http://blog.goo.ne.jp/torumonty_2007/ より
  • 28. ホームページ上の情報は「公開された著作物」であり、引用 可と考えられる。Yahoo! Web検索APIが返す「サマリー」 をそのまま使えるので、スクレイピング不要。しかし以下の 課題は残る。  検索時のノイズ ◦ タイトルと無関係なブログがヒットすることがある  検索結果のノイズ ◦ ブログ中のタイトル一覧などがサマリーなど  「クールなセンテンス」「ぱっとみてわかるセンテンス」 を抽出する ◦ サマリーから、さらにセンテンスを絞る必要がある
  • 30. RSS 書籍の紹介情報だけ 取り出し (編集部の内輪話などは 除外) 図書紹介等の情報源として蓄積。 RSS・ツイッターとも想定外のプ ラットフォームで使うことになるが、 ツイッター 著作権的には大丈夫か? RSSやツイッターを使っている出版社は少ないため、 そのまま垂れ流すとジャンルのバランスが悪そう
  • 31. 現状では出版社の網羅性は低い ◦ 出版社サイトサンプル調査 → 35/246 サイ トのみ確認  出版社以外の書評・図書紹介ブログを使 うほうが情報を得やすいかもしれない ◦ 紀伊國屋書店書評空間 http://booklog.kinokuniya.co.jp/ ◦ HONZ http://honz.jp/
  • 32. 現状では出版社の網羅性は低い ◦ 出版社サイトサンプル調査 → 19/ 246 サイトのみ 確認  必要な書籍関連情報のみにどのように絞るか?  出版社関係のツイッターをまとめたブログ ◦ http://d.hatena.ne.jp/niemands/20091023/1256 312037  ツイッターに、書店・出版社関係のツイッター アカウントをまとめたリストあり。 ◦ https://twitter.com/home#/list/ganchankadoya/ books-publish
  • 34. 重要文抽出 ◦ フリーソフト「展望台システム」をテスト ◦ TF*IDFで重要文を取り出す方式では、短文に不向き? ◦ 文の位置情報が有効とのことだが、雑多な情報源の場合、 それがうまく働くか?  意見・評判情報処理 ◦ ブログから意見文を抽出するという研究はすでにあり ◦ Yahoo!ブログ検索の「評判情報検索」では、評価に使う 語彙に着目している ◦ 「評価値表現辞書」を活用できるか? ◦ http://www.syncha.org/evaluative_expressions.html 既存の研究等を調査したが、よい解法が見あたらない。 ⇒学術研究テーマになりえる?
  • 36. やさしい(と判断した)読み物の場合 難しい(と判断した)図書の場合 これは福 音だ! 「中年ボケを防ぐクスリ」 タイトルに 騙されては いけません キャラクターと吹き出しを使うとか 文字のスタイルに凝るとか
  • 37. なぜ表紙画像が選書に有効か ◦ 表紙のデザインによって、くだけた内容か固い 内容の本かなどの難読度の判断をしている? ◦ 本ごとにデザインのバリエーションがあること で、本の情報を見続けたときに、退屈をするこ とがない?  Amazonなどの書影をWebページ中に埋め込 むこともできるが… 紹介する本の難読度によって画面デザインを バリエーション多く変えることで、 情報を見やすく楽しくできないか
  • 38. Web情報の専門性を得る方法はあるらしい(手法 は不明) ◦ Yahoo! ラボ判定サーチ (http://labs.yahoo.co.jp/detail/?pid=32) 書籍とは別だが、一般論として、情報のリンク関係を使い難 易度を得られないか。たとえば、難易度の低いものから、同 等もしくは高いものへのリンク(より高度な情報へのナビ ゲート)は多くありそうだが、逆はあまりないなど。(東京 大学・前田朗の思いつき) 分野別にひらがなの使用率を調べておき、ある敷居 値を越えたものを低難易度としては(東京大学・清 田陽司先生案)
  • 39. 1.和の新刊本の書名をユーザ辞書(「わかる」「詳解」などの語彙) を使い、入門書・教養書、専門書、その他(一般書)に仕分ける。 2.仕分けた入門書と専門書の発売日、著者、出版社、カテゴリー、価 格、ページ数別に傾向を調べる(何らかの判断基準が見つかる可能性 がある)。 3.入門書と専門書それぞれについて、書名と書評の乖離度を調べる。 例1)書名が「わかるXX」なのに、評価は「わかりづらい」 ⇒乖離大⇒お勧めしない 例2)書名が「わかるXX」で、評価も「わかりやすい」 ⇒乖離小⇒お勧め!
  • 40. タイトル中の語 ねころんだ 経済 はらへった ・・・・・ 画像と単語の対応表が用意できれば、 実現ができるかも?
  • 42. ◦ Book Vision ◦ 書店専用の映像広告メディア ◦ http://www.bookvision.jp/ ◦ ツイッターの書店・出版社のリスト ◦ 書籍関係のつぶやきを見続けることができる ◦ https://twitter.com/home#/list/ganchankadoya/books -publish ◦ WebGL Bookcase (Google) ◦ 螺旋式の仮想書棚で書籍をブラウジング ◦ http://workshop.chromeexperiments.com/bookcase
  • 43. 野田市立図書館「在庫なう!」 ◦ http://www.library-noda.jp/  Trend Catcher ◦ Windows Vistaのサイドバーガジェット ◦ Amazonの売れ筋を表示  本のある時間 ◦ 書評にとりあげた書籍のブラウジングが可 ◦ http://www.timewithbooks.com/