「erockrの運用とデータの活用」グラビアアイドルの自動クラスタリング、カップ分析ほか。

画像xエンジニアリング勉強会(GXEB)という勉強会で「erockrの運用とデータの活用」というテーマでライトニングトークをしてきたので、その内容を文字におこしてみました。
ちなみにこのGXEBという勉強会はOppai-Detect3 - ゆーすけべー日記などのすごい発表も聞けて、とても楽しい勉強会でした!他の人の発表は2010-11-27 - 海老かつ日記をご覧ください。
※発表でフォローしきれなかったところは追補しました。

koni

  • 大学3年生 (就職活動中)
  • 趣味:ウェブサービスをつくること、テニス
  • Twitter: @koni
  • 育ち:千葉県流山市 今:埼玉県所沢市
  • お願い
    • ライトニングトークどころか、こういった勉強会は初めてです。緊張しています。どうか暖かい気持ちで見守ってください。

「こに」の自己紹介 - konisimple

erockr?

Flickrを使うメリット

  • API完備
  • ダウンロードが早い (さすが米Yahoo!)
  • 高画質
    • 画像共有サイトなので、高画質なグラビア画像が多数共有されている
    • GoogleYahoo!の画像検索と比べて、件数は少ないがクオリティの高い画像のみヒット!

erockrの機能

  • erockrをご覧ください。
  • 検索キーワードから、ランキングから、名前一覧から検索できる
  • 画像にオンマウスで評価ボタン出現

ただ検索するだけじゃつまらない

  • このようなAPIを叩くだけのサイト
    • オリジナルなコンテンツがない
    • ランキングなど、自分のところで得られるデータの活用が重要
    • そこで...

ただ検索するだけじゃつまらないので 1/3

  • 画像の表示順序を変更→検索結果のクオリティを向上
    • クリック数(検索結果ページのクリックは全て記録!)
    • ユーザによる評価
  • エロ画像をさがしている人は、イイ!と思った画像をほいほいクリックすることが多く、かなりよく機能している

ただ検索するだけじゃつまらないので 2/3

  • レコメンド機能
  • ユーザ別のレコメンド(ユーザの閲覧履歴から)

ただ検索するだけじゃつまらないので 3/3

  • wikipediaからアイドルの定量的な情報をとってくる
    • 生年月日、血液型、身長、体重、スリーサイズ、カップ
    • スリーサイズ判明:約400人、カップ判明:約200名

集めたデータ

  • ログ(アイドルごとの閲覧回数ランキング)
  • アイドル間の類似度(レコメンド機能用)
  • wikipediaからのアイドルの定量的情報
    • (生年月日、血液型、身長、体重、スリーサイズ、カップ

データの活用? グラビアアイドル類似マップ

  • 類似度が高い→距離が近い!
  • 地図を作ろう
  • 多次元尺度構成法
    • 類似度からアイドルを二次元に配置できる!
  • 書いてみた!
  • 類似度データだけで、アイドルをある程度クラスタリングできる

このマップの作成方法はerockrの表示の傾向からアイドルの立ち位置を図にしてみた - konisimple logをご覧ください。Rという勝間和代も使っている統計解析ソフトで5行でできます。

データの活用? アイドルの人気と胸の大きさは相関するのか?

  • 分布図を書いてみた
  • 相関なし!
  • では一般女性と比べてみたら?
  • 一般女性よりグラビアアイドルの方がおよそ3段階大きい。

データの活用? アイドルの人気とバスト/ウエスト比率は関係するのか?

  • 理想のバスト/ウエスト比率は、1.4
  • 有意な相関なし!
  • 人気グラビアアイドルのバストウエスト比率は 1.47程度

まとめ

  • apiを利用しただけでオリジナルのコンテンツを持たないマッシュアップサイトでも、いろんなデータがとれたりして楽しい。


資料(この日のスライド)