上里 DEIM2015 07 - IPSJ DBS†4 国立情報学研究所 〒101-8430...

8
DEIM Forum 2015 D8-5 Twitter ユーザを対象とした属性推定の精度向上 -周辺ユーザの属性補完を利用して- 上里 和也 1 浅井 洋樹 12 奥野 峻弥 1 山名 早人 34 1 早稲田大学大学院基幹理工学研究科 169-8555 東京都新宿区大久保 3-4-1 2 早稲田大学グローバルエデュケーションセンター 169-8050 東京都新宿区戸塚町 1-104 3 早稲田大学理工学術院 169-8555 東京都新宿区大久保 3-4-1 4 国立情報学研究所 101-8430 東京都千代田区一ツ橋 2-1-2 E-mail: {k.uesato, asai, o_syunya, yamana}@yama.info.waseda.ac.jp あらまし Twitter のような大規模なソーシャルサービスにおいて,ユーザの興味や所属などの属性を知ること は,効果的なマーケティングを行う上で重要である.従来の属性推定手法の多くは,特徴量として推定対象ユーザ とフォローやメンション関係を持つ,周辺ユーザの属性情報を利用している.しかし Twitter ユーザのプロフィール に含まれる属性情報は限定的であるため,周辺ユーザが公開している属性情報のみでは推定対象ユーザの属性を推 定するには不十分である.そこで本研究では,周辺ユーザに対しても属性推定手法を予め適用し,周辺ユーザの不 足している属性情報を補うことで,推定対象ユーザの属性推定精度を向上させる手法を提案する.周辺ユーザの属 性補完を行わない手法をベースラインとして比較実験を行った結果,Precision@10 が,フォロー情報を利用してソ ーシャルグラフを構築した場合に 0.67 から 0.87 に,メンション情報を利用した場合に 0.53 から 0.73 に向上した. また推定対象ユーザ本人に対するインタビューをもとに,推定の結果として得られた属性情報の多様性についても 評価を行い,ベースラインの手法と比較して,提案手法ではより多様な属性を推定できることを確認した. キーワード Twitter,属性推定 1. はじめに Twitter a は,2 億人を超える月間アクティブユーザを 有する [1] 大規模なソーシャル・ネットワーキング・サ ービス( SNS )である.Twitter のような大規模な SNS におけるユーザの興味や所属などに代表されるユーザ 属性は,ユーザの興味に合致した広告表示や,製品の 購買層調査などの分野で有用である. Twitter ではユー ザ自身がプロフィール情報を登録することができる. しかし近年個人を特定し得る情報の公開に対する懸念 が高まっており,ユーザ自身がプロフィール文に記述 する属性情報は限定的である.そのため,それぞれの ユーザのプロフィール文のみを用いてユーザの詳細な 属性を知ることは困難であり,その他のデータを用い てユーザの属性を推定する手法が重要となっている. これまでにも Twitter ユーザの属性を推定する手法 に関する研究が行われきた.これらの既存手法は,推 定に利用する情報の種類によって 2 つに大別される. 1 つは,属性推定の対象となるユーザが投稿するツ イートを利用する手法である.しかし,同一アカウン トから投稿されるツイートであっても,それぞれのツ イートは多種多様な話題に言及しており,推定対象ユ ーザの興味等を的確に推定することは困難である.そ a Twitter, https://twitter.com/. (2015 1 5 日アクセ ) のため,ツイート情報を利用する研究の多くは,位置 情報 [2][3] ,興味 [4][5] ,支持政党 [6] など,予め定めら れた特定の種類の属性を推定しており,任意の種類の 属性を推定する手法は提案されていない.そのため, それぞれの種類の属性を推定することはできるが,推 定対象のユーザがどのような種類の属性にどれほど深 く関連しているのかを知ることは困難である.さらに, ツイートをほとんど投稿していないユーザに対しては, 手法の適用自体が困難となる. もう 1 つは,フォロー,メンションといったユーザ 間の関係を利用する手法である.まずフォローやメン ションの関係からソーシャルグラフを構築する.そし てソーシャルグラフから推定対象ユーザの周辺のユー ザをコミュニティとして抽出し,周辺ユーザが公開し ている属性情報を解析することで,推定対象ユーザの 属性を推定している.しかしこれらの手法では,特定 の種類の属性を推定対象とし,属性が既知であるユー ザからパターンを抽出し,それを用いて属性が未知で あるユーザに対して推定を行っている.そのため,予 め推定対象となる属性の種類を定め,その属性を対象 としたパターン抽出を行う必要がある.したがって, フォロー,メンション情報を利用する既存手法におい ても,推定対象ユーザ本人のツイート情報を利用する 手法と同様に,特定の種類の属性を推定

Transcript of 上里 DEIM2015 07 - IPSJ DBS†4 国立情報学研究所 〒101-8430...

Page 1: 上里 DEIM2015 07 - IPSJ DBS†4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋2-1-2 E-mail: {k.uesato, asai, o_syunya, yamana}@yama.info.waseda.ac.jp あらまし

DEIM Forum 2015 D8-5

Twitterユーザを対象とした属性推定の精度向上 -周辺ユーザの属性補完を利用して-

上里 和也†1 浅井 洋樹†1†2 奥野 峻弥†1 山名 早人†3†4

†1 早稲田大学大学院基幹理工学研究科 〒169-8555 東京都新宿区大久保 3-4-1 †2 早稲田大学グローバルエデュケーションセンター 〒169-8050 東京都新宿区戸塚町 1-104

†3 早稲田大学理工学術院 〒169-8555 東京都新宿区大久保 3-4-1 †4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2 E-mail: {k.uesato, asai, o_syunya, yamana}@yama.info.waseda.ac.jp

あらまし Twitter のような大規模なソーシャルサービスにおいて,ユーザの興味や所属などの属性を知ることは,効果的なマーケティングを行う上で重要である.従来の属性推定手法の多くは,特徴量として推定対象ユーザ

とフォローやメンション関係を持つ,周辺ユーザの属性情報を利用している.しかし Twitterユーザのプロフィールに含まれる属性情報は限定的であるため,周辺ユーザが公開している属性情報のみでは推定対象ユーザの属性を推

定するには不十分である.そこで本研究では,周辺ユーザに対しても属性推定手法を予め適用し,周辺ユーザの不

足している属性情報を補うことで,推定対象ユーザの属性推定精度を向上させる手法を提案する.周辺ユーザの属

性補完を行わない手法をベースラインとして比較実験を行った結果,Precision@10 が,フォロー情報を利用してソーシャルグラフを構築した場合に 0.67から 0.87に,メンション情報を利用した場合に 0.53から 0.73に向上した.また推定対象ユーザ本人に対するインタビューをもとに,推定の結果として得られた属性情報の多様性についても

評価を行い,ベースラインの手法と比較して,提案手法ではより多様な属性を推定できることを確認した. キーワード Twitter,属性推定

1. はじめに

Twitteraは,2 億人を超える月間アクティブユーザを有する [1]大規模なソーシャル・ネットワーキング・サービス(SNS)である.Twitter のような大規模な SNSにおけるユーザの興味や所属などに代表されるユーザ

属性は,ユーザの興味に合致した広告表示や,製品の

購買層調査などの分野で有用である.Twitter ではユーザ自身がプロフィール情報を登録することができる.

しかし近年個人を特定し得る情報の公開に対する懸念

が高まっており,ユーザ自身がプロフィール文に記述

する属性情報は限定的である.そのため,それぞれの

ユーザのプロフィール文のみを用いてユーザの詳細な

属性を知ることは困難であり,その他のデータを用い

てユーザの属性を推定する手法が重要となっている. これまでにも Twitter ユーザの属性を推定する手法

に関する研究が行われきた.これらの既存手法は,推

定に利用する情報の種類によって 2 つに大別される. 1 つは,属性推定の対象となるユーザが投稿するツ

イートを利用する手法である.しかし,同一アカウン

トから投稿されるツイートであっても,それぞれのツ

イートは多種多様な話題に言及しており,推定対象ユ

ーザの興味等を的確に推定することは困難である.そ

a Twitter, https://twitter.com/. (2015年 1月 5日アクセ

ス )

のため,ツイート情報を利用する研究の多くは,位置

情報 [2][3],興味 [4][5],支持政党 [6]など,予め定められた特定の種類の属性を推定しており,任意の種類の

属性を推定する手法は提案されていない.そのため,

それぞれの種類の属性を推定することはできるが,推

定対象のユーザがどのような種類の属性にどれほど深

く関連しているのかを知ることは困難である.さらに,

ツイートをほとんど投稿していないユーザに対しては,

手法の適用自体が困難となる. もう 1 つは,フォロー,メンションといったユーザ

間の関係を利用する手法である.まずフォローやメン

ションの関係からソーシャルグラフを構築する.そし

てソーシャルグラフから推定対象ユーザの周辺のユー

ザをコミュニティとして抽出し,周辺ユーザが公開し

ている属性情報を解析することで,推定対象ユーザの

属性を推定している.しかしこれらの手法では,特定

の種類の属性を推定対象とし,属性が既知であるユー

ザからパターンを抽出し,それを用いて属性が未知で

あるユーザに対して推定を行っている.そのため,予

め推定対象となる属性の種類を定め,その属性を対象

としたパターン抽出を行う必要がある.したがって,

フォロー,メンション情報を利用する既存手法におい

ても,推定対象ユーザ本人のツイート情報を利用する

手 法 と 同 様 に , 特 定 の 種 類 の 属 性 を 推 定

Page 2: 上里 DEIM2015 07 - IPSJ DBS†4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋2-1-2 E-mail: {k.uesato, asai, o_syunya, yamana}@yama.info.waseda.ac.jp あらまし

[7][8][9][10][11][12]するにとどまっており,任意の属性の推定を行うことができない. これに対し,我々は以前任意の種類の属性の推定を

可能とする手法を提案 [13][14]している.同手法では,メンション情報を用いてソーシャルグラフを構築し,

周辺ユーザのプロフィール文から複数の属性を抽出す

ることで,任意の種類の属性の推定を可能としている.

しかしそれぞれの周辺ユーザが公開している属性情報

は限定的であり,推定対象ユーザの属性を的確に推定

するためには不十分である可能性がある. そこで本研究では,周辺ユーザに対しても予め属性

推定手法を適用し,周辺ユーザの不足している属性情

報を補うことで,推定対象ユーザの属性推定精度の向

上を図る.提案手法では,まず推定対象ユーザから 1ホップで到達可能なユーザを周辺ユーザとして抽出す

る.次に,それぞれの周辺ユーザ自身のプロフィール

文に加え,当該周辺ユーザからさらに 1 ホップで到達可能なユーザのプロフィール文を利用し,周辺ユーザ

の属性を推定する.その後,推定した周辺ユーザの属

性情報を利用し,推定対象ユーザの属性を推定する.

このように周辺ユーザの属性を予め推定することによ

り,周辺ユーザの未知の属性情報を補完し,従来手法

における周辺ユーザの属性情報の不足を解決する. 本稿は以下の構成をとる.まず 2 節で関連研究につ

いて述べ,次に 3 節で提案手法である周辺ユーザの属性補完を行う Twitter ユーザの属性推定手法について説明する.4 節で実験と評価を行い,5 節で本稿をまとめる.

2. 関連研究

Twitter ユーザの属性推定は,ユーザ自身のツイート情報を利用する手法とフォロー・メンション情報を利

用する手法の2つに分類できる.以下,各々の手法に

ついて関連研究を説明する.

2.1. 推定対象ユーザ自身のツイート情報を利用する属性推定手法

推定対象ユーザのツイート情報を利用する研究で

は,推定対象ユーザ自身が投稿したツイートの本文の

内容や,ツイートに付与されている URL,ハッシュタグ,位置情報などを主に解析し,推定対象ユーザの属

性を推定する.しかし,同一アカウントから投稿され

るツイートであっても,それぞれのツイートは様々な

話題に言及しているため,推定対象ユーザの興味等の

属性を的確に推定することは困難である.そのため,

推定対象ユーザのツイート情報を利用する既存手法で

は,位置情報 [2][3],興味 [4][5],支持政党 [6]など,予め定められた特定の種類の属性についての推定を行っ

ている.

また,同一ユーザから投稿されるツイートの内容の

多様性に対し,ユーザの属性を含むツイートのみを抽

出し,それらを属性推定に利用する手法も提案されて

いる.Xu らは,Rosen-Zvi らが提案した Author-Topicモデル [15]に変更を加え,それぞれのツイートの内容が投稿ユーザの興味に関係するか否かの分類を可能と

する Twitter-User モデル [5]を提案している.さらにこれを利用し,Twitter ユーザの興味と関係するツイートのみを解析対象として抽出することで,既存のモデル

である Latent Dirichlet Allocation 及び Author-Topic モデルを利用した場合と比較し,Twitter ユーザの興味をより高い精度で推定することに成功している.しかし

同手法では,推定対象ユーザのツイートのみを利用し

ているため,ツイート内でより多く言及されている「興

味」という特定の種類の属性を推定するにとどまって

おり,ツイート内で言及されることのない属性に対し

ては推定を行えない.

2.2. フォロー,メンション情報を利用する属性推定手法

フォロー,メンション情報を利用する属性推定手法

では,フォロー,メンション情報を利用し,ノードと

なるユーザ間にエッジを張り,ソーシャルグラフを構

築する.そして,ソーシャルグラフから推定対象ユー

ザの属するコミュニティを抽出し,コミュニティ内の

ユーザの属性情報を解析することで,推定対象ユーザ

の属性を推定している.しかし,これらの手法では特

定の種類の属性を推定対象とし,属性が既知であるユ

ーザからパターンを抽出し,それを用いて属性が未知

であるユーザに対して推定を行っている.そのため,

予め推定対象となる属性の種類を定め,その属性を対

象としたパターン抽出を行う必要がある.このような

理由から,フォロー,メンション情報を利用する研究

においても, 2.1 項で説明したツイート情報を利用する手法と同様,多くの研究では特定の種類の属性の推

定 [7][8][9][10][11][12]を行っており,任意の属性の推定を行うことができない. これに対し,我々は以前任意の属性の推定を可能と

する手法を提案 [13][14]している.同手法では,メンション情報を用いてソーシャルグラフを構築し,推定対

象ユーザの周辺のユーザのプロフィール文から複数の

属性情報を抽出することで,任意の種類の属性推定を

可能としている.また,フォロー情報を利用してソー

シャルグラフを構築する場合に比べ,メンション情報

を利用してソーシャルグラフを構築する場合には,メ

ンションの投稿回数を利用してエッジに重みを与える

ことが可能となる上に,より親密な関係にあるユーザ

群をコミュニティとして取得でき,これ利用すること

で高い精度での属性推定が行えることを示した.

Page 3: 上里 DEIM2015 07 - IPSJ DBS†4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋2-1-2 E-mail: {k.uesato, asai, o_syunya, yamana}@yama.info.waseda.ac.jp あらまし

しかし,同手法では推定対象ユーザの周辺ユーザの

プロフィール文を利用しているため,それぞれのユー

ザがプロフィール文内に記述し公開している限定的な

属性情報のみを利用している.そのため,同手法にお

いて推定対象ユーザの属性推定に利用している周辺ユ

ーザの属性情報は,推定対象ユーザの属性を的確に推

定するためには不十分である可能性がある.

3. 提案手法 従来のフォロー,メンション情報を利用した属性推

定手法は,周辺ユーザが公開している限定的な属性情

報のみを利用して推定対象ユーザの属性を推定してい

る.これに対して本稿では,周辺ユーザに対しても予

め属性推定手法を適用し,周辺ユーザの属性情報を補

うことで推定精度の向上を目指す.

3.1. 提案手法の概要 以下,提案手法の流れを示す.なお,本手法はフォ

ロー,メンションのどちらの関係を用いる場合にも適

用可能であるため,それぞれの関係によって構築した

ソーシャルグラフを利用して属性推定を行う.また本

研究では,推定対象ユーザの属性情報は未知であると

仮定するため,推定対象ユーザの属性情報は解析対象

から除く.本手法の手順の概略図を図 1 に示す.

図 1 提案手法の概略図

周辺ユーザの属性補完では,推定対象ユーザの属性

推定の際に用いる推定手法と同様の手法を周辺ユーザ

に対して適用する.周辺ユーザの属性補完では解析対

象のプロフィール文に含まれる単語,推定対象ユーザ

の属性推定では周辺ユーザの補完済属性情報に含まれ

て い る 単 語 に 対 し て , TF-IDF に 変 更 を 加 え た

LDF-GIDF(Local Document Frequency - Global Inverted Document Frequency)によって算出したスコアを重要度として付与し,最も上位のスコアを持つ 10 単語を結果として出力する.

3.2. フォロー・メンション関係を示すグラフ フォロー・メンション関係をグラフにより表現する.

具体的には,ノードをユーザ,エッジをフォロー関係

もしくはメンション関係としてグラフを構築する.こ

の時,エッジは相互フォローもしくは相互メンション

がある場合にのみ付加し,単純無向グラフとして扱う.

3.3. LDF-GIDF スコア 本項では,本手法における周辺ユーザの属性補完及

び推定対象ユーザの属性推定の際に,それぞれの単語

の重要度として付与する, TF-IDF に変更を加えたLDF-GIDF スコアの算出方法について述べる. TF-IDFではある単語の局所的重み TF を,解析対象の単一文書内の全単語数に対する対象の単語の出現回数の割合

とする.それに対し LDF-GIDF では局所的重み LDF を解析対象の文書集合に含まれる全文書数に対する,対

象の単語を含む文書数の割合とする. まず,解析対象となる文書集合(周辺ユーザの属性

補完では周辺ユーザから 1 ホップで到達可能な全ユーザのプロフィール文の集合,推定対象ユーザの属性推

定では全周辺ユーザの補完済属性情報の集合)を𝑫𝒍とする.解析対象の文書集合𝑫𝒍内の文書に含まれる単語𝑤に付与する LDF スコア 𝑙𝑑𝑓!を式 (1)に従って算出する.

𝑙𝑑𝑓! =𝑙𝑑!𝑫𝒍

(1)

ここで, 𝑙𝑑!は文書集合𝑫𝒍内の文書のうち,単語𝑤を含む文書の数である. 次に,Twitter ユーザ全体(実際には,4.1 項で示し

た方法で収集したデータ全体)からランダムサンプリ

ングによって𝑁!人のユーザを取得し,これらのユーザのプロフィール文全体を一般文書集合𝑫𝒈とする.なお本研究では,事前実験の結果から𝑁! = 1,000,000と定めている.一般文書集合𝑫𝒈内の文書のうち,単語𝑤を含む文書の数を𝑔𝑑!とし,単語𝑤に付与する GIDF スコア𝑔𝑖𝑑𝑓!を式 (2)にしたがって算出する.

𝑔𝑖𝑑𝑓! =log

𝑫𝒈𝑔𝑑!

 (𝑔𝑑! ≠ 0)  

log 𝑫𝒈    (𝑔𝑑! = 0) (2)

単語𝑤に対する LDF-GIDF スコアは,LDF スコア 𝑙𝑑𝑓!及び GIDF スコア𝑔𝑖𝑑𝑓!を用いて,式 (3)にしたがって算出する.

𝑆 𝑤 = 𝑙𝑑𝑓! ∙ 𝑔𝑖𝑑𝑓! (3)

Page 4: 上里 DEIM2015 07 - IPSJ DBS†4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋2-1-2 E-mail: {k.uesato, asai, o_syunya, yamana}@yama.info.waseda.ac.jp あらまし

3.4. 周辺ユーザの属性補完 周辺ユーザの属性補完は, 3.2 項で定義したグラフ

を用いて行う.本稿の新規点は,本項で述べる周辺ユ

ーザの属性補完を行い,推定対象ユーザの属性推定に

利用できる情報を拡張する点である. 周辺ユーザの属性補完にあたっては,まず推定対象

ユーザ 𝑢!から 1 ホップで到達可能なユーザ全体を周辺ユーザ集合𝑼𝒍 = 𝑢!!,𝑢!!,… ,𝑢!" として定義し,各々の周辺ユーザ𝑢!"に対して,次の手順で属性補完を行う. 1. 周辺ユーザ𝑢!"から 1 ホップで到達可能なユーザ

(推定対象ユーザを除く)のプロフィール文を解

析対象のプロフィール文集合𝑷𝒍𝒊として取得する 2. 1.で取得したプロフィール文集合𝑷𝒍𝒊に含まれる

プロフィール文全体に対して形態素解析を行い,

得られた名詞全体を解析対象の単語集合𝑾𝒍𝒊とす

る 3. プロフィール文集合𝑷𝒍𝒊を解析対象の文書集合と

し,単語集合𝑾𝒍𝒊に含まれる各単語𝑤!"#に対し,LDF-GIDF スコア𝑆 𝑤!"# を 3.3 項の方法で算出する

4. 最大の LDF-GIDF スコアが付与されている𝑁!  件の単語を取得し,それぞれの単語𝑎!"#に対し,付与されている LDF-GIDF スコアの降順で順位𝑟!"# 1 ≤ 𝑟!"# ≤ 𝑁!, 𝑟!"𝑘 ∈ ℕ を付与することで,当該周辺 ユ ー ザ 𝑢!"の 補 完 済 属 性 情 報 を , 属 性 集 合𝑨𝒍𝒊 = 𝑎!"!, 𝑎!"!,… , 𝑎!"!! 及びそれに対応する順位集合𝑹𝒍𝒊 = 𝑟!"!, 𝑟!"!,… , 𝑟!"!! の 2 つの集合の形で表し,これらを結果として出力する

ここでの形態素解析には,オープンソースの形態素

解析エンジン lucene-gosenbを利用している.また本研

究では,属性数𝑁!を事前実験によって𝑁! = 10と決定している.

3.5. 推定対象ユーザの属性推定 次に, 3.4 項の方法で推定した周辺ユーザの補完済属性情報を利用し,推定対象ユーザの属性を推定する

手順を示す. 1. 3.4 項の方法で得られたいずれかの周辺ユーザの

属性集合に含まれる単語全体の集合を𝑾𝒕とする 2. 全 周 辺 ユ ー ザ の 属 性 集 合 を 要 素 と す る 集 合

𝑨𝒍 = 𝑨𝒍𝟏,𝑨𝒍𝟐,… ,𝑨𝒍𝒏 を解析対象の文書集合とし,単 語 集 合 𝑾𝒕に 含 ま れ る 各 単 語 𝑤!"に 対 し ,LDF-GIDFスコア𝑆 𝑤!" を 3.3項の方法で算出する

3. 最大の LDF-GIDF スコアが付与されている 10 件の 単 語 か ら な る 集 合 を 属 性 集 合

𝑨𝒕 = 𝑎!!, 𝑎!!,… , 𝑎!!" とし,それぞれの単語𝑎!"に対

b lucene-gosen/lucene-gosen - Github,

https://github.com/lucene-gosen/lucene-gosen. (2015 年 1月 5 日アクセス )

し,付与されている LDF-GIDF スコアの降順で順位 𝑟!! 1 ≤ 𝑟!" ≤ 10, 𝑟!" ∈ ℕ を付与することで,推定対 象 ユ ー ザ 𝑢!の 属 性 情 報 を , 属 性 集 合 𝑨𝒕 =𝑎!!, 𝑎!!,… , 𝑎!!" 及 び そ れ に 対 応 す る 順 位 集 合𝑹𝒕 = 𝑟!!, 𝑟!!,… , 𝑟!!" の 2 つの集合の形で表し,これらを結果として出力する

上記に示した推定対象ユーザの属性推定方法は,形

態素解析を適用しない点を除き, 3.4 項で説明した周辺ユーザの属性推定の方法と同一である.周辺ユーザ

の属性が 3.4 項の手順の中で予め形態素に分離されているため,ここでは形態素解析を適用する必要がない.

3.6. 周辺ユーザ属性の順位を考慮した重み付け

本項では,さらなる推定精度の向上のために,周辺

ユーザの属性補完で得られたそれぞれの周辺ユーザの

属性集合に含まれる各単語に対して付与した順位を利

用し,推定対象ユーザの属性推定の際に算出する LDFスコアに対して重み付けを行う方法について述べる.

具体的には,周辺ユーザの属性集合に含まれる各単語

のうち,より高い順位が付与されている単語ほどスコ

アを高くするように重み付けを行う.このような重み

付けを行うことによって,それぞれの単語の各周辺ユ

ーザの属性としての重要度を考慮し,推定対象ユーザ

の属性推定精度の向上を図る. LDF スコアに対する重み付けを行わない場合には,

式 (1),式 (2)及び式 (3)に従って単語𝑤の LDF-GIDF スコア𝑆 𝑤 を算出する.これに対し,本研究では 2 種類の重み付け手法を提案する.それぞれの重み付け手法で

は,式 (1)における LDF スコア 𝑙𝑑𝑓!の値の算出方法を変更することで,重み付き LDFスコア𝑤𝑙𝑑𝑓!を算出する. 属性順位重み付け手法①

1 つ目の手法では,周辺ユーザの属性集合内の各単語に付与された順位の差を重みとして採用する.まず

全周辺ユーザの属性集合のうち,単語𝑤を含む属性集合のみを抽出し,得られたそれぞれの属性情報の中で

単語𝑤に付与されている順位の集合を単語𝑤の順位集合𝑹𝒘 = 𝑟!!, 𝑟!!,… , 𝑟!! とする.このとき,単語𝑤の重み付き LDF スコア𝑤𝑙𝑑𝑓!は,各周辺ユーザの属性補完の際に出力する属性の数𝑁!を用いて,式 (4)にしたがって算出される.

𝑤𝑙𝑑! = (𝑁! + 1 − 𝑟!)!!∈𝑹!

𝑤𝑙𝑑𝑓! =𝑤𝑙𝑑!𝑨𝒍

(4)

ここで集合𝑨𝒍は,全周辺ユーザの属性集合を要素とする集合である.例えば,𝑁! = 10のとき,単語𝑤が 3人の周辺ユーザの属性集合内に含まれており,それぞ

れ 1 位, 2 位, 3 位の順位が付与されている場合,

Page 5: 上里 DEIM2015 07 - IPSJ DBS†4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋2-1-2 E-mail: {k.uesato, asai, o_syunya, yamana}@yama.info.waseda.ac.jp あらまし

𝑹𝒘 = 1,2,3 となり,𝑤𝑙𝑑!の値は, 11-1=10, 11-2=9,11-3=8 の総和となるため,27 となる. 属性順位重み付け手法②

2 つ目の手法では,各周辺ユーザの補完済属性情報において各単語に付与されている順位の逆順位を重み

とする.単語𝑤の重み付き LDF スコア𝑤𝑙𝑑𝑓!は式 (5)にしたがって算出される.

𝑤𝑙𝑑! =1𝑟!!!∈𝑹𝒘

𝑤𝑙𝑑𝑓! =𝑤𝑙𝑑!𝑨𝒍

(5)

以上,2 種類の方法で算出された重み付き LDF スコア𝑤𝑙𝑑𝑓!を利用した重み付き TF-IDF スコア𝑤𝑆 𝑤 は,式(6)にしたがって算出する.

𝑤𝑆 𝑤 = 𝑤𝑙𝑑𝑓! ∙ 𝑔𝑖𝑑𝑓! (6)

4. 実験・評価 4.1. 使用データ 実験では,Twitter API を利用し,7,957,324 ユーザの

プロフィールデータ,フォロー情報及び最新の最大

2,000 ツイートのデータを用いた [13].メンション情報は収集したツイートデータを解析することで得ている.

また収集対象のユーザは,2013 年 1 月 1 日から同年 12月 31 日までにツイートを投稿した,ユーザ・インターフェースの言語設定が日本語であるユーザである.本

研究で利用しているデータの収集手順を次に示す. 1. Twitter Streaming APIcを利用し,最新のツイート

を取得 2. Twitter REST APIdを利用し,取得したツイートを

投稿したユーザのデータを取得 3. 取得したユーザのユーザ・インターフェースの言

語設定が日本語であれば,当該ユーザのプロフィ

ールデータ,フォロー情報及び最新の 2,000 ツイートのデータをデータベースにストア

Twitter Streaming API を利用することで,最近ツイートを投稿しているアクティブなユーザのデータを優

先的に収集している. 収集したそれぞれのユーザとの間に相互フォロー・

相互メンションの関係を持っている周辺ユーザ数の平

均,中央値及び標準偏差を表 1 に示す.

c The Streaming APIs | Twitter Developers,

https://dev.twitter.com/streaming/overview. (2015 年 1 月5 日アクセス )

d REST APIs | Twitter Developers, https://dev.twitter.com/rest/public. (2015 年 1 月 5 日アクセス )

表 1 ユーザ間の関係の統計

平均値 中央値 標準偏差

相互フォロー 119.5 46.0 655.3

相互メンション 22.4 12.0 29.4

4.2. 属性推定実験 本項では,本研究で行った属性推定実験の方法につ

いて述べる.推定対象ユーザの属性推定を行う際の各

単語の TF スコアへの重み付け方法をそれぞれ変更した次の 3 つの手法を提案手法として利用し,属性推定実験を行った. ① 周辺ユーザの補完済属性情報の順位による重み

付けを行わない ② 属性順位重み付け手法①を用いる ③ 属性順位重み付け手法②を用いる またこれらの提案手法に加え,比較対象となるベー

スラインの手法として,周辺ユーザの属性補完を行わ

ず,周辺ユーザのプロフィール文をそのまま利用して

推定対象ユーザの属性を推定する手法に対しても属性

推定実験を行い,合計 4 つの手法を用いて比較実験を行った. 7 人の Twitter ユーザを被験者とし,それぞれの手法で属性推定を行った.被験者自身によって,それぞれ

の手法の推定結果として出力された 10 単語から自身に関連している単語を抜き出してもらい,これを正解

セットとした.

4.3. 属性推定精度の評価 属性推定精度に関する評価では,推定対象ユーザの属

性として出力された 10 単語のうちの正解セットの割合を正答率( Precision@10)として算出した.フォロー,メンション情報をそれぞれ利用し,4 つの手法を用いて 7 人の被験者に対して属性推定実験を行ったときの Precision@10 の平均値を図 2 に示す. 図 2 より,フォロー,メンションのどちらの関係を利用した場合にも,全ての提案手法においてベースラ

インの正答率よりも高い正答率が得られていることが

確認できる.

Page 6: 上里 DEIM2015 07 - IPSJ DBS†4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋2-1-2 E-mail: {k.uesato, asai, o_syunya, yamana}@yama.info.waseda.ac.jp あらまし

図 2 平均 Precision@10 の比較

Precision@10 の値が最も高い手法は,フォロー,メンションのどちらの関係を利用したときも,提案手法

②であった.ベースラインの手法と提案手法②の

Precision@10 の値を比較すると,フォロー情報を利用してソーシャルグラフを構築した場合に 0.67から 0.87に向上し,メンション情報を利用した場合に 0.53 から0.73 に向上している.提案手法①と比較して,提案手法②の推定精度が高くなったことから,周辺ユーザの

補完済属性情報の順位を考慮することが有効であると

考えられる.また式 (5)のように,各属性の逆順位を利用して重み付けをしている提案手法③では,それぞれ

の属性に付与された順位と,重みの値が反比例の関係

になっている.それに対して提案手法②の重み付け手

法では,式 (4)のように,それぞれの属性の重みの値として,付与されている順位の高低を用いている.その

ため,提案手法③と比較して,提案手法②の推定精度

が高くなったことから,周辺ユーザの補完済属性情報

に含まれる各単語の順位の高低は,それぞれの順位の

逆順位と比較して,各単語の推定対象ユーザの属性と

しての重要度をより的確に表現していると考えられる.

4.4. 属性推定精度と周辺ユーザ数との関係 本項では,フォロー,メンションそれぞれの関係に

おける,7 人の被験者それぞれの周辺ユーザ数と,属性推定精度の関係について述べる.まず,フォロー情

報を利用した場合の周辺ユーザ数と Precision@10との関係を図 3 に,メンション情報を利用した場合の周辺ユーザ数と Precision@10 との関係を図 4 に示す. 図 3 及び図 4 より,フォロー,メンションどちら

の関係を利用した場合でも,ほぼ全てのユーザに対し,

3 つの提案手法における Precision@10 の値がベースラインの手法より高くなっている.しかしユーザ G におい て は , ど の 提 案 手 法 も ベ ー ス ラ イ ン の 手 法 の

Precision@10 の値を超えていない.ユーザ G の周辺ユーザ数は,フォロー,メンションのいずれの関係にお

いても,7 人の被験者の中で最多である.このことから,提案手法は,周辺ユーザ数が多いユーザに対して

は有効でない可能性があると考えられる.

図 3 フォロー関係における周辺ユーザ

数と Precision@10 の関係

図 4 メンション関係における周辺ユー

ザ数と Precision@10 の関係

4.5. 出力属性の多様性の評価 本項では,3 つの提案手法及びベースラインの手法を利用した推定の結果得られた属性の多様性の評価に

ついて述べる.推定対象ユーザ本人に対するインタビ

ューをもとに,各手法によって出力された 10 単語のうち,推定対象ユーザの同じ属性情報を示しているもの

を属性クラスタとして,人手によってまとめ上げる.

例えば,推定対象ユーザが早稲田大学の学生であれば,

「早大」,「早稲田」,「早稲田大学」のように,所属し

ている大学という同一の種類の属性を示している単語

を 1 つの属性クラスタとしてまとめている.ここで得られた属性クラスタの数を比較することで,属性の多

様性の評価を行う.属性クラスタの数が多いほど,推

定対象ユーザのより多様な属性を推定することができ

0

0.2

0.4

0.6

0.8

1

ベースライン 提案手法① 提案手法② 提案手法③

Prec

isio

n@10

フォロー メンション

0 50 100 150 200 250 300

0 0.2 0.4 0.6 0.8

1

周辺ユーザ数

Prec

isio

n@10

ベースライン 提案手法① 提案手法②

提案手法③ 周辺ユーザ数

0 10 20 30 40 50 60

0 0.2 0.4 0.6 0.8

1

周辺ユーザ数

Prec

isio

n@10

ベースライン 提案手法① 提案手法②

提案手法③ 周辺ユーザ数

Page 7: 上里 DEIM2015 07 - IPSJ DBS†4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋2-1-2 E-mail: {k.uesato, asai, o_syunya, yamana}@yama.info.waseda.ac.jp あらまし

る手法であり,より網羅的に推定対象ユーザの特徴を

捉えることができていると考えられる.それぞれの手

法を用いたときに得られた属性クラスタ数の平均を図 5 に示す.

図 5 平均属性クラスタ数 図 5 より,ソーシャルグラフの構築の際にメンション情報を利用した場合に,提案手法①における属性ク

ラスタ数がベースラインの手法の属性クラスタ数を下

回っているが,それ以外の場合にはいずれの提案手法

においても属性クラスタ数はベースライン手法の属性

クラスタ数を上回っており,より多様な属性を推定で

きていることがわかる.次に,フォロー情報を用いた

場合のそれぞれの推定対象ユーザにおける周辺ユーザ

数とそれぞれの手法で得られる属性クラスタ数の関係

を図 6 に,同様にメンション関係を利用した場合の周辺ユーザ数と属性クラスタ数の関係を図 7 に示す.

図 6 フォロー関係における周辺ユーザ数と属性クラスタ数の関係

図 7 メンション関係における周辺ユー

ザ数と属性クラスタ数の関係 図 6 及び図 7 より,ベースラインの手法の属性クラスタ数がいずれかの提案手法の属性クラスタ数を超え

ているユーザは,フォロー及びメンションのどちらの

情報を用いた場合にも,ユーザ G のみである.ユーザG はフォロー,メンションのいずれの関係においても周辺ユーザ数が最大である.以上のことから,提案手

法は基本的にベースラインの手法よりも多様な属性を

推定することが可能であるが,周辺ユーザ数が多いユ

ーザに対しては,ベースラインの手法と同等,あるい

はより限られた種類の属性の推定にとどまってしまう

と考えられる.

5. おわりに 本稿では,周辺ユーザの属性補完を行う Twitter ユ

ーザの属性推定手法を提案した.従来のフォロー,メ

ンション情報を利用する属性推定手法では,周辺ユー

ザが公開している限定的なプロフィール情報を利用し

ており,推定対象ユーザの属性を的確に推定するため

に十分な属性情報が得られていない可能性がある.提

案手法では,予め周辺ユーザに対して属性推定手法を

適用することで,周辺ユーザの不足している属性情報

を補うことで,推定対象ユーザの属性推定精度を向上

させることができた.周辺ユーザの属性補完を行わな

いベースライン手法と比較し,Precision@10 が,フォロー情報を利用してソーシャルグラフを構築した場合

に 0.67 から 0.87 に向上し,メンション情報を利用した場合に 0.53 から 0.73 に向上した.また推定対象ユーザ本人に対するインタビューに基づき,推定結果と

して得られた属性の多様性について評価を行った結果,

周辺ユーザ数が最多である被験者を除き,提案手法で

はフォロー及びメンションのいずれの情報を利用した

場合にも,ベースラインの手法以上の多様な属性を推

定できることを確認した.

0

0.5

1

1.5

2

2.5

3

ベースライン

提案手法① 提案手法② 提案手法③

属性クラスタ数

フォロー メンション

0 50 100 150 200 250 300

0

1

2

3

4

5

周辺ユーザ数

属性クラスタ数

ベースライン 提案手法① 提案手法②

提案手法③ 周辺ユーザ数

0 10 20 30 40 50 60

0 1 2 3 4 5

周辺ユーザ数

属性クラスタ数

ベースライン 提案手法① 提案手法②

提案手法③ 周辺ユーザ数

Page 8: 上里 DEIM2015 07 - IPSJ DBS†4 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋2-1-2 E-mail: {k.uesato, asai, o_syunya, yamana}@yama.info.waseda.ac.jp あらまし

一方で,周辺ユーザ数が大きいユーザを推定対象と

した場合に,推定精度及び推定された属性の多様性が

向上しないという問題点も存在する.また 7 人の被験者に対する実験からでは,周辺ユーザ数と,属性推定

精度及び推定属性の多様性との関係について,詳細な

考察を行うことが困難である.そのため,より多くの

被験者に対して実験を行い,詳細な結果の分析を行っ

た上で,さらに幅広いユーザに対して高い精度での属

性推定を行う手法を考案することが今後の課題となっ

た.

参 考 文 献 [1] Learn Twitter | Twitter for business,

https://business.twitter.com/basics/learn-twitter. (2014 年 12 月 30 日アクセス)

[2] B. Hecht, L. Hong, B. Suh and E. Chi: “Tweets from Justin Bieber’s Heart: The Dynamics of the “Location” Field in User Profiles”, Proc. of the CHI’11, pp. 237-246, 2011.

[3] H. Chang, D. Lee, M. Eltaher and J. Lee: “@Phillies Tweeting from Philly? Predicting Twitter User Locations with Spatial Word Usage”, Proc. of the ASONAM’12, pp. 111-118, 2012.

[4] S. Esparza, M. O’Mahony and B. Smyth: “CatStream: Categorising Tweets for User Profiling and Stream Filtering”, Proc. of the IUI’13, pp. 25-36, 2013.

[5] Z. Xu, Rong Lu, L. Xiang and Q. Yang: “Discovering User Interest on Twitter with a Modified Author-Topic Model”, Proc. of the WI-IAT’11, pp. 422-429, 2011.

[6] M. Pennacchiotti and A. Popescu: “Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter”, Proc. of the KDD’11, pp. 430-438, 2011.

[7] D. Jurgens: “That’s What Friends Are For: Inferring Location in Online Social Media Platforms Based on Social Relationships”, Proc. of the ICWSM’13, pp. 273-282, 2013.

[8] D. Rout, D. Preotiuc-Pietro, K. Bontcheva and T. Cohn: “Where’s @wally? A Classification Approach to Geolocating Users Based on their Social Ties”, Proc. of the HT’13, pp. 11-20, 2013.

[9] J. McGee, J. Caverlee and Z. Cheng: “Location Prediction in Social Media Based on Tie Strength”, Proc. of the CIKM’2013, pp.459-468, 2013.

[10] R. Li, S. Wang, H. Deng, R. Wang and K. Chang: “Towards Social User Profiling: Unified and Discriminative Influence Model for Inferring Home Locations”, Proc. of the KDD’12, pp. 1023-1031, 2012.

[11] W. Huang, I. Weber and S. Vieweg: “Inferring Nationalities of Twitter Users and Studying Inter-National Linking”, Proc. of the HT’14, pp. 237-242, 2014.

[12] W. Zhou, H. Jin and Yan Liu: “Community Discovery and Profiling with Social Messages”, Proc. of the KDD’12, pp. 388-396, 2012.

[13] 奥谷貴志 , 山名早人 : “メンション情報を利用したTwitter ユーザプロフィール推定 ”, DBSJ Japanese Journal, vol. 13-J, No. 1, pp. 1-6, 2014.

[14] 上里和也 , 田中正浩 , 浅井洋樹 , 山名早人 : “メンション情報を利用した Twitter プロフィール推定における単語重要度算出手法の考察 ”, 情処研報 , DBS-159(22), pp.1-6, 2014.

[15] M. Rosen-Zvi, T. Griffiths, M. Steyvers and P.Smyth: “The Author-Topic Model for Authors and Documents”, Proc. of the UAI’04, pp. 487-494, 2004.