何をするシステムなの?
著者検索における同姓同名問題を解決するシステムです.検索したい人物の名前に加え,その人を限定する情報(コンテクストワード)を入力すると,CiNiiの著者検索結果をリランキングして表示します.
例えば阪大の石黒浩先生を探したいと思った時,所属や名前を知らなくても「そっくりロボを作っている石黒先生」と言えばおそらく人ならわかってもらえるでしょうが,CiNiiにはわかりません.
・CiNiiで論文検索:著者=石黒,キーワード=そっくりロボ
・CiNiiで著者検索:著者=石黒
そこで本システムでは,ウェブ上の情報を用いてこのユーザとCiNiiの間にある知識のギャップを埋めます.これにより,ユーザがCiNiiにわかるような検索語を作成しなくても,著者検索が可能になります.
・提案システムで著者検索:名前=石黒,コンテクスト=そっくりロボ
検索の例:
「宇宙飛行士の若田さんの論文を読んでみたい!」
→ 名前=若田,コンテクスト=宇宙飛行士
「そっくりロボを作っている石黒先生を調べたい!」
→ 名前=石黒,コンテクスト=そっくりロボ
「初音ミク界隈で話題の後藤先生を調べたい!」
→ 名前=後藤,コンテクスト=初音ミク
「仮想通貨の鈴木健さんを調べようと思ったら,同姓同名が190人・・」
→ 名前=鈴木健,コンテクスト=仮想通貨
「こちずぶらりの高橋徹さんを調べようと思ったら,同姓同名が510人!!」(*)
→ 名前=高橋徹,コンテクスト=こちずぶらり
(*) 本システム開発の契機となったこの現象を,作者は「高橋徹問題」と呼んでいます.ちなみに「高橋」姓に対して「徹」という名前は字画的にも良いらしく,これが高橋徹問題を根深いものにしているのではないかとの指摘が当の高橋徹氏よりなされています. なお,まじめなコンテクストにおいて本問題は同姓同名やEntity resolution,名前に限らず語の意味全般を対象とする場合はDisambiguation(多義性解消)などと呼ばれています.うっかり「それ,高橋徹問題だね」としたり顔で言わぬよう,ご注意ください.