合同研究会2013

――――――――――――――――――――――――――――――――――――――――――――――――――――――

概要

・お茶の水女子大学小林研究室、東京工業大学奥村・高村研究室の合同研究会

・日時: 2013年11月25日(月) 13:20-18:20

・会場: お茶の水女子大学（人間文化創成科学研究科・理学部3号館: MAPの20）会議室（2階）正面玄関真正面の部屋

・交通アクセス：http://www.ocha.ac.jp/access/index.html

――――――――――――――――――――――――――――――――――――――――――――――――――――――

プログラム

受付（13:20-13:35)

－オープニング（13:35-13:40)

－セッション１（13:40-15:15）

・13:40-13:55：石垣　達也（奥村・高村研）「対話形式を用いた"分かりやすい"情報提示手法の検討」

概要：本研究では，談話構造の付与された文章を同一の情報を伝える対話に変換する手法を検討する．対話形式で情報を提示することで，文章による情報提示よりも記憶に残りやすくなることが実験的に知られている．本研究では，はじめにMonologueとDialogueのパラレルコーパスから，談話構造と対話の構造の変換ルールを取り出し，それを基に知識のある人(Expert)と知識のない人(Layman)による対話の自動生成モデルの構築を目指す．　

・13:55-14:10：瀧本　洋喜（奥村・高村研）「同一料理のレシピ集合の対応付けと特徴抽出」

概要：Web上に存在するレシピサイトには多くのレシピが登録されており，それぞれ工夫を凝らされた，同一料理の複数のレシピを入手することができる．本研究では同一料理のレシピ集合に含まれる複数のレシピの手順間の対応付けを行い，その料理において一般的な手順とレシピ固有の手順の判別を行うことにより，レシピ固有の特徴の抽出を目指す．

・14:15-15:15：【招待講演】那須川哲哉氏 (IBM東京基礎研究所)

「テキストマイニングの拡張に向けて：多言語データ活用の取組み」

概要：ビッグデータの重要性が様々なメディアで指摘され、データを活用できなければ取り残されるという危機感が世の中で高まりつつある。多様なデータの中でも数値などの定型情報と異なり単純な集計ができないテキストデータを活用して新たな価値を生み出すテキストマイニングの概要とその拡張の流れを紹介した上で、拡張の方向性の一つして多言語データ活用の取組みを紹介する。

－セッション２（15:30-17:15）

・15:30-15:55：小林瑞季（小林研）「人と物のインタラクションを記述する確率的言語生成への取り組み」

概要：センサなどによって観測される情報の殆どは時系列データであり，ビッグデータを扱う時代においては，観測された時系列データの中から有益な情報を取得し，その内容を理解する手法の開発が重要となる．時系列データの分析方法には，トレンドの予測や複数データ間の相関関係の分析など様々な方法が存在する．一方で，時系列データの内容を理解するには可視化などの手法が用いられている．しかし，ロボットなど複数のセンサによって取得された時系列データの情報に基づき状況を認識する必要がある場合，取得された情報をより抽象度の高いレベルで観測されたデータを表現する必要がある．そのことに着目し，我々は観測された時系列データの振る舞いを言語で説明する手法の開発を目指し，その一つとしてKinectから得られた動画像の情報を入力とした確率的なテキスト生成手法を提案する．

・15:55-16:20：小笠原　悟（奥村・高村研）「母音の挿入を含むくだけたテキストに頑健な形態素解析」

概要：ソーシャルメディアに投稿されるテキストでは強調などの目的で新聞などの整形された文書には見られないようなくだけた表現が用いられる．しかし，そのような表現を含むテキストは既存の形態素解析器では必ずしも正しく解析することができない．そこで本研究では特に単語の末尾に母音が挿入される現象に着目し，対象の表現を含むテキストを正しく解析する手法を提案する．

・16:20-16:45：重松　遥（小林研）「潜在トピックを網羅し差分進化アルゴリズムを用いた複数文書要約」

概要：近年，大量の文書データと接する機会の増加にともない，文書要約技術の必要性が高まっている．文書要約における一般的な手法としては，冗長性などを考慮してバランスの良い重要文の組合せを求めることにより要約文を生成する手法がある．最適な文の組合せを求めるのには整数計画法などが用いられるが，整数計画法はNP困難に属し，要約対象とする文書集合が大きい場合には厳密解を求めるために膨大な計算時間を要するという問題が存在する．一方，厳密な解を追求せず実用的な時間で近似解を求める最適化手法として，進化的アルゴリズムの有効性が報告されている．そのような背景を踏まえて，本研究では，進化的アルゴリズムの中でも解の精度や計算時間の点で優れているとされている差分進化アルゴリズムを用いて組合せ最適化を行う要約文生成を行う．また，文書中には複数のトピックが含まれているという仮定の下に，文書内の潜在トピックを潜在的ディリクレ配分法を用いて抽出し，各トピックの内容を万遍なく含むような文の組合せを要約文として生成する．

・16:45-17:10：渡邉　亮彦（奥村・高村研）「Webページ推薦システムにおけるユーザ指向型スニペット生成」

概要：Webページ推薦システムでは各推薦ページのリード文をスニペットとして提示するのが一般的である．スニペットには利用者が推薦結果の一覧から興味のあるページを探すのを支援する目的がある．しかし利用者ごとに欲する情報は異なるため，利用者が適切に興味のあるページを探すためには個々の利用者の嗜好を反映したユーザ指向型スニペットが望ましい．本研究では個々の推薦ページの推薦理由を直接利用してスニペットを生成することでユーザ指向型スニペットの実現を目指す．

－セッション３（17:25-18:20）

・17:25-17:50：一瀬詩織 (小林研)「プロパティに着目したSPARQL問い合わせ結果のランキング手法」

概要：近年、だれでも利用できるオープンデータとして、Web上に構造化データを公開する取り組みが活発に行われている．これらのデータを取得するには主にSPARQLというクエリ言語が用いられる．SPARQLには簡単なソート機能が定義されているが、取得結果の情報の価値に従った順位付けはなされない．本研究ではグラフ解析の一般的な手法であるPageRankアルゴリズムを基盤とし、データセットのプロパティに着目した、取得データの重要度を評価する手法を提案する．またDBpediaのデータセットを用いて実際に取得結果の評価を行い、提案手法の有用性を検証する．

・17:50-18:05：榊原　隆文（奥村・高村研）「大規模コーパスから得られる統計情報に基づく擬人法検出システム」

概要：多くの比喩表現と同様に，擬人法を用いた表現の意味はリテラルに解釈することはできないため，ある表現が擬人法を用いた表現であるかどうかを判断することはテキストの意味を理解する上で重要な技術となる．本研究では，大規模なコーパスから得られる統計情報に基づき，典型的には格要素として《人》が入る述語の格を特定し，さらにそこに入る名詞がどのくらい《人》らしいかを自動推定することにより擬人法を自動検出する手法を提案する．

・18:05-18:20：馬緤　美穂（奥村・高村研）「属性ごとの典型的な行動に関する知識の収集と属性推定への適用」

概要：人々が日常的に取る行動には，職業や趣味などの属性によって規定されるものがある．例えば「患者を診る」といった行動を取っているならその主体は「医者」であると考えられる．本研究では，属性ごとに典型的に取られる行動をコーパスから収集することで，属性に関する知識を構築する．さらに，得られた知識をソーシャルメディアにおける書き手の属性推定に利用することで知識の妥当性を検証することを予定している．

――――――――――――――――――――――――――――――――――――――――――――――――――――――

懇親会

・時間：18:30～

・会場：理学部3号館（ MAPの20）2階ラウンジ

・参加費：2,000円