東京大学大学院 学際情報学府 文化・人間情報学コース修士2年の岑天霞(シン テンカ)です。
この投稿では、修士研究についてご報告します。私の修士論文のテーマは「レビュー文書における特徴語と「いいね!」に基づく評価情報の抽出~戦争映画の日本語レビューを例として~」です。
修士課程に入学する前、首都大の渡邉研で、日中戦争映画の情報をグーグルアース上でマッピングするデジタルアーカイブを作成し、それに基づいた比較分析を行いました。そこから、戦争映画を用いて日中間の意思疎通を深める可能性を感じました。
図1日中戦争映画デジタルアーカイブ
大学院に進学して、戦争映画を用いた日中交流に関する実践しながら、ネット上の映画レビューの分析手法の提案に取り組みました。
現在、誰も自由に映画レビューを映画情報ウェブサイトに投稿することができます。こうしたメディアにおいては,映画作品についての,大衆の一般的な意見が顕在化しています。しかし、レビューの意見がバラバラであり、データの量が多いため、目視・手動で分析することは困難です。
自然言語処理によってレビューの評価情報を抽出するための既存の手法は「評価情報の抽出・要約」と「感情分析・分類」に大別されます。
また、本研究の分析対象の映画レビューは、以下四つの特徴があるため、先行研究の手法をそのまま適用することができません。
- 評価ポイントがユーザ・作品によって千差万別であること
- 名詞・動詞による修辞法を用いた表現が多くみられる
- 映画作品以外の話題に関する議論も含まれる
- 「いいね!」が付与される
研究では、大目的を,「ウェブ上の映画レビューをもとに,ユーザの一般的な主張・好みを含む作品評価の全体像を抽出する手法を提案すること」と定めた上で、以下の三つの要件を定義します。
- 作品の評価ポイントの抽出
- ユーザの主張・好みの評価ポイントの抽出
- 評価情報の可視化
本研究の提案手法を図2に示すように、まず、要件1と2を達成するために、評価ポイントの特徴度尺度「RFR(Relative frequency ratio)」と、レビューに付加された「いいね!」数による重み付け係数に基づくレビューの重要度尺度「WL(Weight of like)」を組み合わせた評価ポイントの重要度尺度「RFR-WL」を新たに考案しました。そこから算出される重要度によって評価ポイントを抽出し、その結果をもとに、評価ポイントを絞り込んで共起ネットワーク図を描画し、要件3の評価情報の可視化を達成します。
図2 修士研究の提案手法の概要
最後、提案手法の妥当性を検証するために、映画情報サイト「Filmarks映画」から,43本の戦争映画のレビュー・「いいね!」のデータをウェブスクレイピングによって取得し、実装して検証実験を行います。
その結果を、既存の特徴度尺度であるTFとTF-IDFによる結果、及びRFR・WL単独による結果と比較したところ、提案手法の抽出結果の精度が高い範囲で安定していることから、この手法が妥当であることが確かめられました。さらに、評価ポイントを絞りこんで共起ネットワークを可視化することによって、レビュアーの主張・好みを把握しやすくなることから、本研究の手法が妥当であることが示されました。
本研究は、レビューのテキストにおける顕在的な語彙の特徴に加えて、「いいね!」も取り入れることによって、潜在的なユーザの主張・好みを含む評価情報の抽出手法を提案しました。この手法を発展させることで、例えば読書レビュー・SNSにおけるコミュニケーションなど、自由記述文と「いいね!」などのユーザ評価を含む大規模データの分析にも寄与するものと考えています。
四月から,博士課程に入って研究を続けていきます。宜しくお願いします。
四月から,博士課程に入って研究を続けていきます。宜しくお願いします。