Skip to main content

レビュー文書における特徴語と「いいね!」に基づく評価情報の抽出~戦争映画の日本語レビューを例として~

東京大学大学院 学際情報学府 文化・人間情報学コース修士2年の岑天霞(シン テンカ)です。
この投稿では、修士研究についてご報告します。私の修士論文のテーマは「レビュー文書における特徴語と「いいね!」に基づく評価情報の抽出~戦争映画の日本語レビューを例として~」です。

修士課程に入学する前、首都大の渡邉研で、日中戦争映画の情報をグーグルアース上でマッピングするデジタルアーカイブを作成し、それに基づいた比較分析を行いました。そこから、戦争映画を用いて日中間の意思疎通を深める可能性を感じました。


図1日中戦争映画デジタルアーカイブ

大学院に進学して、戦争映画を用いた日中交流に関する実践しながら、ネット上の映画レビューの分析手法の提案に取り組みました。

現在、誰も自由に映画レビューを映画情報ウェブサイトに投稿することができます。こうしたメディアにおいては,映画作品についての,大衆の一般的な意見が顕在化しています。しかし、レビューの意見がバラバラであり、データの量が多いため、目視・手動で分析することは困難です。
自然言語処理によってレビューの評価情報を抽出するための既存の手法は「評価情報の抽出・要約」と「感情分析・分類」に大別されます。
また、本研究の分析対象の映画レビューは、以下四つの特徴があるため、先行研究の手法をそのまま適用することができません。
  1. 評価ポイントがユーザ・作品によって千差万別であること
  2. 名詞・動詞による修辞法を用いた表現が多くみられる
  3. 映画作品以外の話題に関する議論も含まれる
  4. 「いいね!」が付与される
研究では、大目的を,「ウェブ上の映画レビューをもとに,ユーザの一般的な主張・好みを含む作品評価の全体像を抽出する手法を提案すること」と定めた上で、以下の三つの要件を定義します。
  1. 作品の評価ポイントの抽出
  2. ユーザの主張・好みの評価ポイントの抽出
  3. 評価情報の可視化
本研究の提案手法を図2に示すように、まず、要件1と2を達成するために、評価ポイントの特徴度尺度「RFR(Relative frequency ratio)」と、レビューに付加された「いいね!」数による重み付け係数に基づくレビューの重要度尺度「WL(Weight of like)」を組み合わせた評価ポイントの重要度尺度「RFR-WL」を新たに考案しました。そこから算出される重要度によって評価ポイントを抽出し、その結果をもとに、評価ポイントを絞り込んで共起ネットワーク図を描画し、要件3の評価情報の可視化を達成します。


図2 修士研究の提案手法の概要

最後、提案手法の妥当性を検証するために、映画情報サイト「Filmarks映画」から,43本の戦争映画のレビュー・「いいね!」のデータをウェブスクレイピングによって取得し、実装して検証実験を行います。
その結果を、既存の特徴度尺度であるTFTF-IDFによる結果、及びRFRWL単独による結果と比較したところ、提案手法の抽出結果の精度が高い範囲で安定していることから、この手法が妥当であることが確かめられました。さらに、評価ポイントを絞りこんで共起ネットワークを可視化することによって、レビュアーの主張・好みを把握しやすくなることから、本研究の手法が妥当であることが示されました。


本研究は、レビューのテキストにおける顕在的な語彙の特徴に加えて、「いいね!」も取り入れることによって、潜在的なユーザの主張・好みを含む評価情報の抽出手法を提案しました。この手法を発展させることで、例えば読書レビュー・SNSにおけるコミュニケーションなど、自由記述文と「いいね!」などのユーザ評価を含む大規模データの分析にも寄与するものと考えています。

四月から,博士課程に入って研究を続けていきます。宜しくお願いします。


Popular posts from this blog

東京大学大学院への移籍のお知らせ

2018年4月1日より,指導教員の渡邉英徳は東京大学大学院情報学環の教授に着任いたしました。首都大学東京の客員教授も兼務します。これに伴い,渡邉英徳研究室も東京大学大学院に移籍いたします。首都大学東京での研究は,今後も継承する予定です。これまでご支援いただいたみなさま,本当にありがとうございました。

教員プロフィール首都大学東京学生の業績一覧学生の週報ログ

「ツバル・ビジュアライゼーション・プロジェクト」のコンテンツをアップデート

2009年に最初のバージョンを公開し,第13回文化庁メディア芸術祭で審査委員会推薦作品に選ばれた「ツバル・ビジュアライゼーション・プロジェクト」のコンテンツを更新しました.共同研究パートナーであるNPOツバル・オーバービューの遠藤秀一さんが撮影した,2012年のバイツプ環礁の写真があらたに掲載されています.
ツバル・ビジュアライゼーション・プロジェクトツバルに生きる一万人の人類 以下にスクリーンショットをご紹介.このプロジェクトも三年目に入りました.





現在,遠藤秀一さんと共同で,ポートレートの追加作業をすすめています.こちらも近日中に公開予定です.(wtnv)

「記憶の解凍」 ARアプリ公開

東京大学大学院情報学環 渡邉英徳研究室は、AI技術を活用してカラー化した“戦前の広島”の白黒写真を、地図・AR(拡張現実)ビューに表示する「記憶の解凍」ARアプリを公開しました。

私たちのチームはこれまでに、数百枚の白黒写真をAI技術でカラー化し、さらに、被爆者との対話を重ねて色を補正することによって、過去の記憶を辿る旅を続けてきました。最新技術と、被爆者・若者たちのコミュニケーションが組み合わさることで、これまで凍りついていた記憶が「解凍」され、よみがえります。

カラー化された過去の写真は、私たちの心のなかに、これまでにない感情を喚起します。その写真が、アプリを通して、現在の広島の風景に重ね合わされるとき、私たちの眼の前には、切り撮られた過去の日々につながる、時の窓が開きます。


本アプリは、渡邉英徳教授とともに活動を進めてきた、広島市在住の庭田杏珠さんとのコラボレーションによって制作されたものです。

アプリダウンロード(無料):
App Store / Google Playにて、キーワード「記憶の解凍」で検索ウェブサイトからダウンロード制作チーム:
原案・カラー化・アプリ作成:渡邉英徳×庭田杏珠考証協力:濱井德三、ヒロシマ・フィールドワーク実行委員会写真提供:濱井德三、今中圭介、緒方昭三、片山曻、諏訪了我(浄寶寺)、高橋久、多田良子、本田美和子、広島県立文書館、広島市公文書館、アメリカ公文書館(撮影:尾木正己)タイトルロゴデザイン:秦那実カラー化技術提供:早稲田大学 石川博研究室平和記念公園(爆心地)街並み復元図提供:中国新聞社

「押韻」の歴史的変遷と現代における「ライミング」活用の架橋

こんにちは、修士2年の岸岡信伍です。
今回は、修士研究の紹介をさせていただきます。

みなさんは「ライミング」という言葉はご存知でしょうか?
あまり身近な言葉ではないかもしれません。
では、「押韻」という言葉はどうでしょう?
「押韻」は「ライミング」を日本語にしたものとされていますがこちらもピンと来ないかもしれません。
一応みなさんは「押韻」を学校教育で漢詩の勉強をするときに一度習っているはずです。
偶数句末で同じ音の漢字が置かれるだとかそういうものです。
「押韻」は“詩歌などで,同一または類似の音韻をもった語を一定の箇所に用いること.韻を踏むこと”とされており漢詩だと「深(しん)」「心(しん)」「金(きん)」「簪(しん)」のような(in)の音で共通するものが韻だということになります。
日本語の場合は
 ・おとな(ooa)
 ・ことば(ooa)
と、(ooa)の母音が共通しているこれらの言葉が韻であり、韻を繰り返し用いることが韻を踏む「押韻」ということになります。
学校で扱う「押韻」が漢詩のみであることからも、韻を踏むという表現は日本の文学ではあまり活用されず顕著な発展をみせていません。
一方、欧米言語で「ライミング」はシェイクスピアの時代にはすでに確立されており、現在の活用の幅は文学だけでなく歌謡曲、童謡、さらに教育とかなり広いものになっています。
ところが、1980年代にヒップホップミュージックが輸入した後、ラップで韻を踏むことを「ライミング」とし、日本語での韻表現は発展していきます。そして現在の日本語ラップでは韻を踏むことは当たり前になっています。
私の研究の目的は、日本で定着しなかった「押韻」と、日本語ラップで当たり前に活用されるようになった「ライミング」を結びつけて論じることです。

このブログでは論文の構成についてざっくり説明させていただきます。

 第2章では、九鬼周造氏の「日本詩の押韻」を主な関連資料としてヒップホップミュージック輸入以前の文学における日本の「押韻」の変遷を辿り、「押韻」を再解釈しました。日本で「押韻」は定着しませんでしたが、文学で活用するための試みは何度かされていきました。「日本詩の押韻」では、日本の「押韻」の歴史的事例と欧米言語の韻表現の事例から、日本語詩における「押韻」発達の可能性と採用のための考慮について論じられています。

 第…

バレーボールの練習改善のためのプレー記録の視覚化

こんにちは、学部4年の佐野千秋です。
私は卒業研究で「バレーボールの練習改善のためのプレー記録の視覚化」を行いました。



自身が高校生の頃、プレーのデータをとって選手で共有していたものの、見にくさや情報の少なさからあまりデータを重要だと思う場面がありませんでした。
せっかくデータを利用してるのならばより良いデータ利用方法があるのではないかと思いこの研究をはじめました。
実際に母校である神奈川県立厚木高校のバレーボール部に制作物を使ってもらったり、アンケートをとったりしながら、選手が感じている問題を元にデータ利用の改善を行いました。

主に行った改善は以下3点です。

1つ目はデータ収集内容の改善です。
今までは4つのプレー要素(※1)についてレシーブの精度(※2)のみを記入していましたが、スパイク、サーブはコースの記入欄を新たに加えました。
選手が求める情報を元に収集内容を改善を行い、情報量の充実を図りました。
この改善によって、どのようなコースが効果的なのかが分かるようになります。


※1 バレーボールは大きく分けてスパイク、サーブ、サーブレシーブ、スパイクレシーブの4つのプレー要素があります。
※2 バレーボールではレシーブの精度(=セッターの取りやすいボールかどうか)をA-Eの5段階に分けて表現することがよくあります。

2つ目はデータ入力方法の改善です。私の母校はデータを紙媒体に記録した後、Excelに入力し、印刷したものを選手内で共有していましたが、ある程度時間がかかるため練習試合があるたびに入力するのではなく何日か分をまとめて入力している場面が見受けられました。少しでも入力の煩わしさを軽減するため今までベタ打ちだったものを、Excelのマクロを使うことでクリック入力や、選択式で入力を行えるようにしました。



3つ目は視覚化方法の改善です。
改善の流れとしては、実際に母校の試合のデータを視覚化し、試合後のミーティングで使ってもらいアンケートをとります。その結果を視覚化方法の改善に活かすことで、より選手が見やすい、求めるものに近づけていきました。
視覚化改善は計3回行いました。左が1番最初となっています。
効果的な攻撃が出来ている割合を色、打数を円の大きさで表現するなど選手が直感的に度のコースが効果的なのかが分かるような視覚化方法を用いました。
またアンケートから選手に…

「人間センサー」で災害状況をすばやくつかむ:「台風リアルタイム・ウォッチャー」公開

7月、台風が多発するシーズンに入りました。先週も台風第8号が発生し、沖縄や長野をはじめ、大きな被害が発生しました。私たちの研究チームは、気象庁が発表する台風情報と、多数の人々が発信する災害情報をマッシュアップしたウェブサービス「台風リアルタイム・ウォッチャー:台風情報と「減災リポート」のリアルタイム・マッシュアップ」を公開しました。 人間は、とてもすぐれた"センサー"でもあります。周囲の状況をすみやかに捕捉し、発信する能力を持っています。今回の試みは、こうしたボトムアップの、いわば「人間センサー」で、トップダウンの観測情報を補完しようとするものです。

台風リアルタイム・ウォッチャー」では、国立情報学研究所(NII)の北本朝展さんによる「デジタル台風:台風画像と台風情報」そして株式会社ウェザーニューズのサービス会員「ウェザーリポーター」が提供する「減災リポート」のデータがマッシュアップされています。 以下の北本さんのツイートにあるように、「減災リポート」のデータは、これまでオープンデータ化されていませんでしたが、今回、特別にAPI経由で提供していただくことができました。
台風リアルタイム・ウォッチャー http://t.co/5qiYVSEbKD (@hwtnv さん作)が動き始めたようだ。ウェザーニューズの減災リポートは、従来ネット上に出ていなかったはずで、これが外に出てきた点が一つのポイントだと思う。ちなみに、この台風アイコン、いいね。
-- 北本 朝展 (@KitamotoAsanobu) 2014, 7月 10 「デジタル台風」と「減災リポート」のデータは1時間ごとに収集・更新されます。さらに気象庁発表の台風情報が30分毎に反映されます。「減災リポート」のデータは、投稿時にユーザが付与するカテゴリで色分けされています。また、ウェブサイト上には過去72時間のデータがアーカイブされており、タイムスライダーで遡れるようになっています。さらに過去のデータもすべてサーバに蓄積されます。

「減災リポート」のデータは、前々回の記事で解説した「東日本大震災マスメディア・カバレッジ・マップ」と同様、地面から鉛直方向に時間軸を設定し、時空間的なビジュアライゼーションを施しています。これによって、各地における災害の推移がわかります。 その一例として…

「COVID-19に関するアーカイブ活動の呼びかけ」新型コロナウイルス感染症に関するデジタルアーカイブ研究会

デジタルアーカイブ学会ウェブサイトより転載 「COVID-19に関するアーカイブ活動の呼びかけ」 2020年5月10日
新型コロナウイルス感染症に関するデジタルアーカイブ研究会
現在、新型コロナウイルス感染症「COVID-19」の感染拡大を受けて、社会の各層でさまざまな取り組みが行われています。

あらゆる点において、最も尊重されるのは人命であり、人命を守る医療の維持であることは言うまでもありません。

しかし、COVID-19に向き合うためには、感染症の実相や社会のありさまを正確に記録することも欠かせません。事実、今回のCOVID-19禍において、私たちはこれまでの疫病の歴史、たとえば約100年前のパンデミック「スペインかぜ」の記録などからまなべる点は多々あるはずです。
1918年「スペインかぜ」パンデミックの際に撮影された,アメリカ・カンザス州フォート・ライリーのキャンプ・ファンストン緊急病院のようす。ニューラルネットワークによる自動色付け+手動補正。 pic.twitter.com/7UmHdrs6VR — 渡邉英徳 (@hwtnv) April 22, 2020 しかし今回、過去の疫病の教訓が十分に生かされているとは言えません。今後の社会においてCOVID-19と相対していくためには、歴史に残るであろう現在の社会の状況を、仔細に記録していくことが肝要です。

そこで私たちは、図書館・博物館・自治体・大学・産業など、社会状況の記録に関心を持つみなさんに向けて、いま社会が直面しているCOVID-19に関する「アーカイブ活動の推進」を提案します。たとえば、次のような取り組みが考えられるでしょう。
市民による情報の収集活動を、十分に安全を確保することに留意したうえで、可能な範囲で支援することメディア報道や各種情報発信の内容をアーカイブすること自らの組織(たとえば自治体であれば対策本部等)や地域の記録をアーカイブすること ※アーカイブの手段については、デジタル・アナログを問いません

以上はあくまで例に過ぎません。私たちは、COVID-19に関するアーカイブ活動が本来地域の情報集積のハブである図書館・博物館等を中心として実施されることを切望しています。また、本研究会としても活動への協力を惜しみません。アーカイブ活動に関するご相談をお気軽にお寄せください。

なお本研究会は、デジ…

研究室のリデザインについてご報告

2018年4月に東京大学に移籍後,変更していなかった研究室の内装・レイアウトを刷新しました。デザインはM2の中原くんによるものです。修士論文の執筆で忙しい中,CADを使った立体的なデザインの検討・業者とのやり取りまで,中心になってこなしてくれました。
2年間放置されていた(!)トロフィーも,入口付近に「ほぼ日のアースボール」とともにディスプレイされています。また,これまた無法地帯だった書棚も,研究室メンバーによって整頓され,わかりやすく配置しなおされました。

雑然としていたLiquid Galaxyルームも,再レイアウトされ,使いやすくなりました。現在,Liquid Galaxyは修理手配中ですが,復旧後,特任助教の高田先生らが共同研究を進める場所として,活用されていくことと思います。

作業に取り組んでくれた院生さんたち,什器類の手配・納品・工事をご担当いただいた幸和商事のみなさま,本当にありがとうございました。

女性アイドルの現実と虚構の様相の変化 -メディアの変遷に基づく研究-

こんにちは,B4の増田です!

■卒業研究について
私は,「女性アイドルの現実と虚構の様相の変化 -メディアの変遷に基づく研究」
という研究をしました.


アイドルが好きなので
テーマをアイドルにすることは入学当初から定まっていたのですが,
「大好きなアイドルのために何ができるか」から出発して
現在のテーマに至るまで,B3の後期から約10ヶ月ほどの年月を要しました.

「アイドルのためにコンテンツを作りたい!」

「アイドルとはそもそも何なのか?」

「アイドルにおける現実と虚構の進化が気になる!」

「アイドル単体では全く分からないから,メディアの変遷と照らしあわせよう!」

…という経緯を経て,研究を進めました.


この研究により,アイドルを以下の6つに大別できると考察しました.


①アイドルという概念の再構成と大衆化 ②バラエティー番組への出演に伴う アイドルのキャラクター化 ③歌番組の退化に伴う ライブアイドルの誕生 ④インターネットの普及に伴う ネットアイドルの誕生 ⑤SNSの活性に伴う アイドルによる自己表現の多様化 ⑥AR,VR,AI技術の進化に伴う バーチャルアイドルの定着

です.

この6つに加え,先行研究や今後の展望を述べました.

https://drive.google.com/file/d/1dcFOwxB7qyoVum3DTpWd2C3pKo5uOcd7/view?usp=sharing

こちらから閲覧できますので,ぜひご覧ください.

(個人的には,ネットワーク研の一員として ネットワークについても
 研究できたことが嬉しいです…)


■後輩に向けて
B3の時に「私は切羽詰まった状態で提出日を迎えない!」と誓い
周りより早く卒業研究を始めても,
どんどん深堀りしたくなり 止まらなくなります.

私のようにギリギリにならないよう,取捨選択して生きてください.



そして,論文の場合はとにかく早めに文字に起こしてみてください.

テーマが定まらない場合は,とにかく文献を読み漁ったり
思いつきで何かを経験しに足を動かしたりすることが 後に功を成します.

共に頑張りましょう…

SIGGRAPH ASIA 2019のArt Papers採択論文がパブリッシュされました

SIGGRAPH ASIA 2019 Art Gallery/Art PapersのFull Art Papersとして採択された論文が,ACM Digital Libraryにてパブリッシュされました。一年間,無料でダウンロードできます。
Anju Niwata and Hidenori Watanave: "Rebooting Memories": Creating "Flow" and Inheriting Memories from Colorized Photographs; Proc. of SIGGRAPH ASIA 2019 Art Gallery/Art Papers (Full art papers), Article No. 4, 12 pages, 2019. 採択されたのは「記憶の解凍」のコンセプト・活動について報告する論文で,広島の庭田杏珠さんとの共著です。高校生が筆頭著者の論文がSIGGRAPH ASIAに採択された例は,これまでにあまりないはずで,快挙といえそうです。2名のレビュアーの得点は両者とも5.0(満点)。採択率は8編/25編で,約3割でした。


11/19にオーストラリア・ブリスベンで行なわれた「SIGGRAPH ASIA 2019」での口頭発表も好評で,各国から集まった研究者とともに,活発な議論を交わしました。その他の採択論文はこちらからご覧になれます