情報信頼性プロジェクト

2007年1月10日掲載

はじめに

計算機・計算機ネットワークの進展に伴い,ウェブ,電子メール,企業内文書 など,言語によって表現される情報・知識の流通・集積が膨大となり,これが 人々の生活の判断基準を与え,国家の政策,企業の経営方針までも左右しはじ めている.このような文書情報の中から,信頼できる情報を取り出し,特定の 課題についての情報を組織化して,背景的知識,事実,論点,意見分布などを 的確に抽出する技術は,今後の健全な社会のための基盤技術となる.本プロジェ クトでは,このような情報信頼性評価に関する総合的な研究開発を行う.

キーとなる技術/戦略

情報信頼性評価のためには,計算機によるテキストの理解,言語の理解が本質 的に重要である.

従来の文書処理は,言語処理の観点からは,数語の単語にマッチする文書を取り 出すという極めてナイーブなものであった.これは,言語の構造の自動解析,す なわち文書中で述べられている「誰が何をどうした」という関係(述語項構造) の認識精度が十分でないということが根本問題であった.しかし,この問題は, この10年間の計算機環境の進展,電子テキストの増大にも支えられ,大規模文書 から述語項構造パターンを自動学習するというスケーラブルな方法によって解決 されつつある.すなわち,超大規模文書に対する情報アクセス・情報分析につい て構造的言語処理からのアプローチが可能となり始めている.

このような構造的言語処理技術を基盤としつつ,以下のような要素を多面的に 解析することによって情報の信頼性の評価を行う.

  1. 情報内容の信頼性
  2. 情報発信者の信頼性
  3. 文書のスタイル・皮相的特徴から推定される信頼性
  4. 情報内容・情報発信者に対する社会的評価としての信頼性

なお,システムの自動判定による情報信頼性評価がすぐに高精度なものとならず とも,これらの多面的要素を考慮し,より深い言語処理によって情報の組織化, 関連付けを行ってユーザに提示することにより,情報信頼性に対するユーザの 判断を強力にサポートするということは,ある程度短期間で達成可能な目標であ る.

なお,本プロジェクトで開発する技術は,電子メール,デスクトップ内文書,企 業内文書等に対しても適用可能な技術であるが,基本的にはウェブテキストをメ インターゲットと考える.

情報信頼性の4要素

情報内容の信頼性

情報内容の信頼性の評価とは,情報を組織化し,背景的知識,事実,論点,意見 分布などを的確に抽出する技術であると位置づけ,次のようなステップを考える.

  1. (収集した)超大規模文書の構文解析(述語項構造解析)を行い,単語単 位ではなく,意味的により豊かで曖昧性のない述語項構造単位でのインデ キシングを行う.
  2. ユーザが調べたいと考える特定課題についても,単語集合ではなく自然な 文で表現する.これを同様に構文解析し,述語項構造単位での検索を行う. これによって適合率(検索の正確さ)は飛躍的に向上する.
  3. 言語表現のもう一つの難しさは,同じ内容に対して複数の表現方法がある という同意異表現の問題である(単純な例としてはカタカナ表記ゆれやか な漢字バリエーション,さらに同義語,同義句があり,これらが組合わせ 爆発をおこす問題もある).これらについても形態素辞書整備や,ウェ ブからの異表記自動学習などによって対処する.
  4. このような検索を行った結果,特定課題について数万件,数十万件の文書 がヒットすることは少なくない.この検索結果について,単語を単位とす るのではなく,やはり述語項構造を基本単位とするクラスタリングを行い, 各クラスタに特徴的な表現(複合名詞,述語項構造など)を付与すること によって,ユーザに鳥瞰図的把握を提供する.
  5. 単なるヒット文書の羅列ではなく,このような鳥瞰図的情報提示によって, ユーザは自分自身の問題把握の不正確さに気づいたり,あらたな興味を発 見することがある.対話的インタフェースを持たせることで,ユーザが 自身のより適切な方向に検索を発展させることができる.
  6. 文書から,単なる述語項構造だけでなく,各文が出来事を説明するもので あるか,知識を説明するものか,意見を述べるものであるかを区別し,意 見の場合には肯定的なものであるか否定的なものであるかの解析を行う. 上記4のクラスタリングをこのような情報を重視して行うことにより,意見 部分の分析,少数意見の把握などが可能となる.
  7. 上記4の各クラスタ(類似した文書集合)から重要で本質的な部分を抽出し, 自動要約を行う.※上記4で述べている「クラスタの特徴的表現」は比較的 単純な頻度に基づく抽出であり,ここで考えていることはより総合的な 要約,文章生成である.
  8. クラスタ内の情報の統合,クラスタ間の関係を整理することにより,その 特定課題に関連する知識構造(オントロジー)を動的に自動構築する.こ こで構築されたオントロジーはユーザへの提示を行うとともに,情報分析 処理の計算機内の知識源ともなる.
  9. 知識構造(オントロジー),その他の言語的知識を用いて,クラスタ内, クラスタ間で述べられていることの間の類似,反対,理由,サポートなど の種々の関係を調べ,論理的整合性,矛盾などを検出する.

情報発信者の信頼性

情報発信者の特定と,その情報発信者の信頼性評価を行う.情報発信者特定と しては,個人であるか,組織であるか,個人の場合に著名人・有名人などとして 特定できるか,あるいはハンドルネーム等でIDとして特定できるか等,組織の場 合には,公的機関(行政,学会,大学など),報道機関,営利団体,コミュニティ などの区別を行う.

これらは,URL,ページタイトル,アンカーテキスト,RSS等のメタ情報的要素か ら比較的簡単に推定できる場合もある.しかし,多くの場合にはページ内のテキ スト解析が必要であり,固有名抽出技術をベースとして開発する.

情報発信者の信頼性評価は,発信者がこれまでどの程度の質・量の情報を発信し てきたかをスコア化する.これまでの情報発信の質の評価は,他の1,3,4の指標 をもとに推定する.

情報発信者の信頼性評価においては,個人や組織がどのような専門分野を持つか という情報が必要となり,テキストのトピック解析技術と深く関連する.

文書のスタイル・皮相的特徴から推定される信頼性

文書の情報内容だけでなく,文書のスタイル・皮相的特徴から推定される信頼性 についても評価を行う.

先行研究として,ウェブ文書の皮相的特徴を説得という視点から評価した Stanford大の研究や,Google Newsで用いられている評価尺度などがある.これら を参考に,テキストの文体(書き言葉的が話し言葉的か),レイアウトの洗練度, リンクの適切さなど,多数を指標を統合することにより評価を行う.

情報内容・情報発信者に対する社会的評価としての信頼性

情報内容,情報発信者が,他者からどのような評価を受けているかを抽出し信頼 性尺度の一つとして利用する.

一つには,ウェブ文書中の評価表現(positive/negative)を言語解析によって 抽出し,集約することが考えられる.

もう一つは,SN(ソーチャルネットワーク)的に,情報内容,情報発信者に対し て他者が直接的に与えるランキング,コメントなどを集約する.このようなSNの 枠組みのデザインについても研究を行う.

研究の進め方,今後の発展

本プロジェクトで開発する技術は,基本的にはウェブテキストをメインターゲッ トと考える.このプロジェクトを健全に進めるために,既存の検索エンジンの APIに頼るのではなく,検索エンジンを一から構築する.上述の係り受けインデ キシング等を行うためにもこれは必須である.

すでに,日本語約1億ページの検索エンジンの運用を開始しており,今後,その 中に上述したモジュールを随時加え,さらに,それらの情報を統合的に閲覧する インタフェースを構築していく.

また,このような幅広い課題について,研究開発の方向性の検討・分析を行う ために,上述の種々の信頼性尺度を人手で付与した検討用・評価用データを構築 する.これは,環境問題,医療問題など,社会的関心の高い数十のトピックを選 定して現在進行中である.

戻る