情報信頼性プロジェクト2007年1月10日掲載
はじめに計算機・計算機ネットワークの進展に伴い,ウェブ,電子メール,企業内文書 など,言語によって表現される情報・知識の流通・集積が膨大となり,これが 人々の生活の判断基準を与え,国家の政策,企業の経営方針までも左右しはじ めている.このような文書情報の中から,信頼できる情報を取り出し,特定の 課題についての情報を組織化して,背景的知識,事実,論点,意見分布などを 的確に抽出する技術は,今後の健全な社会のための基盤技術となる.本プロジェ クトでは,このような情報信頼性評価に関する総合的な研究開発を行う. キーとなる技術/戦略情報信頼性評価のためには,計算機によるテキストの理解,言語の理解が本質 的に重要である. 従来の文書処理は,言語処理の観点からは,数語の単語にマッチする文書を取り 出すという極めてナイーブなものであった.これは,言語の構造の自動解析,す なわち文書中で述べられている「誰が何をどうした」という関係(述語項構造) の認識精度が十分でないということが根本問題であった.しかし,この問題は, この10年間の計算機環境の進展,電子テキストの増大にも支えられ,大規模文書 から述語項構造パターンを自動学習するというスケーラブルな方法によって解決 されつつある.すなわち,超大規模文書に対する情報アクセス・情報分析につい て構造的言語処理からのアプローチが可能となり始めている. このような構造的言語処理技術を基盤としつつ,以下のような要素を多面的に 解析することによって情報の信頼性の評価を行う.
なお,システムの自動判定による情報信頼性評価がすぐに高精度なものとならず とも,これらの多面的要素を考慮し,より深い言語処理によって情報の組織化, 関連付けを行ってユーザに提示することにより,情報信頼性に対するユーザの 判断を強力にサポートするということは,ある程度短期間で達成可能な目標であ る. なお,本プロジェクトで開発する技術は,電子メール,デスクトップ内文書,企 業内文書等に対しても適用可能な技術であるが,基本的にはウェブテキストをメ インターゲットと考える. 情報信頼性の4要素情報内容の信頼性情報内容の信頼性の評価とは,情報を組織化し,背景的知識,事実,論点,意見 分布などを的確に抽出する技術であると位置づけ,次のようなステップを考える.
情報発信者の信頼性情報発信者の特定と,その情報発信者の信頼性評価を行う.情報発信者特定と しては,個人であるか,組織であるか,個人の場合に著名人・有名人などとして 特定できるか,あるいはハンドルネーム等でIDとして特定できるか等,組織の場 合には,公的機関(行政,学会,大学など),報道機関,営利団体,コミュニティ などの区別を行う. これらは,URL,ページタイトル,アンカーテキスト,RSS等のメタ情報的要素か ら比較的簡単に推定できる場合もある.しかし,多くの場合にはページ内のテキ スト解析が必要であり,固有名抽出技術をベースとして開発する. 情報発信者の信頼性評価は,発信者がこれまでどの程度の質・量の情報を発信し てきたかをスコア化する.これまでの情報発信の質の評価は,他の1,3,4の指標 をもとに推定する. 情報発信者の信頼性評価においては,個人や組織がどのような専門分野を持つか という情報が必要となり,テキストのトピック解析技術と深く関連する. 文書のスタイル・皮相的特徴から推定される信頼性文書の情報内容だけでなく,文書のスタイル・皮相的特徴から推定される信頼性 についても評価を行う. 先行研究として,ウェブ文書の皮相的特徴を説得という視点から評価した Stanford大の研究や,Google Newsで用いられている評価尺度などがある.これら を参考に,テキストの文体(書き言葉的が話し言葉的か),レイアウトの洗練度, リンクの適切さなど,多数を指標を統合することにより評価を行う. 情報内容・情報発信者に対する社会的評価としての信頼性情報内容,情報発信者が,他者からどのような評価を受けているかを抽出し信頼 性尺度の一つとして利用する. 一つには,ウェブ文書中の評価表現(positive/negative)を言語解析によって 抽出し,集約することが考えられる. もう一つは,SN(ソーチャルネットワーク)的に,情報内容,情報発信者に対し て他者が直接的に与えるランキング,コメントなどを集約する.このようなSNの 枠組みのデザインについても研究を行う. 研究の進め方,今後の発展本プロジェクトで開発する技術は,基本的にはウェブテキストをメインターゲッ トと考える.このプロジェクトを健全に進めるために,既存の検索エンジンの APIに頼るのではなく,検索エンジンを一から構築する.上述の係り受けインデ キシング等を行うためにもこれは必須である. すでに,日本語約1億ページの検索エンジンの運用を開始しており,今後,その 中に上述したモジュールを随時加え,さらに,それらの情報を統合的に閲覧する インタフェースを構築していく. また,このような幅広い課題について,研究開発の方向性の検討・分析を行う ために,上述の種々の信頼性尺度を人手で付与した検討用・評価用データを構築 する.これは,環境問題,医療問題など,社会的関心の高い数十のトピックを選 定して現在進行中である. |