メタデータのmetaは,もともとギリシャ語でafterという意味である。アリストテレスが、物理の本を書いた後に少し抽象的な内容のものを書いた。それに適当な名前がなかったので、とりあえず物理の後ということでmetaphysicsとい名付けられた。metaphysicsは抽象化した内容であったため,「メタ」とは普通のところより1つ上の情報という意味になる。これにより,メタデータはデータについてのデータ、文章などに関するデータということになった。メタデータもまたデータの一種でもある。
Semantic Webは、「Webページを人が見て自分で判断するだけでなく、計算機同士や人間と計算機が、ホームページの内容とか計算機に登録された内容をもう少しうまく扱う」という目的で開発が進められている,と「Scientific American」の記事に記載されている。 (http://www.w3.org/2002/Talks/0208Page2002/)
本・雑誌など内容量の大きい読み物の場合,読むために何時間もかかる。引用文献や参考文献を辿る作業も非常に大変で、出版物と引用された内容を簡単にたどることはできない。媒体は固定されて、ページごとに決まっている。見る側は、例えば目が不自由なので大きくしたいということもできなかった。また本の場合には、本のタイトルや著者,ISBN等で本を特定できた。
Webの場合は、比較的小さいページが多い。ページが長くなると読まれないということも言われている。1つ1つは小さいが、お互いにリンクして次々につながっていく。媒体もスタイルシート化により,非常に自由である。ページを識別するために,著者やタイトルではなく,システムの中であらかじめURI(Uniform Resource Identifier)が付いている。
データベースは比較的大きい単位でデータが管理されている。データが大きい表で運用されており,構造は行と段で固定されている。少し追加情報を入れたい場合には、データベースのスキーマ変更が必要となるため結構難しい。
Semantic Webの場合は、小さい単位で情報が扱える。URIを利用して様々な接続や関係が設定できる。メタデータにはいろいろな用途がある。最も重要な用途は情報を探したり,情報をフィルタリングしたりすることである。今の時代は情報が足りないということが問題なのではなくて、情報が多過ぎて何が大切なのかわからない,ということが問題である。
W3Cでは、メタデータで情報フィルタリングを行うPICS(Platform for Internet Content Selection)や個人情報に関する取り決めをしたP3P(Platform for Privacy Preferences )などが提案されている。例えばPICSでは、子供に見せたくない情報にメタデータを付けて注意喚起する。
Semantic Webのアーキテクチャは第一層にISO 10646やUnicodeなどを中心に文字を特定する。さらに,URIでWebアドレスを特定する。これをベースに全体を構築する。
第二層にデータ交換等でXMLを使う。NS(Name Space)はSemantic Webでも大切な役割を持つ。例えば、普通のシステムでtitleと記述されていると,この意味は人の肩書なのか本の題名なのか判断できない。単語は同じだが定義が違うという語彙をきちんと区別できるような技術がName Spaceである。第三層にRDFという技術を載せている。第四層にOntologyを定義して、第5のLogicで推測をする。第6は,推測してなぜこのような結果になるのかという証明(Proof)をする。最終的には信頼(Trust)につながる。現在、Semantic WebではOntologyの技術が開発中である。Trustへいくのはまだ少し時間がかかるだろう。
■W3C http://www.w3.org/
■関連セミナー 「コンテンツ高度利用のためのメタデータ」2002/05/27 00:00:00