官報XML化プロジェクト
大蔵省印刷局では,1999年度に官報のXML化プロジェクトを実施した。
1999年12月に入札が行われ,印刷会社を中心に10社が落札した。落札業者の一社である共同印刷(株)は,今回のプロジェクトのために,システムおよびタグ部分のパートナーとしてイースト(株)と組み,業者の中で最も早く仕事を進めることを実現した。
今回は,通信&メディア研究会ミーティングにおけるイースト・下川和男氏の講演から,官報のXML化プロジェクトにおける実際の作業やシステムについて紹介する。
プロジェクト概要
官報XML化プロジェクトは,1947年以降のすべての官報を,紙からテキストデータにして,タグを付けるというものである。官報は1冊32ページの構成で,1ページは4段組,約3000文字が印刷されている。今回のプロジェクトでは,全体で90万ページのXML化が進められた。
1999年12月に発注され,納期は当初年度内の2000年3月の予定だった。しかし,分量が非常に多く,落札業者の仕事の状況からみてもかなり厳しいということで,締め切りは6月に伸ばされた。
官報にはいろいろなジャンルがあり,ジャンルごとに本誌や目録,政府調達,資料編などが作成されている。官報には,調達の資料や土地の地価などが公示されたり,省令や法律なども掲載される。上場企業には,決算書を官報で公開する企業も多いなど,さまざまな情報が印刷されている。
官報DTD
官報のために,大蔵省印刷局では官報DTDで約1000種類のタグを用意した。この仕様書は6分冊,厚さ10cmほどにもなる。これをベースにXML化が進められた。
XML化においては,官報を忠実に表現することが要求された。文字の右寄せや左寄せ,表もきちんと作り込まなくてはならない。図に関してはテキスト化が難しいため,既に用意されているTIFF画像を参照する形で対応することが決められていた。
完璧なXML化を実現するため,タグ部分が完璧であるとともに,文字についても99.95%の精度が要求された。
テキスト化の流れ
官報のXML化では,共同印刷がテキスト入力と文字の校正を行い,イーストでは主にタグ付けの部分を担当した。
OCRを中心にデータ入力をした会社は作業が非常に遅れたという。OCRの読み取り精度が不十分であり,また,古い官報は印刷の質が悪いなどの問題があり,修正に時間がかかったためである。今回のプロジェクトでは,文字のデータ化は,一部メディアドライブの活字OCRソフト「WinReader PRO」を利用したものの,基本的にはキーボード入力を中心に行い,作業を順調に進めた。
テキストを入力した後はパッケージソフト「今昔文字鏡」を使って外字のコードを入力する。特定の年代では愛媛の「媛」や葛飾の「飾」などは外字を使うことが決められている。イーストではこのように,既に外字になるとわかっているものはパターン化し,後ですべて変換できるようなエディタやコンバータを開発した。
テキストデータの確認
テキスト入力では,イースト側で事前にテキスト入力仕様書を作成し,入力業者がそれに基づいてOCRまたは手入力でテキストデータを作成した。この際,簡易タグまで入力することを入力業者の仕事の範囲とした。簡易タグとは,テキストデータにするとわからなくなるような部分を,ゴシックなら「@EG」,数式なら「.S」のように表現したものである。簡易タグを付けることにより,単に文字のテキストデータが作成されるだけでなく,後の処理でかなりの部分が自動化できる。
作成されたデータは,必ずしも入力仕様書どおりに入力されているとは限らない。限定した項目になるが,入力仕様書に合っているかどうか確認できるチェックソフトが開発された。入力業者はそれで確認して,OKになったものだけをイーストへ納品するというルールとなっていた。
テキストが出来上がると,イーストで自動タグ付け,手動タグ付けが行われる。
タグ付けのために,イーストでは官報エディタを開発した。一部に東芝アドバンスドシステムのXMLSpyも利用されたが,大部分は官報エディタを利用して作業が進められた。1000種類もあるタグを覚えるのは難しい。最初になるべく自動でタグを付け,それ以外のものについては,官報エディタを利用しタグを理解する必要がないシステムを構築した。
進捗状況の管理
データは,テキスト入力会社から共同印刷へ送られ,共同印刷からイーストに入るという流れになる。共同印刷と共同でXML化プロジェクトのためのWebサイトを立ち上げ,関連した会社と情報共有やファイルのやりとりなどを行った。特に,ファイルのやりとりには,イーストが開発したコンテンツサーバが活躍した。
コンテンツサーバは今回のプロジェクトのためにイーストが開発したもので,例えば担当者がWebブラウザを経由してコンテンツサーバへファイルを登録すると,自動的に次のステップの担当者へ「仕事をしてください」というメールが送られる。また,ファイルの履歴管理も行われるため,管理者は各作業の進捗状況なども知ることが可能である。
プロジェクトのWebサイトにはさまざまな情報が載せられた。入力仕様書や各担当の仕事の範囲に関する文書を確認したり,チェックツールなどをダウンロードすることができる。FAQのページを設け,作業のノウハウも共有し「バーチャルカンパニー」を実現した。
成功の2つの要因
作業が順調に進んだ大きな理由として,下川氏は「コンピュータ処理」と「バーチャルカンパニー」を挙げている。
イーストは作業を極力コンピュータで処理をさせるような仕組み作りに取り組んだという。必要に応じてプログラムを次々に開発し,人手ではなく,なるべくコンピュータに処理をさせた。コンテンツサーバは専任の技術者が常に機能の改良を続け,自動タグ付けツールや官報エディタなども独自に開発し,作業の効率化が図られた。
さらに,成功に結びついた最大の要因は,バーチャルカンパニーを実現したことにあるという。プロジェクトに関わった8社をインターネットでつなげ,すべてネット上で作業の管理が行われた。プロジェクトの管理者は,コンテンツサーバで作業状況をリアルタイムで知ることができ,何かトラブルがあった時には,すぐに担当者や作業の順番を変更するといったことにも柔軟に対応した。また,Webによりさまざまな作業のノウハウを共有することで,非常にスムーズに作業が進められた。パートナーとの共同作業に,インターネットは今後も欠かせない技術となるだろう。
(参考URL:http://www.est.co.jp/ks/xml,http://www.est.co.jp/vfolder)
(通信&メディア研究会)
2000/07/08 00:00:00