電子テキスト中で使用する文字種や字形に対しては,対象分野や使用局面など各種の要求があり,その中で最多収容文字数9万字を誇るのが漢字検索システム「今昔文字鏡」である。
テキスト&グラフィックス研究会の10月のミーティングで,今昔文字鏡のプロジェクトについて,文字鏡研究会参事 谷本玲大氏にお話をうかがった。
ビジネスとしては文字の同定や異体字の検索,規格相互のコードポイントの関連などデータベース部分でやりたいと考えている。このような検索などを含めた電子漢字辞典としての特徴がアプリケーションソフトとしての側面である。それぞれの文字について部首,画数,読み,各文字コード体系の番号,異体字など,さまざまな情報を提供し,検索ツールとして,また,入力ソフトとしての役割を持たせてIMEやFEPの役割も兼ねるようにした。
たとえばしんにょうの形や「説」のへんとつくりの細かな違いなども区別できるように豊富な字形を用意した。もちろん,たんに多数の文字を収録するのではなく,学術的に検討/整備したものである。文字鏡研究会の会長は石川忠久氏,顧問には『大漢和辞典』の修訂版を監修されている鎌田正氏,甲骨文字の権威である松丸道雄先生にお願いしている。文字鏡研究会の会員は約900名で,金石学,文字学,中国文学,中国史学,仏教学,日本史学,日本文学の学者,僧侶が多数を占めている。
漢和辞典で調べようとしても,そもそも部首がわからないことがある。難しい字は読みはわからないし,画数を数えるのも難しい。そのため,へんやつくりというのではなく「部品」という考え方を導入した。文字を構成する部品をいくつか入力して,その部品が含まれる文字を検索して表示するようになっている。
文字コードについては中国のGB,台湾,日本,韓国のKSを表示,JISも第1第2水準か,補助漢字かも区別して表示する。関連字情報として,同じ意味を持つ漢字や異体字も表示できる。このように,文字を簡単に検索できるのが最大のメリットである。異体字のひとつひとつについてもその出典を情報として付加している。
実装はいわゆる「嘘字方式」である。本来JIS漢字が入っているべきところに,JISの定義とは関係ない配列で文字を定義している。このようなフォントを複数用意して,フォント名とコードポイントを指定して表示を切り替える。たとえば,文字鏡フォント101は,シフトJISでは「亜」が入っているべきところに「一」を定義している。
文字鏡のオリジナルフォントはWindowsのTrueTypeフォントである。これは24個のファイルで提供され,基本的には大漢和番号順に並んでいる。ひとつのTTFは5460文字を収録している。各フォントに文字を割り当ててある位置は,JIS第一水準の16区〜45区,第二水準の48区〜77区までで,JISの60区分94×60を30区ずつ2つのグループに分けている。Mac用のTrueTypeフォントはWindows用フォントをそのままコンバートしたもの,また1バイト圏でも使えるように,256文字ずつ分割して1バイトに変更したTex用PSフォントもある。その他にも,GIF形式の画像フォント24ドットと96ドットなども用意している。
また,Wordなどはマクロを使って番号からTrueTypeフォントに変換することもできる。更に,Unicodeで保存することもできる。たとえば,『パソコン悠々漢字術』という本には,awkを使ってUnicodeにもないような文字鏡の文字を使って索引を作った例を載せている。また,個人や会社から文字鏡を扱うためのツールがいくつか発表されているので参考にしていただきたい。
また,『デジタル古文書集』というものがある。荘園や法隆寺などの資料集で,書籍にCD-ROM添付で出版される予定である。版下はPDFで出したそうで,文字鏡の文字を使って印刷している。
また,仏教の経典を集めた『大正新脩大蔵経』をOCRで入力してデータベース化したものを東京大学のサーバでインターネットで公開している。これは日本印度学仏教学会のプロジェクトだが,その漢字も文字鏡の番号で入れてある。実はこのプロジェクトは台湾の佛學研究中心という研究所とも協力して進めているため,台湾の研究所でも文字鏡の番号で入れている。仏典研究のうえで文字鏡に入っていないものが見つかれば番号を割り当て,フォントも作って公開されるような協調体制をとっている。
その他,同じ仏教系で『インド学仏教学論文データベース』という論文/書誌情報のデータベースでも使われているし,東洋医学でも文字鏡のフォントを使って表示しているものがある。
収録・増補予定としては,まず甲骨文字を1万字規模で増やす。それから西夏文字は6000字程度新規収録予定で,その後は篆書を入れる予定だとと聞いている。
企業からもいろいろな話がきている。一般ユーザからゴシック体は作らないのかという要望があるが,実際いくつかのフォントメーカーさんから話はあるようだ。
それから,PDFへのエンベッドについては,文字鏡の文字は文字鏡の文字としてきちんとPDFの中を検索できるようにしようというシステム開発や,OCRへの実装に関しても具体的な話がすすんでいる。
※ ※ ※
文字鏡研究会http://www.mojikyo.gr.jp/
入会申し込み先:
〒220-0073
横浜市西区岡野1-17-3 志乃田ビル2F
文字鏡研究会 主事 谷田貝常夫
(テキスト&グラフィックス研究会)
1999/12/27 00:00:00