本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

9万字を収容した今昔文字鏡

電子テキスト中で使用する文字種や字形に対しては,対象分野や使用局面など各種の要求があり,その中で最多収容文字数9万字を誇るのが漢字検索システム「今昔文字鏡」である。
テキスト&グラフィックス研究会の10月のミーティングで,今昔文字鏡のプロジェクトについて,文字鏡研究会参事 谷本玲大氏にお話をうかがった。

1. 文字鏡のふたつの側面

今昔文字鏡には2つの側面がある。1つは大規模なフォントセットとしての側面,もう1つは文字のデータベースとしての側面である。
今昔文字鏡は現在9万字を収録している。UnicodeのCJK漢字約2万字,『大漢和辞典』の約5万字はすべて収録しているほか,甲骨文字,梵字,簡体字,変体仮名,中国の少数民族の文字,六十四卦,源氏香などの記号まで収録している。使う便宜を考えて,フォントは無償配布している。

ビジネスとしては文字の同定や異体字の検索,規格相互のコードポイントの関連などデータベース部分でやりたいと考えている。このような検索などを含めた電子漢字辞典としての特徴がアプリケーションソフトとしての側面である。それぞれの文字について部首,画数,読み,各文字コード体系の番号,異体字など,さまざまな情報を提供し,検索ツールとして,また,入力ソフトとしての役割を持たせてIMEやFEPの役割も兼ねるようにした。

たとえばしんにょうの形や「説」のへんとつくりの細かな違いなども区別できるように豊富な字形を用意した。もちろん,たんに多数の文字を収録するのではなく,学術的に検討/整備したものである。文字鏡研究会の会長は石川忠久氏,顧問には『大漢和辞典』の修訂版を監修されている鎌田正氏,甲骨文字の権威である松丸道雄先生にお願いしている。文字鏡研究会の会員は約900名で,金石学,文字学,中国文学,中国史学,仏教学,日本史学,日本文学の学者,僧侶が多数を占めている。

2. フォントの特徴

フォントは全部で24個のファイルで構成されている。WindowsのTrueTypeフォントからMac用のTrueTypeフォントを作成,またTeXで扱うためPostScriptフォントも開発した。これらはすべて文字ごとに固有の番号を振り,インターネット上で公開/配布している。

漢和辞典で調べようとしても,そもそも部首がわからないことがある。難しい字は読みはわからないし,画数を数えるのも難しい。そのため,へんやつくりというのではなく「部品」という考え方を導入した。文字を構成する部品をいくつか入力して,その部品が含まれる文字を検索して表示するようになっている。

文字コードについては中国のGB,台湾,日本,韓国のKSを表示,JISも第1第2水準か,補助漢字かも区別して表示する。関連字情報として,同じ意味を持つ漢字や異体字も表示できる。このように,文字を簡単に検索できるのが最大のメリットである。異体字のひとつひとつについてもその出典を情報として付加している。

実装はいわゆる「嘘字方式」である。本来JIS漢字が入っているべきところに,JISの定義とは関係ない配列で文字を定義している。このようなフォントを複数用意して,フォント名とコードポイントを指定して表示を切り替える。たとえば,文字鏡フォント101は,シフトJISでは「亜」が入っているべきところに「一」を定義している。

文字鏡のオリジナルフォントはWindowsのTrueTypeフォントである。これは24個のファイルで提供され,基本的には大漢和番号順に並んでいる。ひとつのTTFは5460文字を収録している。各フォントに文字を割り当ててある位置は,JIS第一水準の16区〜45区,第二水準の48区〜77区までで,JISの60区分94×60を30区ずつ2つのグループに分けている。Mac用のTrueTypeフォントはWindows用フォントをそのままコンバートしたもの,また1バイト圏でも使えるように,256文字ずつ分割して1バイトに変更したTex用PSフォントもある。その他にも,GIF形式の画像フォント24ドットと96ドットなども用意している。

3. 文字鏡の実際

文字鏡IMEのベータ版があるが,9万字全部に読みをつけるのは大変なので,今のところ部首でしか入力できない。また,たとえばWindowsのメモ帳に文字鏡の文字をそのままはりつけることは当然できない。嘘字方式だからJISのコードポイントで送っても文字化けする。ではどうするのかというと,文字番号をXML形式で入力して埋め込む。そうすれば字形は表示できなくても文字番号によって文字の特定はできる。

また,Wordなどはマクロを使って番号からTrueTypeフォントに変換することもできる。更に,Unicodeで保存することもできる。たとえば,『パソコン悠々漢字術』という本には,awkを使ってUnicodeにもないような文字鏡の文字を使って索引を作った例を載せている。また,個人や会社から文字鏡を扱うためのツールがいくつか発表されているので参考にしていただきたい。

4. 利用事例

国立国語研究所のプロジェクト選書の第1号として『新聞漢字メディアの漢字-朝日新聞CD-ROMによる漢字頻度表-』がある。これは朝日新聞の紙面のCD-ROMを分析して漢字の出現頻度や外字の使用率を調べたものだが,そのうちJISに入っていない文字は文字鏡で作字したものが使われている。これが文字鏡フォントを利用した出版例の第1号である。

また,『デジタル古文書集』というものがある。荘園や法隆寺などの資料集で,書籍にCD-ROM添付で出版される予定である。版下はPDFで出したそうで,文字鏡の文字を使って印刷している。

また,仏教の経典を集めた『大正新脩大蔵経』をOCRで入力してデータベース化したものを東京大学のサーバでインターネットで公開している。これは日本印度学仏教学会のプロジェクトだが,その漢字も文字鏡の番号で入れてある。実はこのプロジェクトは台湾の佛學研究中心という研究所とも協力して進めているため,台湾の研究所でも文字鏡の番号で入れている。仏典研究のうえで文字鏡に入っていないものが見つかれば番号を割り当て,フォントも作って公開されるような協調体制をとっている。

その他,同じ仏教系で『インド学仏教学論文データベース』という論文/書誌情報のデータベースでも使われているし,東洋医学でも文字鏡のフォントを使って表示しているものがある。

5. 文字鏡の今後

BTRON仕様OS「超漢字」に採用されたほか,近畿地方のある博物館のシステムで採用していただけるという話があるし,ある県の県史の版下に使うという話も聞いている。

収録・増補予定としては,まず甲骨文字を1万字規模で増やす。それから西夏文字は6000字程度新規収録予定で,その後は篆書を入れる予定だとと聞いている。
企業からもいろいろな話がきている。一般ユーザからゴシック体は作らないのかという要望があるが,実際いくつかのフォントメーカーさんから話はあるようだ。
それから,PDFへのエンベッドについては,文字鏡の文字は文字鏡の文字としてきちんとPDFの中を検索できるようにしようというシステム開発や,OCRへの実装に関しても具体的な話がすすんでいる。

※ ※ ※

文字鏡研究会http://www.mojikyo.gr.jp/
入会申し込み先:
〒220-0073
横浜市西区岡野1-17-3 志乃田ビル2F
文字鏡研究会 主事 谷田貝常夫

(テキスト&グラフィックス研究会)

1999/12/27 00:00:00


公益社団法人日本印刷技術協会