本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。
電子書籍時代の外字・異体字を考える
デジタルコンテンツにおける外字・異体字の現状と今後
出版物における外字・異体字問題のイメージだが、これまで業界の中でもいろいろな議論や取り組みが行われて来たが、なかなかいい打開策や解決策が出ていない「永遠の課題」である。また、技術的にも現在ではWebフォントや、IVSなどの技術的なものが確立しているが、以前は技術的にとれる手段も少なくて、諸々な都合や主張が混乱した「パンドラの箱」状態であった。一方で、今まで紙の本では、印刷所はそれ程困っていなかった。外字という発想はなくて、なければ文字は作ればいいという感覚で行っていた。ところが、電子書籍をはじめ、デジタルの世界では、端末やビュアーの制限もあり、問題が急浮上する。
輪転機を回すとそのコストで外字・異体字のコストを吸収していた。ところが紙を使わない電子になると、そのコストをどうするのかという問題が起きてくる。
今回特にデジタルの世界での外字・異体字問題について取り挙げる。そして調査事業の内容について説明する。
■外字異体字利用環境調査事業
調査事業の概要だが、「平成22年度コンテンツ配信型・ハイブリッドビジネスモデル実証事業」という柱があり、その中の「デジタル・ネットワーク社会における出版物の利活用推進のための外字・異体字利用環境整備調査」がこの調査名になる。
今回のプロジェクトの第1の命題は、出版物を扱っていく際に、外字・異体字問題が出てくるので、そこを上手く利用できる環境のあるべき姿を調査して研究することである。
公募機関は経済産業省で、凸版印刷が取った。期間が2011年の1~3月である。全体の活動内容だが、まず調査分析は、出版物がターゲットなので印刷・出版業界で外字の現状について調べる。そして、今までの外字・異体字問題に対する動きを整理する。3つ目として、デジタル、電子出版の起こり得る問題点や解決策について調査分析をする。
これに関して専門家の方に委員会を組織していただき、コメントをいただきながら進める。その結論を元に、実証実験の検討をする。そして、最後に報告書にまとめて提出する。
ある程度凸版印刷で仮説を作って、今回のプロジェクトを行った。その仮説とは、外字・異体字問題は非常に大きなテーマだが、1冊の本にしてみれば、必要な外字・異体字の種類はそれほど多くはない。今後のデジタル化を考えると日本で文字コードがどうという話ではなくて、アップル、Google、アマゾンの製品も米国の仕様だが、いかに国際仕様と整合性を取りながら言語問題を明確にしていくかがポイントになる。
ストーリーとしては、国際規格と整合性のあるもので文字コード、符号化文字で表現出来るものはすべて表現して、出来ないものは画像などいろいろな手段で出していく。それも単に画像ではなくて、後々コンピュータで処理をするときに識別できるようなアイデンティファイルを付けることが最も有効な方法という仮説を持って行った。
そして分りやすく縦軸が読書領域、一般の方が使うようなコンテンツから専門的なものまで、横軸はデジタル化が簡単なものから難しいものまでにした。
こういう定義をしたときに全て図2のABCDを1ヶ月間で解決できることは考えられない。そこで、今回はAのエリアを第1ステップとして、ここにフォーカスをして考えた。C、Dは無視はしないが、すぐにそこまで出来ないのでステップ分けをして進めるという合意をとった。
専門家委員会の方のご紹介を表にまとめたものが図3になる。作家の三田先生に座長を務めていただき、小林さんに副座長を務めていただいた。委員構成は有識者の方、出版社の方、フォントメーカー、ソフトウェアメーカー、印刷業界関連ということで、内容が偏らないように委員をお願いした。オブザーバーは大日本印刷、日本出版学会、凸版印刷と、経産省、総務省で進めた。(図1)(図2)(図3)
■調査報告
実際の外字・異体字問題の対応フローと、これまでの外字・異体字に対する取り組みに対する調査であるが、全部で11項目(図4)ある。
1番目は、凸版印刷で2007年に行った調査で、今回の事業のベースの1つの要素になっている。今の常用漢字の改訂の国語審議会の基礎資料として「漢字出現頻度数調査」を文化庁から凸版印刷が受けて行った。そのときに凸版印刷で作成した一般の出版物800冊分、漢字でいうと大体約5000万文字で、漢字の出現頻度を調査したのである。結果が図5の表である。着目したのは一番下「上記以外」である。
常用漢字改訂は常用漢字に入っていないが、世の中で使われているものを調べるための調査で、今回の凸版印刷の事業は、「上記以外」、一番出て来ない文字に着目した。
DTPでよく使われているのがAdobe Japanの文字セット、AJ1-6である。今回の800冊分を調べる限りにおいては、「上記以外」が0.4%なので、99.6%がAdobe Japanの文字であった。Unicodeは99.3%で、それ以外の0.4%は文字の数で言えば1000字弱、983がAJ1-6にも入っていない文字であった。大方のものはAdobe Japanに入っている。
それが、このようなロングテールのイメージになっていて、上記以外のところが0.4%というイメージである。文字コードで表現出来るものは全部文字コードにして、それ以外の0.4%をWebフォントや画像で上手く処理する考え方になっている。
2番目(図6)が、岩波書店の「広辞苑」で使われている文字数である。「広辞苑」は日本では著名な辞書である。そこで、岩波書店にどんな文字が使われているのか教えもらった結果である。
想定通り基本的にJIS第1水準、第2水準、第3水準、第4水準の中に入っている。いわゆるユーザ外字といわれているものが6.4%、1200程あった。「広辞苑」自体は大日本印刷が作っているので聞いてみると、1200の中には「広辞苑」でしか使わないようなものを沢山含んでいるとのことあった。
3番目(図7)は、印刷会社で外字・異体字の対応フローである。印刷会社にはもともと外字の発想はなくなければ作っていたが、印刷会社では、QCD(クオリティとコストとリードタイム)の向上を日々考えて行っているので、基本的.に入って来たデータを印刷会社が一度自社の内部コードに変換し、汎用的なツールでQCDを上げて回して印刷物を作っている。内部コードをデジタル化するときはコード変換をかけて、シフトJISならシフトJIS、UnicodeならUnicodeにもっていき、出している。
ない文字は打てないので印刷物であればゲラ上にゲタを打っておいて校正の段階で赤字を入れ、そこで打ち替える。そこで打つ文字がなければ新しく文字を作って入れて行っている。
4番目(図8)のデータ配信事業における外字・異体字の取り扱いだが、大日本印刷グループのモバイルブック・ジェーピーにインタビューをした。
外字・異体字の対応はデジタル配信するところがシフトJISであれば、それ以外は外字になる。版元の意向を汲んで、画像にするかJIS内の文字に置き換えるかは、判断を仰いで対応している。
画像の場合、文字サイズが小さいと拡大したときに潰れてしまうので書体を何にするかなど、コミュニケーションを取りながら対応している。
通常の携帯電話の文字はゴシック系あるいは丸ゴシックである。それに合わせてゴシック体で画像として入れてあるものが、スマートフォンでは明朝で出るようになると見事に外字だけが不自然に表示されて問題となる。作られた電子書籍が、流用する前のデータがあれば、そこを変えればいいが、ないのも困った状況になる。外字画像のファイル名も制作元によって違うので、後から追跡出来ない状況である。これも問題になっている。
今後の対応として、Webフォント埋め込み対応のコンテンツ製造基盤の検討などが進んでいる。
今までの対応として、5番目が文字鏡である。文字鏡そのものは1997年4月に発足し、漢字とこれに属する文字、諸国の文字、かつて文化として支えていたが、歴史的に埋没している文字を利用可能にする命題を持ってスタートした。
文字鏡番号という独自の文字コードを持っていて、そこで管理をしている。触手が広がり、日本語以外の中国の甲骨、西夏文字も含めて16万程ある。契丹文字なども今後やっていく予定である。日本国内でいえば、2000年頃に行った官報のデジタル化で実績がある。それから、学術系の利用が多い。
6番目は、インデックスフォント研究会である。印刷会社は、ない文字は作らなければならないので、符号化文字集合でないものを合理的に使用できるようにするためスタートした。内容は文字鏡のリソースとリンクをしているので、16万文字を使えるようになっている。実績は出版に限らず、新聞、ビジネスフォームなどの字形判定で使われている。課題は、技術的に取れる手段が少ないので、今までの研究成果と実ビジネスで展開が上手くいっていない状況である。
7番目は東大のTRONプロジェクトである。ここでは、TRON多言語環境における漢字面の一部としてGT明朝やパレットがあり、使用できるようになっている。TRONプロジェクトは東大の坂村先生を筆頭にして、いわゆるユビキタス社会で日本語に限らず誰でも扱える、多言語環境を実現させることが大命題でになっている。その中の漢字集合でGT明朝がある。元々諸橋大漢和の約6万のボキャブラリーでスタートし、現在は約10万だが、10万のTrueTypeとビットマップを使用できるようになっている。自治体のシステムや図書館で実績があるが、現在はTRONプロジェクトそのものが活動を停止している状況である。
8番目のCHISEは、京都大学のプロジェクトで、東洋学に出てくる外字・異体字を上手く使用できるようするため出てきた。文字コードを使用しないで、文字処理が行われる環境確率を考えている。実態としては文字に対する属性情報を整理し、文字コードという概念がなくても処理が出来るようにするプロジェクトである。ここは現在でも活動していて、諸橋大漢和や全てのUnicodeをカバーしている。ここも東洋文献など学術系で使われている。リソースが限られているので地道にやっている状況であった。
9番目は漢字のデータベースである。2003年にUnicodeが出来たときに、その利用を促進し、漢字の画数や読みの情報を整理するためにできた。UCS(CJK統合漢字)とは漢字をパーツごとにして、バラバラにしたパーツの構造情報をデータベース化しているものである。読みや画数、漢字に関係のある情報をデータベース化している。実績としては学術系の利用が多い。
漢字データベースは知らない人が多い。CHISEもGT明朝も、なかなか認知されていないのが、今までの取組みと実態である。
10番目が、グリフウィキである。ウィキペディアのようなWebブラウザ上で、外字を自分で作って登録が出来るのである。登録されたものはTrueType、SVGでダウンロードして使用できる。文字の「青天井問題」をソフトウェアで解決したいという研究テーマからスタートしている。中はCHISEの情報やNTTの漢字データベースを上手く使いながら提供されている。
大手のベンダーが取り組まないようなニーズをターゲットにして始まっているので、学術的な利用が多い。課題としては、利用拡大と知名度アップである。
11番目は、凸版印刷のプロジェクトと同じ時期に経済産業省から公募が出て、IPAが行っていた事業である。取り組みとして似たような要素だったので話を聞いてみた。文字情報基盤構築事業は、行政処理の合理化を目的に構築をしている。2011年はこの事業はあるのか。
小林氏:IPAの特別事業として、この事業で決まった枠組みを実施に移すことと、運営に関しては内閣府のIPA連絡室がやると決まっている。
田原氏:中身は、戸籍統一文字や住基ネットを中心に6万弱の文字を整理してOpenTypeとSVGを使えるようにする。地方自治体も含めて、いろいろな行政処理上の外字・異体字をクリアにしていく事業になる。
▲図7
■問題点と方向性
問題点と方向性について、考え方を整理したものが図9の表である。3つブロックがあって、作り手側、具体的には作家、執筆者がいて出版社など編集する方がいる。凸版印刷のような情報を加工する人がいる。使う側、閲覧者側とは外字・異体字問題を分けて考える。
執筆・編集はクリエイティブな世界なので、知の創造活動になる。この問題は、外字・異体字の指示がダイレクトに出来ないのである。ゲラにゲタでやってもらって後で赤字で直す。ここの方向性は、ここをカバーする支援ツールを整備することである。
作り手側の真ん中に位置する情報加工のプロセスは、文字の性質上、出したい文字が出現頻度に関係なく、出すように要求があれば出さなくてはならない。そのためには非常に膨大な文字があることが特徴だ。
問題点は、データ化対応方式がバラバラで、互換性もなく、リスクも高く、対応コストも高い。ここは、字形判定基準や格納する基準を整備していくことが必要である。また、例字や漢字の属性情報を整備する。作業を支援するツールも整備が必要である。
閲覧者側は、携帯電話やスマートフォンなど端末によって、符号化文字集合の対応が異なり、内字外字の状況が変わる。端末や環境によって、外字内字を正確に表示できなかったり、検索できない場合がある。特に使う側にとっては、日本の独自仕様は考えられなくて、国際標準規格とどう整合性を取るかがポイントになり、利用を推進していくことが大事である。外字表現方法を整備し、書体の充実、利用者側のツールの整備といくことが必要である。別の問題点として、同じJISコードでもバージョンによって字形に差がある。このような関係性も正確に管理出来るような仕組みが必要である。
次に問題点の整理、方向付の解決策についてである。
文字を判断するための基本となる考え、背番号テーブルの構築である。図11の表だが、文字に対するIDで、漢字を特定するための情報である。それを便宜的に背番号と呼んでいる。
1番の漢字はAdobeの小塚でいうとこれ、大日本印刷の秀英でいうとこれという例示字形である。それに対してAJ1-6でいうと文字コードで何番、Unicodeでいうと何番というようになる。凸版印刷も独自の文字コードを定義しているので、凸版印刷のコードでいうと何番、大漢和でいうと何番というようになる。漢字を特定する情報とそれが使われている文字集合での位置情報である。例えば、凸版印刷に文字があってAJ1-6で定義されていなければ、凸版印刷のところには情報が入るが、AJ1-6は空欄になる。
解決するためのフローとして図12の①~⑧までの流れである。①が今の背番号テーブルである。1個1個の漢字に対して、その漢字がどういった文字かを示すための例字字形情報を②として蓄積する。個々の文字に対する読みや画数、いわゆる漢字の属性の情報を漢字属性テーブル③として構築する。
左側の共通基盤のエリアは、誰でも使える社会インフラとして構築していく。それに対して、そこの情報を参照しながら入力できるツールや情報を検索するためのエンジンを作っている。案件ごとにパブリッシュする領域が右側のビジネス領域である。
これらを使いながら出力するときは変換するテーブルをかける。相手がシフトJISなら シフトJISの変換、UnicodeならUnicodeの変換にする。そこで使われるのはモリサワやスクリーンの商用のフォントで、ないものは、Viewフォントを使う。ただし、⑦、⑧は書体のバランスがあるのでそれを取りながら、パブリッシュをする。このような流れを組み立てることが1つのアウトプットになる。広辞苑でしか使わない文字もあるので、内字外字とあったときに案件ベースで考えている。
以上が問題点の整理と方向付けの結論である。
(図9)(図10)(図11)(図12)(図13)(図14)
■実証実験の検討
実用可能なミニマムセット(第1ステップ)として位置づけて準備し、実際に動かしてみて検証を行った。
背番号テーブルへの登録は、AJ1-6を登録して、そこへ外字・異体字を追加していき、構築する。AJ1-6が現在世の中で最も多く使われている文字セットで、凸版印刷が行った漢字出現頻度数調査で99.6%がAJ1-6に含まれていたこと、岩波書店の広辞苑で使われている文字の例も同じだったことからAJ1-6になった。
調査結果を見ると、世の中の外字・異体字は2万文字をボーダーに1回目の境があり、それをベースに考えている。それに対して、例字字形や属性の情報を整理していく。実際にやっていくと5万強の文字(AJ1-6の3.5倍)のある諸橋大漢和辞典を初期値にという案もあったが、コストがかかり大変なので、サイズ的にAJ1-6でやることになった。
AJ1-6をベースに作り、実験コンテンツから発生したAJ1-6にない外字を順次追加していく。表の中の背番号
形式は実務者会議の中で検討していく。表の右側の出版物利用文字集合はAJ1-6、UCS、IVS、凸版、大日本、文字鏡、大漢和をセットする。文字を示す例字字形は128×128のBitmapで、それを並列する形にする。並列というのは字体差とデザイン差が分りやすいように、複数並列する。漢字の属性情報は、CHISE、漢字データベースなど、すでにあるものを有効活用して作る。入力ツールや検索エンジンは、クラウド型のツールとしてプロトタイピング版の開発を考えている。
出力ターゲットとして、スマートフォン、携帯電話、Sony ReaderやKindleなどの読書端末、PC上のWebブラウザ、それから紙も考えている。また、実証実験用に、ターゲット出力メディアに対応した変換テーブルを作成を考えている。
実際に回すコンテンツは書籍と雑誌を想定している。書籍はチョイスして実験したい。新聞だが、新聞と出版物は制作プロセスも違うので、今回のフォーカスからは割愛した。(図15)(図16)(図17)
■運用面の検討
運用面の検討課題と方向性だが、図15の①②③は「外字・異体字が容易に利用できる環境」の土台となる部分であり、社会インフラとして公共性も高いことから、
将来的に専門の運営組織を設置して、運用にあたる必要がある考えている。
④⑤⑥⑦のビジネスの領域は、システム要件標準化を追求して、将来的にはガイドライン化をしていくことが望ましいのでその方向付けをしている。
■外字・異体字の実証実験
第2フェーズとしての今後の対応であるが、現在の仕組みがいいかどうかの実証実験を行っていく。名称はかなりシンプルになる。「平成22年度書籍等デジタル化推進事業(外字・異体字が容易に利用できる環境の整備)」。
2011年3月までに提出した方向付けが良いか悪いかの実験をしてみて評価をする。凸版印刷が受託し、期間は2012年2月までに結論を出す流れになっている。
大きく3つの母体がある。まず、親委員会に属する(1)検討委員会。ここで実証実験の内容、方向性に関する評価と助言を行う。そして、実際の実験をやる実働部隊を(2)実証実験実務者会議で組織した。ここで、テーブルやデータベースを作成、ツールプロトタイピングを行って、実証実験をする。ここでそのフローが良いかどうの実験結果、有用性の評価を表す。
背番号テーブルは本番で使えるミニマムセットがアウトプットされる。ツール類は、入力と検索のプロトタイプ版であるが、バージョン1として使えるものがアウトプットされる。残された課題が何かが実行部隊からアウトプットされる。
もう1つ親委員会の下に、(3)として運用検討会議を組織した。各データ制作のプロセスで外字が出たときに、それをテーブルにどう反映をしていくか運用ルールを検討するところである。また、組織体として運用するときの組織案をここで検討する。
以上を2月に報告書として経済産業省に提出するという流れを考えている。
実験は2011年の9月まで道具を揃えて、年末にかけて実際に回してみる。運用母体は諸々やった結果、実際に本番でやるために組織を立ち上げるまでいくようなイメージで検討してもらう。(図18)(図19)
質問:既存のソリューションとの整合性をお聞きしたい。JISX0208のシフトJISの外字と考えると一番小さい制度である。それに対して、Unicodeという文字コードベースのソリューションが1つあって、それが標準的なWindows7とか、新しいPCを買えば使えてしまう。
その外側にIVSというソリューションがあって、まだ実装は進んでいないけれどもこれからMicrosoftがOfficeに実装したり、仕組みだけOSの方でサポートしたりして、実装が徐々にすすんでいる。これを見る限りではさらに外側のIVSの使える文字というのはAJ1-6とほぼイコールなので、AJ1-6を超える0.4%、字数にして1000字弱も使えるようになるというソリューションなのかと思ったのである。
それを実際に使うに当たって、グリフは画像情報化して、紙だけではなくてWebや読書端末などでも使えるという、まとめてそういうものだと僕は理解したのだが、間違っているかどうか。
田原氏:当たっている。ここで新たに文字集合を作ろうとか、フォントを作ろうとかそういうことではない。考え方として文字を特定する情報を整備して、実際のコンテンツのデータは右にあるもので使われていけばいいのである。ただ、文字集合でいうとそこに入らない外字が出てくるので、それはこちらにはきちんと載っていて完了する。
小林氏:田原さんの資料の「漢字出現頻度数調査」で「上記以外」が字形数983となっている。それも使えるようにするとのことだが、この数が、表外漢字字体表、1022、それが一人歩きするのを僕らはすごく嫌がったのだけれど、これもそうである。
983というのは凸版印刷が国語審議会の審議のためにサンプリングした800冊の中で現れたものである。では、別の800冊を取ったら、何が出て来るか分らない。重なるかも知れないし、重ならないかも知れない。僕の予想はばらけるのではないか。
標準化されていない字形をどのように集めるか云々ではなくて、標準化されていないものについても、何らかの形で使えるようなメカニズムを用意することである。それが共有できるものかどうかは分らない。
ある書物のために準備した外字が他の書物のために使えるかは分らない。凸版印刷が受けた仕事の情報が、大日本印刷が受けた仕事で使えるかどうか分らない。しかし、完全にばらけてしまうのであれば共有することは意味がない。ある程度流用できる情報があれば、それを調べてみるための基盤を用意するということがこのプロジェクトだと僕は理解しているのである。
その結果として意外と重なりがあるのであれば、正々堂々とその部分については国際標準に提案すればよい。ばらけてしまうのであれば、それは表として置いておいて何かのとき使えば良いのではないか。
AJ1-6の外側にある外字がどのくらいあって、どのように重なっているかは僕らには分らない。まず、共有するための基盤を準備するということが、このプロジェクトの根幹だと思っているのである。
983の11.5%はあまりこだわって欲しくないということが本音である。
質問:画像以外の検索も出来るような符号化するようなステップも当然考えて。
小林氏: 当然、標準化のコミュニティでもこういうものがあって、これが出て来るということは使われるという実績がはっきりする。そうするとエビデンスもはっきりしてくるので、全くユニファイされない新しい漢字が出来れば国際提案するのは簡単なことである。
日本の出版業界、印刷業界の中で、グリフバリエーションのデータベースが共有されてくれば、AJ1-6ではなくて日本の印刷業界や出版業界として、IVDの登録を行うことも全く自然なことである。
質問: どうしたら人様に迷惑がかからないのかという質問である。ビジネス書だから大丈夫じゃないかと言っていただいたが、雑誌の性質もあって司馬遼太郎の「二点しんにょう」とか、ダイエー創業者の文字にない「中内功」とか。固有名詞が多い場合は必ず突き当たる。
直近では、震災に関連した貞観地震の日本三大実録の文字を紙に載せたのと同時に電子版も作るということになったが、載せるプラットフォームが限定されたのである。XMDFでもドットブックでも日本三大実録の文字の載せようが、もしかしたら全部作字。MCBookに無理を言って何とか載せることが出来た。それでもひと文字、画像を貼っている。
ルビの中にあった繰り返し文字の符号を使うことは諦めた。その都度、ゲラの上に赤で書いてということを電子になっても繰り返している。
そういうものだと思いやり続けるが、このゴールが出来上るまでに、より良い方向に持っていくために編集の現場ですることがあるとすれば、何なのか。旧来のやり方を踏襲するのであれば、楽であるが、そのままでいいのかを確認したい。
小林氏:その出版物がベースにしているキャラクターセットは何か。
質問:シフトJISである。
小林氏:それならば僕が想定した範囲であって、日本三大実録に出て来る文字がAJ1-6の中に入っていないことは想定出来ない。あると思うが、なければこういう場であぶり出したい。中内功の功という字はどうだったか。入れたんだったか。
ということで、シフトJISはつらいというのが正直なところで、せめて0213、経済産業省としての普及を臨んでいることが施策として出ているわけなので、そちらへの移行をお願いできれば有り難い。
末端のユーザ、一般の読書の方の環境が全て0213やAJ1-6に移行するには時間がかかるので当面、シフトJISの環境は残ってくると思う。そのときに出来ればやっておいていただきたいのが、元のデータを出来るだけUnicodeで符号化する。異体字の処理もIVSで、AJ1-6のシークエンスがはっきりしているものは、それを保存する形で元のコンテンツを作っておく。その上でそれをシフトJISの環境に投げ込む。
そうするとそこで当然こぼれてくるものがある。それについては画像などいろいろあるが、今までのやり方でやっていただかざるを得ない。
田原氏:限りなく文字として扱える、いわゆる文字コードとして、極力文字としてやった方が全然いいのである。そこからこぼれてしまったものは画像とかそういう方法で表現をすることになる。
そこの大元は、コンピュータが、後々これがどういった外字だと判断出来ることがベストである。そのやり方は何でもいいのである。コンピュータで処理をしたときにきちんと外字だと分る仕組みをしてあり、グリフは何だという情報が残っていれば、やる手段はいくらである。それがベストである。
質問:JIS X 0212という補助漢字の規格のときにどういう作り方をしたかというと、日印産連から外字セットを出して、それを母体にして作ったという話があった。その結果、0213と0212を比べると0212の方が多い。しかし、文字セットとしてはあまり使えないということで実装があまり進まなかったと思う。
翻ってこのプロジェクトだが、凸版印刷と大日本印刷の内部コードがこれで明らかになり、それを元にする。言われれば作ればいいと。点の細かいところまで出版社がダメだというのを合わせても、本当にダメなものも含まれているわけでそういうものは除く。
では、除く論理は何なのか。例えば、実際に使われているエビデンスと紐付けて、そのエビデンスがある程度多いのであれば実績としてあるが、単に印刷会社の文字セットで、しょうもないものは排除してというものだけなら、それはエビデンスというには客観性という意味で難点がつく。その辺をどのように保証していくのかお聞きしたい。
小林氏:やってみないと分らない。このデータベースではグリフのレベルでも変なユニフィケーションはやらない方がいい。
例えばこれである。AJ1-6を分けているのである。なぜ分けたかというと、結果的にはJIS0213(2004)で、表外漢字字体表が筆押さえを全部取ってしまったから、それに合わせて2004年版も取った。
2000年版と2004年版の違いを明確にするために両方入れたのではないと僕は理解している。
人名の場合も、筆押さえあるなしについて、特に手書きレベルでこだわる人はあまりいないと思う。汎用電子のプロジェクトでは筆押さえのあるなしは区別しなかった。
一方、新潮社の日本語漢字辞典は、筆押さえを非常に重視している。伝統的な明朝体のデザインポリシーとして筆押さえは非常に重要で、それを取ると品がなくなる。あるなしにこだわっている。
そういうことも踏まえて今回のプロジェクトで、筆押さえあるなしをどうするか。僕はこういう区別もデータベースにきちんと入れておいた方がいい。
明らかにJISの包摂基準に則っても、ISO/IEC10646のユニフィケーションルールに則っても、符号域としては同じものだと。AJ1-6でも使いわけているという情報を提供することが必要だと思う。それをどう運用していくか。それは分らない。認識を共有した上で皆さんで議論すればいいのではないか。
田原氏:第1フェーズで、(3)で運用を検討していただくチームがあって、その中でどういった判定基準でやっていくかを検討をして結論を出すことになる。
2011年5月11日テキスト&グラフィックス研究会「電子書籍時代の外字・異体字を考える」より(文責編集)