Windowsの独自拡張文字とUnicode

3月 31st, 2004
[`evernote` not found]
Facebook にシェア

最近、一部の仕事では、テキストの文字コードをUnicodeにしていこうかと考えている。DTP作業と密接に連携する必要のある仕事では、Unicodeをベースにすれば、扱える文字種が増え、なおかつ特殊な記号を別途DTPオペレーターに指示する必要がない。例えば、改行マークを入れたい場合、今までの(シフトJISベースの)ワークフローではテキストデータ中にオペレーターがわかるように指示を入れたり、打ち出した紙に指示を書き込んでおくといった手間がかかった。Unicodeが扱える環境なら、「?」(U+21B5)をそのままテキストデータに書き込んでおけばいい(カギ括弧内は改行マーク。フォント環境によっては画面上で見えないかも)。マークの書体に凝りたいといった場合にはやはり別途指示する必要はあるだろうが。
DTPソフトではInDesignのUnicode対応が進んでおり、Mac/Winが混在したワークフローでも何とかなりそうな気がする。
現在試行錯誤中なのだが、1つ気になったのは既存のテキストデータを利用する場合だ。シフトJIS形式で書かれたテキストデータをUnicode(のUTF-8形式)に変換する場合、OSやアプリケーションによって変換結果が異なることがあるようだ。例えば、丸数字(「?」など)。WindowsではJISコード(JIS X 0208)を独自に拡張して丸数字等を割り当てている。こうした文字を使ったシフトJISのテキストを、Windowsのメモ帳でUTF-8形式で保存すると、該当するUnicodeのコードに変換される。しかし、Mac OS Xのテキストエディットで元のシフトJISテキストを読み込み(Mac用フォントの該当コードは丸数字でないため表示されない)、UTF-8形式で保存してもWindowsのメモ帳とは同じ結果にならないのだ(文字化けしてしまう)。Mac OS X(というよりWindows以外のOS)では、Windows独自拡張文字に対応していないから、ある意味当然といえば当然なのかもしれないが……。機種依存文字を使った文書をUnicodeに変換する際には、注意する必要がありそうだ。

(補足)
このbinWord/blogは、UTF-8形式になっている。上記の文章中、改行マークや丸数字を使っているが、これはUnicodeで定義されているもの。WindowsXP等のMSゴシック・MS明朝、Mac OS Xのヒラギノフォントであれば問題なく閲覧できるはず。

(追記)
変換の相違についてまとめたページを発見。
シフトJISからUnicodeへの変換テーブルの相違

5 Responses to “Windowsの独自拡張文字とUnicode”

  1. kamicup Says:

    まぁ不便なのは同感ですが、WindowsのはあくまでCP932であってShift_JISではない、と割り切ることにしてます。
    MacOSXはテキストエディットで駄目なのはともかくとして、何かCP932(厳密にはMS932なのか)で開けるエディタがあれば良いですね。

    # とか言いつつ具体的には知りません。大抵探すより早いかと使い捨て的にツール作って済ませちゃうし。^^;

  2. Tats_y Says:

    けっきょく、さっさとUnicodeに移行しちゃうしかないってことですか。
    http://www.atmarkit.co.jp/fxml/rensai/xmlwomanabou06/learning-xml06.html
    Unicodeに対する反論というのも以前はいろいろありましたが、現実解としてはこれしかないように思いますしね。
    CP932とMacでの変換結果の違いは、これから電子書籍市場が伸びていくとクローズアップされるようになるかもしれません(もうなっているのかな)。既存コンテンツを電子書籍化する際、PDFならフォントを埋め込めますけど、シャープXMDFやソニーBBeB用のオーサリングツールではどうしているんでしょうね。確か両方ともソースファイルはXMLベースだったような。
    http://www.spacetown.ne.jp/menu21/books/what/function.html
    http://ps.canon-sol.jp/bc/index.html

  3. juner Says:

    ?にしか見えない……と思ってコード観てみたけれど結局?でなくて?になっていた件について……。
    なんでだろ。

  4. juner Says:

    あ、連続投稿すみません。多分此処UTF-8で格納されていない予感……。

  5. Tats_y Says:

    あれ、どうなってんだろ。Movable Typeの時はちゃんと出てたはずなのに。
    WordPressもUTF-8ベースのはずなんですが、なぜかU+21B5なんかの文字が記事に反映されませんね……。

Leave a Reply

Comments links could be nofollow free.