有什麼程式可以幫忙轉這個嗎?悲 寫:這位朋友用了簡體字;在某兒被 "escaped" (交流區的系統?)
十進制 / 十六進制
21464 / 53D8
35831 / 8BF7
38382 / 95EE
26679 / 6837
26469 / 6765
Unicode 的解碼與編碼
版主: ross_tt、bryanchang、digdog、chester
在 終端機 試試指令 bc
bc 1.05
Copyright 1991, 1992, 1993, 1994, 1997, 1998 Free Software Foundation, Inc.
This is free software with ABSOLUTELY NO WARRANTY.
For details type `warranty'.
53D8
8BF7
95EE
6837
6765
FFFF
結束之、輸入 quit,按 enter 鍵
略述:bc 是一個計算機指令。obase=16 是改動 輸出的 base 為 十六進制;輸入/出 預設為十進制。
另,UTF-8 只有 65536 個 code point ( U+0000 - U+FFFF );啟動一支援 unicode 的程式 ( 如 TextEdit.app ),輸入法切換為 Unicode Hex Input。先緊按 option 鍵不放、再按上述所找到的十六進數字如 53D8;則 簡體的 "變" 字會出現。
推測其然:在某兒,BIG-5 字集 外 的字被 escaped;其對應的 code point 以十進制的數字呈現在留言。
又,要試試 applescript 的方法嗎?
代碼: 選擇全部
% bcbc 1.05
Copyright 1991, 1992, 1993, 1994, 1997, 1998 Free Software Foundation, Inc.
This is free software with ABSOLUTELY NO WARRANTY.
For details type `warranty'.
代碼: 選擇全部
obase=16代碼: 選擇全部
21464;35831;38382;26679;26469;6553553D8
8BF7
95EE
6837
6765
FFFF
結束之、輸入 quit,按 enter 鍵
略述:bc 是一個計算機指令。obase=16 是改動 輸出的 base 為 十六進制;輸入/出 預設為十進制。
另,UTF-8 只有 65536 個 code point ( U+0000 - U+FFFF );啟動一支援 unicode 的程式 ( 如 TextEdit.app ),輸入法切換為 Unicode Hex Input。先緊按 option 鍵不放、再按上述所找到的十六進數字如 53D8;則 簡體的 "變" 字會出現。
推測其然:在某兒,BIG-5 字集 外 的字被 escaped;其對應的 code point 以十進制的數字呈現在留言。
又,要試試 applescript 的方法嗎?
可以唷!真是厲害。悲 寫:另,UTF-8 只有 65536 個 code point ( U+0000 - U+FFFF );啟動一支援 unicode 的程式 ( 如 TextEdit.app ),輸入法切換為 Unicode Hex Input。先緊按 option 鍵不放、再按上述所找到的十六進數字如 53D8;則 簡體的 "變" 字會出現。
願聞其詳。悲 寫:又,要試試 applescript 的方法嗎?
另,我還想知道如果我有一整個檔案都被 escape 掉了,要怎麼辦。如果寫程式把所有 &#... 都換成兩個 byte 的數字,TextEdit 會知道怎麼顯示嗎?如果是 email 或附件被 escape 掉了,有沒有更方便的工具?
一 這不是亂碼。在此留言內看到的 "&#?????;" 是有規律的出現,應有一個起因。paladin 寫:另,我還想知道如果我有一整個檔案都被 escape 掉了,要怎麼辦。如果寫程式把所有 &#... 都換成兩個 byte 的數字,TextEdit 會知道怎麼顯示嗎?如果是 email 或附件被 escape 掉了,有沒有更方便的工具?
二 UTF-8 編碼的文字可以是 1 - 3 byte。
三 跨平台 ( Mac、*nix、Windows ) 要考慮 big-endian 及 little-endian;再考慮應用程式用什麼編碼 輸出 及 輸入。
applescript 的;離題遠了,看看這 話題:
非常多謝悲兄的無私精神,但Unicode已經不只十六bit,UTF-8也有四byte的。請參看Unicode Standard Annex #27
」就是Unicode Point 0x22049,即
。
這個問題,也困擾過我,尤甚不少applications也是當Unicode只有16-bit,Java也只是近來才support UTF-16,以前只能用UCS2!連Apple的Big5-HKSCS encoding也不support!
如「* Where uuuuu = wwww + 1 (to account for addition of 1000016 as in Section 3.7, Surrogates).代碼: 選擇全部
Table 3.1. UTF-8 Bit Distribution Scalar Value UTF-16 1st Byte 2nd Byte 3rd Byte 4th Byte 00000000 00000000 0xxxxxxx 00000000 0xxxxxxx 0xxxxxxx 00000000 00000yyy yyxxxxxx 00000yyy yyxxxxxx 110yyyyy 10xxxxxx 00000000 zzzzyyyy yyxxxxxx zzzzyyyy yyxxxxxx 1110zzzz 10yyyyyy 10xxxxxx 000uuuuu zzzzyyyy yyxxxxxx 110110ww wwzzzzyy 110111yy yyxxxxxx 11110uuu 10uuzzzz 10yyyyyy 10xxxxxx
」就是Unicode Point 0x22049,即這個問題,也困擾過我,尤甚不少applications也是當Unicode只有16-bit,Java也只是近來才support UTF-16,以前只能用UCS2!連Apple的Big5-HKSCS encoding也不support!