RFC2152 日本語訳
2152 UTF-7 A Mail-Safe Transformation Format of Unicode. D. Goldsmith,M. Davis. May 1997. (Format: TXT=28065 bytes) (Obsoletes RFC1642) (Status: INFORMATIONAL)
プログラムでの自動翻訳です。
RFC一覧
英語原文
Network Working Group D. Goldsmith Request for Comments: 2152 Apple Computer, Inc. Obsoletes: RFC 1642 M. Davis Category: Informational Taligent, Inc. May 1997
コメントを求めるワーキンググループD.ゴールドスミス要求をネットワークでつないでください: 2152 アップル・コンピューターInc.は以下を時代遅れにします。 RFC1642M.デイヴィスカテゴリ: 情報のTaligent Inc.1997年5月
UTF-7
UTF-7
A Mail-Safe Transformation Format of Unicode
ユニコードのメール安全な変化形式
Status of this Memo
このMemoの状態
This memo provides information for the Internet community. This memo does not specify an Internet standard of any kind. Distribution of this memo is unlimited.
このメモはインターネットコミュニティのための情報を提供します。 このメモはどんな種類のインターネット標準も指定しません。 このメモの分配は無制限です。
Abstract
要約
The Unicode Standard, version 2.0, and ISO/IEC 10646-1:1993(E) (as amended) jointly define a character set (hereafter referred to as Unicode) which encompasses most of the world's writing systems. However, Internet mail (STD 11, RFC 822) currently supports only 7- bit US ASCII as a character set. MIME (RFC 2045 through 2049) extends Internet mail to support different media types and character sets, and thus could support Unicode in mail messages. MIME neither defines Unicode as a permitted character set nor specifies how it would be encoded, although it does provide for the registration of additional character sets over time.
1993(E)(修正されるように)は共同で世界の書記体系の大部分を包含する文字の組(今後ユニコードと呼ばれる)を定義します。ユニコードStandard、バージョン2.0、およびISO/IEC10646-1: しかしながら、インターネット・メール(STD11、RFC822)は現在、文字の組として米国ASCIIを唯一の7ビット支持します。 MIME(RFC2045年から2049)は、異なったメディアタイプと文字の組をサポートするためにインターネット・メールを広げていて、その結果、メール・メッセージのユニコードを支持するかもしれません。 MIMEは、受入れられた文字の組とユニコードを定義しないで、またそれがどうコード化されるだろうかを指定しません、時間がたつにつれて、追加文字セットの登録に備えますが。
This document describes a transformation format of Unicode that contains only 7-bit ASCII octets and is intended to be readable by humans in the limiting case that the document consists of characters from the US-ASCII repertoire. It also specifies how this transformation format is used in the context of MIME and RFC 1641, "Using Unicode with MIME".
このドキュメントは、7ビットのASCII八重奏だけを含むユニコードの変化形式について説明して、人間で制限場合に読み込み可能であることを意図します。ドキュメントは米国-ASCIIレパートリーからのキャラクタから成ります。 また、それはこの変化形式がMIMEとRFC1641の文脈でどう使用されるかを指定します、「MIMEがあるユニコードを使用し」て。
Motivation
動機
Although other transformation formats of Unicode exist and could conceivably be used in this context (most notably UTF-8, also known as UTF-2 or UTF-FSS), they suffer the disadvantage that they use octets in the range decimal 128 through 255 to encode Unicode characters outside the US-ASCII range. Thus, in the context of mail, those octets must themselves be encoded. This requires putting text through two successive encoding processes, and leads to a significant expansion of characters outside the US-ASCII range, putting non- English speakers at a disadvantage. For example, using UTF-8 together
ユニコードの他の変化形式は、存在していて、多分このような関係においては(最も著しくまた、UTF-2かUTF-FSSとして知られているUTF-8)使用できましたが、彼らは不都合を受けます。米国-ASCII範囲の外でユニコード文字をコード化するのに範囲10進128〜255で八重奏を使用します。 その結果、メールの文脈では、それらの八重奏がそうしなければならない、自分たち、コード化されてください。 これは、2つの連続したコード化の過程にテキストを通すのが必要であり、米国-ASCII範囲の外でキャラクタの重要な拡大に通じます、不利な立場に非英語を話す人を置いて。 例えば、UTF-8を一緒に使用すること。
Goldsmith & Davis Informational [Page 1] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[1ページ]情報のRFC2152UTF-1997年5月7日
with the Quoted-Printable content transfer encoding of MIME represents US-ASCII characters in one octet, but other characters may require up to nine octets.
Quoted印刷可能な内容で、MIMEの転送コード化は1つの八重奏で米国-ASCII文字の代理をしますが、他のキャラクタは最大9つの八重奏を必要とするかもしれません。
Overview
概観
UTF-7 encodes Unicode characters as US-ASCII octets, together with shift sequences to encode characters outside that range. For this purpose, one of the characters in the US-ASCII repertoire is reserved for use as a shift character.
UTF-7は、その範囲の外でキャラクタをコード化するためにシフト系列と共に米国-ASCII八重奏としてユニコード文字をコード化します。 このために、米国-ASCIIレパートリーにおけるキャラクタのひとりは使用のためにシフト文字として予約されます。
Many mail gateways and systems cannot handle the entire US-ASCII character set (those based on EBCDIC, for example), and so UTF-7 contains provisions for encoding characters within US-ASCII in a way that all mail systems can accomodate.
多くのメール・ゲートウェイとシステムが全体の米国-ASCII文字の組(例えばEBCDICに基づくもの)を扱うことができないので、UTF-7は米国-ASCIIの中ですべてのメールシステムがaccomodateをそうすることができる方法でキャラクタをコード化するための条項を含んでいます。
UTF-7 should normally be used only in the context of 7 bit transports, such as mail. In other contexts, straight Unicode or UTF-8 is preferred.
通常、UTF-7はメールなどの7ビットの輸送の文脈だけで使用されるはずです。 他の文脈では、まっすぐなユニコードかUTF-8が好まれます。
See RFC 1641, "Using Unicode with MIME" for the overall specification on usage of Unicode transformation formats with MIME.
ユニコード変化形式の用法に関する総合的な仕様にMIMEで「MIMEがあるユニコードを使用し」て、RFC1641を見てください。
Definitions
定義
First, the definition of Unicode:
最初に、ユニコードの定義:
The 16 bit character set Unicode is defined by "The Unicode Standard, Version 2.0". This character set is identical with the character repertoire and coding of the international standard ISO/IEC 10646-1:1993(E); Coded Representation Form=UCS-2; Subset=300; Implementation Level=3, including the first 7 amendments to 10646 plus editorial corrections.
16ビットの文字の組ユニコードは「標準のユニコードバージョン2インチ」によって定義されます。 この文字の組は世界規格ISO/IEC10646-1のキャラクタレパートリーとコード化と同じです: 1993(E) コード値フォームはUCS-2と等しいです。 部分集合=300。 10646と編集上の訂正の最初の7つの修正を含む実現Level=3。
Note. Unicode 2.0 further specifies the use and interaction of these character codes beyond the ISO standard. However, any valid 10646 sequence is a valid Unicode sequence, and vice versa; Unicode supplies interpretations of sequences on which the ISO standard is silent as to interpretation.
注意します。 ユニコード2.0はさらにISO規格を超えてこれらのキャラクタコードの使用と相互作用を指定します。 しかしながら、どんな有効な10646系列も有効なユニコード系列です、そして、逆もまた同様です。 ユニコードはISO規格が解釈に関して静かである系列の解釈を供給します。
Next, some handy definitions of US-ASCII character subsets:
次、米国-ASCII文字部分集合のいくつかの便利な定義:
Set D (directly encoded characters) consists of the following characters (derived from RFC 1521, Appendix B, which no longer appears in RFC 2045): the upper and lower case letters A through Z and a through z, the 10 digits 0-9, and the following nine special characters (note that "+" and "=" are omitted):
セットD(直接コード化されたキャラクタ)は以下のキャラクタ(RFC1521、もうRFC2045に現れないAppendix Bから、派生する)から成ります: zを通したZとaを通した大文字と小文字手紙A、10ケタ0-9、および以下の9つの特殊文字(「+」と「=」が省略されることに注意します):
Goldsmith & Davis Informational [Page 2] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[2ページ]情報のRFC2152UTF-1997年5月7日
Character ASCII & Unicode Value (decimal) ' 39 ( 40 ) 41 , 44 - 45 . 46 / 47 : 58 ? 63
キャラクターASCIIとユニコードは(10進)の'39( 40 )41、44--45.46/47を評価します:、' 58 ? 63
Set O (optional direct characters) consists of the following characters (note that "\" and "~" are omitted):
セットO(任意のダイレクトキャラクタ)は以下のキャラクタから成ります(「\」と「~」が省略されることに注意してください):
Character ASCII & Unicode Value (decimal) ! 33 " 34 # 35 $ 36 % 37 & 38 * 42 ; 59 < 60 = 61 > 62 @ 64 [ 91 ] 93 ^ 94 _ 95 ' 96 { 123 | 124 } 125
キャラクターASCIIとユニコード値(小数)!33 「36ドルの34#35%37と38*42」。 59<60 = 61>62@64[ 91 ]93^94_95'96、123|124、125'
Rationale. The characters "\" and "~" are omitted because they are often redefined in variants of ASCII.
原理。 彼らがしばしばASCIIの異形に再定義されるので、キャラクタ「\」と「~」は省略されます。
Set B (Modified Base 64) is the set of characters in the Base64 alphabet defined in RFC 2045, excluding the pad character "=" (decimal value 61).
セットB(変更された基地64)はRFC2045で定義されたBase64アルファベットのキャラクタのセットです、パッド文字「=」(デシマル値61)を除いて。
Goldsmith & Davis Informational [Page 3] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[3ページ]情報のRFC2152UTF-1997年5月7日
Rationale. The pad character = is excluded because UTF-7 is designed for use within header fields as set forth in RFC 2047. Since the only readable encoding in RFC 2047 is "Q" (based on RFC 2045's Quoted- Printable), the "=" character is not available for use (without a lot of escape sequences). This was very unfortunate but unavoidable. The "=" character could otherwise have been used as the UTF-7 escape character as well (rather than using "+").
原理。 UTF-7が使用のためにRFC2047に詳しく説明されるようにヘッダーフィールドの中で設計されているので、パッド文字=は除かれます。 RFC2047でコード化して、(引用されたRFCのもの2045に基づいている「Q」が読み込み可能だけで印刷可能である、)、「=」キャラクタは使用(多くのエスケープシーケンスのない)に手があいていません。 これは、非常に不幸ですが、避けられませんでした。 そうでなければ、「=」キャラクタはまた(「+」を使用するよりむしろ)、UTF-7拡張文字として使用されたかもしれません。
Note that all characters in US-ASCII have the same value in Unicode when zero-extended to 16 bits.
無拡張している16までビットであるときに米国-ASCIIにおけるすべてのキャラクタにはユニコードによる同じ値があることに注意してください。
UTF-7 Definition
UTF-7定義
A UTF-7 stream represents 16-bit Unicode characters using 7-bit US- ASCII octets as follows:
UTF-7の流れは以下の7ビットの米国のASCII八重奏を使用することで16ビットのユニコード文字の代理をします:
Rule 1: (direct encoding) Unicode characters in set D above may be encoded directly as their ASCII equivalents. Unicode characters in Set O may optionally be encoded directly as their ASCII equivalents, bearing in mind that many of these characters are illegal in header fields, or may not pass correctly through some mail gateways.
規則1: (ダイレクトコード化) セットDにおける上のユニコード文字は直接彼らのASCII同等物としてコード化されるかもしれません。 Set Oのユニコード文字は直接彼らのASCII同等物として任意にコード化されるかもしれません、これらのキャラクタの多くがヘッダーフィールドで不法であるか、または正しくいくつかのメール・ゲートウェイを通り抜けないかもしれないのを覚えておいて。
Rule 2: (Unicode shifted encoding) Any Unicode character sequence may be encoded using a sequence of characters in set B, when preceded by the shift character "+" (US-ASCII character value decimal 43). The "+" signals that subsequent octets are to be interpreted as elements of the Modified Base64 alphabet until a character not in that alphabet is encountered. Such characters include control characters such as carriage returns and line feeds; thus, a Unicode shifted sequence always terminates at the of a line. As a special case, if the sequence terminates with the character "-" (US-ASCII decimal 45) then that character is absorbed; other terminating characters are not absorbed and are processed normally.
規則2: (ユニコードの移行しているコード化) どんなユニコードキャラクタシーケンスもセットBにおける、キャラクタの系列を使用することでコード化されるかもしれません、シフト文字「+」(米国-ASCII文字値10進43)が先行すると。 「+」は、その後の八重奏がキャラクタがそのアルファベットで遭遇しないまで変更されたBase64アルファベットの原理として解釈されることであると合図します。 そのようなキャラクタは復帰や改行などの制御文字を入れます。 その結果、ユニコードの移行している系列がいつも終わる、線について。 特殊なものとして、系列がキャラクタ「-」(米国-ASCIIの10進45)で終わるなら、その性格は没頭しています。 他の終わっているキャラクタは、没頭していなくて、通常、処理されます。
Note that if the first character after the shifted sequence is "-" then an extra "-" must be present to terminate the shifted sequence so that the actual "-" is not itself absorbed.
最初のキャラクタであるなら移行している系列が「-」であり、次に、余分な「-」が移行している系列を終えるために存在していなければならないので実際の「-」がそれ自体で没頭していなかった後のためにそれに注意してください。
Rationale. A terminating character is necessary for cases where the next character after the Modified Base64 sequence is part of character set B or is itself the terminating character. It can also enhance readability by delimiting encoded sequences.
原理。 終わっているキャラクタは、Modified Base64系列の後の次のキャラクタが文字の組Bの一部であるケースに必要であるか、それ自体で終わっているキャラクタです。 また、それは、コード化された系列を区切ることによって、読み易さを高めることができます。
Goldsmith & Davis Informational [Page 4] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[4ページ]情報のRFC2152UTF-1997年5月7日
Also as a special case, the sequence "+-" may be used to encode the character "+". A "+" character followed immediately by any character other than members of set B or "-" is an ill-formed sequence.
」 +を配列してください。「特殊なものとして、も」 キャラクタ「+」をコード化するのに使用されてもよいです。 「+」 セットBのメンバー以外のすぐどんなキャラクタによってもついて来られたキャラクタか「-」が不適格な系列です。
Unicode is encoded using Modified Base64 by first converting Unicode 16-bit quantities to an octet stream (with the most significant octet first). Surrogate pairs (UTF-16) are converted by treating each half of the pair as a separate 16 bit quantity (i.e., no special treatment). Text with an odd number of octets is ill-formed. ISO 10646 characters outside the range addressable via surrogate pairs cannot be encoded.
ユニコードがユニコードの16ビットの量を八重奏の流れに変換しながら最初にでModified Base64を使用することでコード化される、(最も重要な八重奏、1番目) 代理の組(UTF-16)は、16ビットの別々の量(すなわち、特別な処理がない)として半分の各組を扱うことによって、変換されます。 八重奏の奇数があるテキストは不適格です。 代理の組を通してアドレス可能な範囲の外のISO10646キャラクタをコード化できません。
Rationale. ISO/IEC 10646-1:1993(E) specifies that when characters the UCS-2 form are serialized as octets, that the most significant octet appear first. This is also in keeping with common network practice of choosing a canonical format for transmission.
原理。 ISO/IEC10646-1: 八重奏、その最も重要な八重奏が最初に現れるようにUCS-2が形成するキャラクタが連載されるとき、1993(E)はそれを指定します。 また、トランスミッションのための正準な形式を選ぶ一般的なネットワーク習慣で保つのにおいてこれがあります。
Rationale. The policy for code point allocation within ISO 10646 and Unicode is that the repertoires be kept synchronized. No code points will be allocated in ISO 10646 outside the range addressable by surrogate pairs.
原理。 ISO10646とユニコードの中のコードポイント配分のための方針はレパートリーが連動するように保たれるということです。 代理の組がアドレス可能な範囲の外のISO10646にコード・ポイントを全く割り当てないでしょう。
Next, the octet stream is encoded by applying the Base64 content transfer encoding algorithm as defined in RFC 2045, modified to omit the "=" pad character. Instead, when encoding, zero bits are added to pad to a Base64 character boundary. When decoding, any bits at the end of the Modified Base64 sequence that do not constitute a complete 16-bit Unicode character are discarded. If such discarded bits are non-zero the sequence is ill-formed.
次に、八重奏の流れは、「=」パッド文字を省略するためにRFC2045で定義されて、変更されるとしてアルゴリズムをコード化するBase64の満足している転送を適用することによって、コード化されます。 コード化するとき、代わりに、ゼロ・ビットは、Base64文字境界にそっと歩くために加えられます。 解読するとき、Modified Base64系列の終わりの完全な16ビットのユニコード文字を構成しないどんなビットも捨てられます。 そのような捨てられたビットが非ゼロであるなら、系列は不適格です。
Rationale. The pad character "=" is not used when encoding Modified Base64 because of the conflict with its use as an escape character for the Q content transfer encoding in RFC 2047 header fields, as mentioned above.
原理。 拡張文字としてのRFCで2047のヘッダーフィールドをコード化するQ内容転送の使用との闘争のために変更されたBase64をコード化するとき、パッド文字「=」は使用されていません、以上のようです。
Rule 3: The space (decimal 32), tab (decimal 9), carriage return (decimal 13), and line feed (decimal 10) characters may be directly represented by their ASCII equivalents. However, note that MIME content transfer encodings have rules concerning the use of such characters. Usage that does not conform to the restrictions of RFC 822, for example, would have to be encoded using MIME content transfer encodings other than 7bit or 8bit, such as quoted-printable, binary, or base64.
規則3: スペース(10進32)、タブ(10進9)、復帰(10進13)、および改行(10進10)キャラクタは彼らのASCII同等物によって直接代理をされるかもしれません。 しかしながら、そのようなキャラクタの使用に関してMIME内容転送encodingsには規則があることに注意してください。 例えばRFC822の制限に従わない用法は、7ビットか8ビット以外のencodingsが引用されて印刷可能であるように2進に噛み付いたMIME内容転送、またはbase64を使用することでコード化されなければならないでしょう。
Given this set of rules, Unicode characters which may be encoded via rules 1 or 3 take one octet per character, and other Unicode characters are encoded on average with 2 2/3 octets per character
このセットの規則を考えて、1か3が1つの八重奏を取るという規則でコード化されるかもしれないユニコード文字は1キャラクタあたり2 2/3の八重奏でキャラクタの、そして、他のユニコード文字単位で平均的にコード化されます。
Goldsmith & Davis Informational [Page 5] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[5ページ]情報のRFC2152UTF-1997年5月7日
plus one octet to switch into Modified Base64 and an optional octet to switch out.
Modified Base64に切り換えるプラス1八重奏と消す任意の八重奏。
Example. The Unicode sequence "A<NOT IDENTICAL TO><ALPHA>." (hexadecimal 0041,2262,0391,002E) may be encoded as follows:
例。 ユニコード系列「><アルファー>と同じ<NOT。」 (16進0041、2262、0391、002E) 以下の通りコード化されるかもしれません:
A+ImIDkQ.
+ ImIDkQ。
Example. The Unicode sequence "Hi Mom -<WHITE SMILING FACE>-!" (hexadecimal 0048, 0069, 0020, 004D, 006F, 006D, 0020, 002D, 263A, 002D, 0021) may be encoded as follows:
例。 ユニコード系列、「こんにちは、おかあさん-<白い笑っている表面>、-、(」 16進0048、0069、0020、004D、006F、006D、0020、002D、263A、002D、0021は)以下の通りコード化されるかもしれません:
Hi Mom -+Jjo--!
こんにちは、おかあさん+Jjo--
Example. The Unicode sequence representing the Han characters for the Japanese word "nihongo" (hexadecimal 65E5,672C,8A9E) may be encoded as follows:
例。 "nihongo"という日本の言葉のためにハンキャラクタの代理をするユニコード系列(65 16進5,672E C、8A9E)は以下の通りコード化されるかもしれません:
+ZeVnLIqe-
+ ZeVnLIqe、-
Use of Character Set UTF-7 Within MIME
MIMEの中の文字コードUTF-7の使用
Character set UTF-7 is safe for mail transmission and therefore may be used with any content transfer encoding in MIME (except where line length and line break restrictions are violated). Specifically, the 7 bit encoding for bodies and the Q encoding for headers are both acceptable. The MIME character set tag is UTF-7. This signifies any version of Unicode equal to or greater than 2.0.
文字の組UTF-7はメール送信に安全であり、したがって、MIME(行長とラインブレイク制限が違反されるところを除いた)におけるどんな満足している転送コード化と共にも使用されるかもしれません。 明確に、ボディーのための7ビットのコード化とヘッダーのためのQコード化はともに許容できます。 MIME文字の組タグはUTF-7です。 これは2.0より等しいか、またはすばらしい状態でユニコードのどんなバージョンも意味します。
Example. Here is a text portion of a MIME message containing the Unicode sequence "Hi Mom <WHITE SMILING FACE>!" (hexadecimal 0048, 0069, 0020, 004D, 006F, 006D, 0020, 263A, 0021).
例。 ここに、ユニコード系列「こんにちは、おかあさんの<の白い笑っている表面>!」を含むMIMEメッセージのテキスト部分があります。 (16進0048、0069、0020、004D、006F、006D、0020、263A、0021)。
Content-Type: text/plain; charset=UTF-7
コンテントタイプ: テキスト/平野。 charset=UTF-7
Hi Mom +Jjo-!
こんにちは、おかあさん+Jjo、-
Example. Here is a text portion of a MIME message containing the Unicode sequence representing the Han characters for the Japanese word "nihongo" (hexadecimal 65E5,672C,8A9E).
例。 ここに、ユニコード系列を含んでいて、MIMEメッセージのテキスト部分が、"nihongo"(65 16進5,672E C、8A9E)という日本の言葉のためにハンキャラクタの代理をしながら、あります。
Content-Type: text/plain; charset=UTF-7
コンテントタイプ: テキスト/平野。 charset=UTF-7
+ZeVnLIqe-
+ ZeVnLIqe、-
Example. Here is a text portion of a MIME message containing the Unicode sequence "A<NOT IDENTICAL TO><ALPHA>." (hexadecimal 0041,2262,0391,002E).
例。 ここに、ユニコード系列「><アルファー>と同じ<NOT」を含んでいて、MIMEメッセージのテキスト部分があります。 (16進0041、2262、0391、002E。)
Goldsmith & Davis Informational [Page 6] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[6ページ]情報のRFC2152UTF-1997年5月7日
Content-Type: text/plain; charset=utf-7
コンテントタイプ: テキスト/平野。 charset=utf-7
A+ImIDkQ.
+ ImIDkQ。
Example. Here is a text portion of a MIME message containing the Unicode sequence "Item 3 is <POUND SIGN>1." (hexadecimal 0049, 0074, 0065, 006D, 0020, 0033, 0020, 0069, 0073, 0020, 00A3, 0031, 002E).
例。 ここに、「項目3は<POUND SIGN>1である」というユニコード系列を含んでいて、MIMEメッセージのテキスト部分があります。 (16進0049、0074、0065、006D、0020、0033、0020、0069、0073、0020、00A3、0031、002E。)
Content-Type: text/plain; charset=UTF-7
コンテントタイプ: テキスト/平野。 charset=UTF-7
Item 3 is +AKM-1.
項目3は+AKM-1です。
Note that to achieve the best interoperability with systems that may not support Unicode or MIME, when preparing text for mail transmission line breaks should follow Internet conventions. This means that lines should be short and terminated with the proper SMTP CRLF sequence. Unicode LINE SEPARATOR (hexadecimal 2028) and PARAGRAPH SEPARATOR (hexadecimal 2029) should be converted to SMTP line breaks. Ideally, this would be handled transparently by a Unicode-aware user agent.
メールのためにテキストを準備するときユニコードかMIMEを支持しないかもしれないシステムで最も良い相互運用性を達成するために、伝送路中断がインターネットコンベンションに続くべきであることに注意してください。 これは、線が短く、適切なSMTP CRLF系列で終えられるべきであることを意味します。 ユニコードLINE SEPARATOR(16進2028)とPARAGRAPH SEPARATOR(16進2029)はSMTPラインブレイクに変換されるべきです。 理想的に、これはユニコード意識しているユーザエージェントによって透明に扱われるでしょう。
This preparation is not absolutely necessary, since UTF-7 and the appropriate MIME content transfer encoding can handle text that does not follow Internet conventions, but readability by systems without Unicode or MIME will be impaired. See RFC 2045 for a discussion of mail interoperability issues.
UTF-7とMIMEの適切な内容転送コード化がインターネットコンベンションに続かないテキストを扱うことができるので、この準備は絶対に必要ではありませんが、ユニコードもMIMEのないシステムによる読み易さは損なわれるでしょう。 メール相互運用性問題の議論に関してRFC2045を見てください。
Lines should never be broken in the middle of a UTF-7 shifted sequence, since such sequences may not cross line breaks. Therefore, UTF-7 encoding should take place after line breaking. If a line containing a shifted sequence is too long after encoding, a MIME content transfer encoding such as Quoted Printable can be used to encode the text. Another possibility is to perform line breaking and UTF-7 encoding at the same time, so that lines containing shifted sequences already conform to length restrictions.
線は決して押し入って、UTF-7の中央が系列を移行させました、そのような系列がラインブレイクに交差しないかもしれないのでことであるべきではありません。 したがって、UTF-7コード化は線の壊す後に行われるべきです。 移行している系列を含む線がずっと後にまた、コード化されるなら、テキストをコード化するのにQuoted Printableとしてそのようなものをコード化するMIME内容転送は使用できます。 別の可能性は同時に線の壊すのとUTF-7コード化を実行することです、移行している系列を含む線が既に長さの制限に一致するように。
Discussion
議論
In this section we will motivate the introduction of UTF-7 as opposed to the alternative of using the existing transformation formats of Unicode (e.g., UTF-8) with MIME's content transfer encodings. Before discussing this, it will be useful to list some assumptions about character frequency within typical natural language text strings that we use to estimate typical storage requirements:
このセクションでは、私たちはMIMEの内容転送encodingsと共にユニコード(例えば、UTF-8)の既存の変化形式を使用する代替手段と対照的にUTF-7の導入を動機づけるつもりです。 これについて議論する前に、私たちが典型的な格納が要件であると見積もるのに使用する典型的な自然言語テキスト文字列の中に固有振動数に関するいくつかの仮定を記載するのは役に立ちます:
1. Most Western European languages use roughly 7/8 of their letters from US-ASCII and 1/8 from Latin 1 (ISO-8859-1).
1. ほとんどの西洋のヨーロッパの言語が米国-ASCIIからのおよそそれらの7/8個の手紙とラテン語1(ISO-8859-1)からの1/8を使用します。
Goldsmith & Davis Informational [Page 7] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[7ページ]情報のRFC2152UTF-1997年5月7日
2. Most non-Roman alphabet-based languages (e.g., Greek) use about 1/6 of their letters from ASCII (since white space is in the 7-bit area) and the rest from their alphabets.
2. ほとんどの非ローマ字ベースの言語(例えば、ギリシア語)がASCII(余白が7ビットの領域にあるので)と残りからそれらのアルファベットからそれらのおよそ1/6個の手紙を使用します。
3. East Asian ideographic-based languages (including Japanese) use essentially all of their characters from the Han or CJK syllabary area.
3. 東アジアの表意文字ベースの言語(日本語を含んでいる)はハンかCJK音節表領域から本質的には彼らの性格のすべてを使用します。
4. Non-directly encoded punctuation characters do not occur frequently enough to affect the results.
4. 非直接コード化された句読文字は結果に影響できるくらいの頻繁に起こりません。
Notice that current 8 bit standards, such as ISO-8859-x, require use of a content transfer encoding. For comparison with the subsequent discussion, the costs break down as follows (note that many of these figures are approximate since they depend on the exact composition of the text):
ISO-8859-xなどの8ビットの現在の規格が満足している転送コード化の使用を必要とするのに注意してください。 その後の議論との比較のために、コストは以下の通り故障します(彼らがテキストの正確な構成によるのでこれらの数字の多くが大体であることに注意してください):
8859-x in Base64
Base64の8859-x
Text type Average octets/character All 1.33
テキストタイプAverage八重奏/キャラクタAll1.33
8859-x in Quoted Printable
引用されるところの印刷可能な8859-x
Text type Average octets/character US-ASCII 1 Western European 1.25 Other 2.67
1テキストタイプの米国-ASCIIの西洋のヨーロッパの1.25Average八重奏/キャラクタOther2.67
Note also that Unicode encoded in Base64 takes a constant 2.67 octets per character. For purposes of comparison, we will look at UTF-8 in Base64 and Quoted Printable, and UTF-7. Also note that fixed overhead for long strings is relative to 1/n, where n is the encoded string length in octets.
また、Base64でコード化されたユニコードが一定の1キャラクタあたり2.67の八重奏を取ることに注意してください。 比較の目的のために、私たちはBase64、Quoted Printable、およびUTF-7のUTF-8を見るつもりです。 また、ロング・ストリングのための固定費が1/nに比例していることに注意してください。そこでは、nが八重奏でコード化されたストリング長です。
UTF-8 in Base64
Base64のUTF-8
Text type Average octets/character US-ASCII 1.33 Western European 1.5 Some Alphabetics 2.44 All others 4
西洋のヨーロッパの1.5Some Alphabetics2.44の1.33人のテキストタイプAverage八重奏/キャラクタ米国-ASCII All他のもの4
Goldsmith & Davis Informational [Page 8] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[8ページ]情報のRFC2152UTF-1997年5月7日
UTF-8 in Quoted Printable
引用されるところの印刷可能なUTF-8
Text type Average octets/character US-ASCII 1 Western European 1.63 Some Alphabetics 5.17 All others 7-9
Average八重奏/キャラクタ1.63テキストタイプの米国-ASCII1個の西部劇ヨーロッパのSome Alphabetics5.17All他のもの7-9
UTF-7
UTF-7
Text type Average octets/character Most US-ASCII 1 Western European 1.5 All others 2.67+2/n
テキストタイプAverage八重奏/キャラクタMost1.5人の米国-ASCII1個の西部劇ヨーロッパ人のAll他のもの2.67+2/n
We feel that the UTF-8 in Quoted Printable option is not viable due to the very large expansion of all text except Western European. This would only be viable in texts consisting of large expanses of US- ASCII or Latin characters with occasional other characters interspersed. We would prefer to introduce one encoding that works reasonably well for all users.
私たちは、Quoted PrintableオプションにおけるUTF-8が西洋のヨーロッパ人以外のすべてのテキストの非常に大きい拡大のために実行可能でないと感じます。 これは、米国のASCIIか他の時々のキャラクタが点在するラテン語のキャラクタの大きい広がりから成りながら、単にテキストで実行可能でしょう。 私たちは、それをコード化するとすべてのユーザのために合理的によく扱われる1つを導入するのを好むでしょう。
We also feel that UTF-8 in Base64 has high expansion for non- Western-European users, and is less desirable because it cannot be read directly, even when the content is largely US-ASCII. The base encoding of UTF-7 gives competitive results and is readable for ASCII text.
また、私たちは直接それを読むことができないので、Base64のUTF-8が西洋にヨーロッパ人の非ユーザにとって、高い拡大を持って、それほど望ましくないと感じます、内容が主に米国-ASCIIでさえあるときに。 UTF-7のベースコード化は、競争力がある結果を与えて、ASCIIテキストに、読み込み可能です。
UTF-7 gives results competitive with ISO-8859-x, with access to all of the Unicode character set. We believe this justifies the introduction of a new transformation format of Unicode.
UTF-7はISO-8859-x、ユニコード文字の組のすべてへのアクセスで競争力があるように結果を与えます。 私たちは、これがユニコードの新しい変化形式の導入を正当化すると信じています。
Goldsmith & Davis Informational [Page 9] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[9ページ]情報のRFC2152UTF-1997年5月7日
As an alternative to use of UTF-7, it might be possible to intermix Unicode characters with other character sets using an existing MIME mechanism, the multipart/mixed content type, ignoring for the moment the issues with line breaks (thanks to Nathaniel Borenstein for suggesting this). For instance (repeating an earlier example):
UTF-7の使用に代わる手段として、他の文字の組が既存のMIMEメカニズムを使用しているユニコード文字を混ぜるのは可能であるかもしれません、複合の、または、複雑な満足しているタイプ、さしあたりラインブレイク(これを示すためのナザニエルBorensteinのおかげで)の問題を無視して。 例えば(以前の例を繰り返します):
Content-type: multipart/mixed; boundary=foo Content-Disposition: inline
文書内容: 複合か混ぜられる。 境界はfoo Content-気質と等しいです: インライン
--foo Content-type: text/plain; charset=us-ascii
--foo文書内容: テキスト/平野。 charsetが私たちと等しい、-、ASCII
Hi Mom --foo Content-type: text/plain; charset=UNICODE-2-0 Content-transfer-encoding: base64
こんにちは、おかあさんの--foo文書内容: テキスト/平野。 内容がコード化を移した状態で、charsetはユニコード2-0と等しいです: base64
Jjo= --foo Content-type: text/plain; charset=us-ascii
Jjo= --foo文書内容: テキスト/平野。 charsetが私たちと等しい、-、ASCII
! --foo--
--foo--
Theoretically, this removes the need for UTF-7 in message bodies (multipart may not be used in header fields). However, we feel that as use of the Unicode character set becomes more widespread, intermittent use of specialized Unicode characters (such as dingbats and mathematical symbols) will occur, and that text will also typically include small snippets from other scripts, such as Cyrillic, Greek, or East Asian languages (anything in the Roman script is already handled adequately by existing MIME character sets). Although the multipart technique works well for large chunks of text in alternating character sets, we feel it does not adequately support the kinds of uses just discussed, and so we still believe the introduction of UTF-7 is justified.
理論的に、これはメッセージ本体でUTF-7の必要性を取り除きます(複合であることは、ヘッダーがさばく中古のコネでないかもしれません)。 しかしながら、私たちは、ユニコード文字の組の使用が、より広範囲になるのに従って専門化しているユニコード文字(装飾活字や数学記号などの)の間欠使用が起こって、また、テキストが他のスクリプトからの小さい切れ端を通常含むと感じます、キリル文字の、または、ギリシアの、または、東アジアの言語などのように(ローマスクリプトによる何でも既存のMIME文字の組によって既に適切に扱われます)。 複合テクニックがテキストの大きい塊に文字の組を交替する際にうまくいきますが、私たちが、それが適切にただ議論した用途の種類を支持しないと感じるので、私たちは、UTF-7の導入が正当であるとまだ信じています。
Summary
概要
The UTF-7 encoding allows Unicode characters to be encoded within the US-ASCII 7 bit character set. It is most effective for Unicode sequences which contain relatively long strings of US-ASCII characters interspersed with either single Unicode characters or strings of Unicode characters, as it allows the US-ASCII portions to be read on systems without direct Unicode support.
UTF-7コード化は、ユニコード文字が米国-ASCIIの7ビットの文字の組の中でコード化されるのを許容します。 単独のユニコード文字かユニコード文字のひものどちらかで点在した米国-ASCII文字の比較的長いストリングを含むユニコード系列に、それは最も効果的です、米国-ASCII部分がシステムでダイレクトユニコードサポートなしで読まれるのを許容するように。
UTF-7 should only be used with 7 bit transports such as mail. In other contexts, use of straight Unicode or UTF-8 is preferred.
UTF-7はメールなどの7ビットの輸送と共に使用されるだけであるべきです。 他の文脈では、まっすぐなユニコードかUTF-8の使用は好まれます。
Goldsmith & Davis Informational [Page 10] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[10ページ]情報のRFC2152UTF-1997年5月7日
Acknowledgements
承認
Many thanks to the following people for their contributions, comments, and suggestions. If we have omitted anyone it was through oversight and not intentionally.
彼らの貢献、コメント、および提案のために以下の人々をありがとうございます。 私たちがだれでも省略したなら、それは故意にであったのではなく、見落としでありました。
Glenn Adams Harald T. Alvestrand Nathaniel Borenstein Lee Collins Jim Conklin Dave Crocker Steve Dorner Dana S. Emery Ned Freed Kari E. Hurtta John H. Jenkins John C. Klensin Valdis Kletnieks Keith Moore Masataka Ohta Einar Stefferud Erik M. van der Poel
グレン・アダムス・ハラルド・T.Alvestrandナザニエル・Borenstein Lee Collins・ジム・コンクリン・デーヴ・クロッカー・スティーブ・デルナー・ダナ・S.Emeryネッド・フリード・カリ・E.Hurttaジョン・H.ジェンキンス・ジョン・C.Klensinヴァルディス・Kletnieksキース・ムーア・Masataka太田・Einar Stefferudエリック・M.バンderポール
Goldsmith & Davis Informational [Page 11] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[11ページ]情報のRFC2152UTF-1997年5月7日
Appendix A -- Examples
付録A--例
Here is a longer example, taken from a document originally in Big5 code. It has been condensed for brevity. There are two versions: the first uses optional characters from set O (and so may not pass through some mail gateways), and the second does not.
ここに、元々Big5コードのドキュメントから抜粋されるより長い例があります。 それは簡潔さのために凝縮しました。 2つのバージョンがあります: セットO(そして、したがって、いくつかのメール・ゲートウェイを通り抜けないかもしれません)、および2番目からの任意のキャラクタがそうしない最初の用途。
Content-type: text/plain; charset=utf-7
文書内容: テキスト/平野。 charset=utf-7
Below is the full Chinese text of the Analects (+itaKng-).
Analectsの完全な中国のテキストが以下にある、(+ itaKng、-、)
The sources for the text are:
テキストのためのソースは以下の通りです。
"The sayings of Confucius," James R. Ware, trans. +U/BTFw-: +ZYeB9FH6ckh5Pg-, 1980. (Chinese text with English translation)
「孔子のことわざ」、ジェームスR.Ware、移- + U/BTFw: + ZYeB9FH6ckh5Pg、-、1980 (英訳がある中国のテキスト)
+Vttm+E6UfZM-, +W4tRQ066bOg-, +UxdOrA-: +Ti1XC2b4Xpc-, 1990.
+ Vttm+E6UfZM、-、+ W4tRQ066bOg、-、+ UxdOrA、-、: + Ti1XC2b4Xpc、-、1990
"The Chinese Classics with a Translation, Critical and Exegetical Notes, Prolegomena, and Copius Indexes," James Legge, trans., Taipei: Southern Materials Center Publishing, Inc., 1991. (Chinese text with English translation)
「Translation、Critical、Exegetical Notes、Prolegomena、およびCopius Indexesと中国のClassics」、ジェームス・レッゲ、移-、台北: 南部の材料は出版のInc.、1991を中心に置きます。 (英訳がある中国のテキスト)
Big Five and GB versions of the text are being made available separately.
別々にテキストの五大国とGBバージョンを利用可能にしています。
Neither the Big Five nor GB contain all the characters used in this text. Missing characters have been indicated using their Unicode/ISO 10646 code points. "U+-" followed by four hexadecimal digits indicates a Unicode/10646 code (e.g., U+-9F08). There is no good solution to the problem of the small size of the Big Five/GB character sets; this represents the solution I find personally most satisfactory.
五大国もGBも本稿で使用されるすべてのキャラクタを含んでいません。 行方不明のキャラクタは、コードが指す彼らのユニコード/ISO10646を使用することで示されました。 「u+、-、」 続かれて、4つの16進数字がユニコード/10646コード(例えば、U+-9F08)を示します。 五大国/GB文字の組の小型の問題のどんな良い解決もありません。 これは満足できた状態で私が個人的に最も見つける解決策を表します。
(omitted...)
(省略されます)
I have tried to minimize this problem by using variant characters where they were available and the character actually in the text was not. Only variants listed as such in the +XrdxmVtXUXg- were used.
私は彼らが入手できたところで異形キャラクタを使用することによって、この問題を最小にしようとします、そして、実際にテキストのキャラクタは最小にしようとしませんでした。 +にそういうものとして記載された異形しかXrdxmVtXUXgありませんでした。使用されます。
(omitted...)
(省略されます)
John H. Jenkins +TpVPXGBG- jenkins@apple.com 5 January 1993 (omitted...)
ジョンH.TpVPXGBGジェンキンス+ jenkins@apple.com 1993年1月5日(省略されます)
Content-type: text/plain; charset=utf-7
文書内容: テキスト/平野。 charset=utf-7
Below is the full Chinese text of the Analects (+itaKng-).
Analectsの完全な中国のテキストが以下にある、(+ itaKng、-、)
Goldsmith & Davis Informational [Page 12] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[12ページ]情報のRFC2152UTF-1997年5月7日
The sources for the text are:
テキストのためのソースは以下の通りです。
+ACI-The sayings of Confucius,+ACI- James R. Ware, trans. +U/BTFw-: +ZYeB9FH6ckh5Pg-, 1980. (Chinese text with English translation)
+ ACI、-、+ 孔子、ACIジェームスR.のことわざ、Ware、移- + U/BTFw: + ZYeB9FH6ckh5Pg、-、1980 (英訳がある中国のテキスト)
+Vttm+E6UfZM-, +W4tRQ066bOg-, +UxdOrA-: +Ti1XC2b4Xpc-, 1990.
+ Vttm+E6UfZM、-、+ W4tRQ066bOg、-、+ UxdOrA、-、: + Ti1XC2b4Xpc、-、1990
+ACI-The Chinese Classics with a Translation, Critical and Exegetical Notes, Prolegomena, and Copius Indexes,+ACI- James Legge, trans., Taipei: Southern Materials Center Publishing, Inc., 1991. (Chinese text with English translation)
+ ACI、-、+ TranslationとCriticalとExegetical Notes、Prolegomenaと中国のClassics、およびCopius Indexes、ACI-ジェームス、レッゲ、移-、台北: 南部の材料は出版のInc.、1991を中心に置きます。 (英訳がある中国のテキスト)
Big Five and GB versions of the text are being made available separately.
別々にテキストの五大国とGBバージョンを利用可能にしています。
Neither the Big Five nor GB contain all the characters used in this text. Missing characters have been indicated using their Unicode/ISO 10646 code points. +ACI-U+-+ACI- followed by four hexadecimal digits indicates a Unicode/10646 code (e.g., U+-9F08). There is no good solution to the problem of the small size of the Big Five/GB character sets+ADs- this represents the solution I find personally most satisfactory.
五大国もGBも本稿で使用されるすべてのキャラクタを含んでいません。 行方不明のキャラクタは、コードが指す彼らのユニコード/ISO10646を使用することで示されました。 + ++がACI続いたACI-Uは4つの16進数字で、ユニコード/10646コード(例えば、U+-9F08)を示します。 -これが満足できた状態で私が個人的に最も見つける解決策を表すという五大国/GB文字の組+ADsの小型の問題のどんな良い解決もありません。
(omitted...)
(省略されます)
I have tried to minimize this problem by using variant characters where they were available and the character actually in the text was not. Only variants listed as such in the +XrdxmVtXUXg- were used. (omitted...)
私は彼らが入手できたところで異形キャラクタを使用することによって、この問題を最小にしようとします、そして、実際にテキストのキャラクタは最小にしようとしませんでした。 +にそういうものとして記載された異形しかXrdxmVtXUXgありませんでした。使用されます。 (省略されます)
John H. Jenkins +TpVPXGBG- jenkins+AEA-apple.com 5 January 1993 (omitted...)
ジョンH.ジェンキンス+TpVPXGBG- jenkins+AEA-apple.com1993年1月5日(省略されます)
Goldsmith & Davis Informational [Page 13] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[13ページ]情報のRFC2152UTF-1997年5月7日
Security Considerations
セキュリティ問題
Security issues are not discussed in this memo.
このメモで安全保障問題について議論しません。
References
参照
[UNICODE 2.0] "The Unicode Standard, Version 2.0", The Unicode Consortium, Addison-Wesley, 1996. ISBN 0-201-48345-9.
[ユニコード2.0] 「ユニコード規格、バージョン2インチ、ユニコード共同体、アディソン-ウエスリー、1996。」 ISBN0-201-48345-9。
[ISO 10646] ISO/IEC 10646-1:1993(E) Information Technology--Universal Multiple-octet Coded Character Set (UCS). See also amendments 1 through 7, plus editorial corrections.
[ISO10646] ISO/IEC10646-1: 1993(E)情報技術--普遍的な複数の八重奏は文字コード(UCS)をコード化しました。 また、修正1〜7、および編集上の訂正を見てください。
[RFC-1641] Goldsmith, D., and M. Davis, "Using Unicode with MIME", RFC 1641, Taligent, Inc., July 1994.
[RFC-1641] ゴールドスミス、D.とM.デイヴィス、「MIMEがあるユニコードを使用します」、RFC1641、Taligent Inc.、1994年7月。
[US-ASCII] Coded Character Set--7-bit American Standard Code for Information Interchange, ANSI X3.4-1986.
[米国-ASCII]は文字コードをコード化しました--7ビットの情報交換用米国標準コード、ANSI X3.4-1986。
[ISO-8859] Information Processing -- 8-bit Single-Byte Coded Graphic Character Sets -- Part 1: Latin Alphabet No. 1, ISO 8859-1:1987. Part 2: Latin alphabet No. 2, ISO 8859-2, 1987. Part 3: Latin alphabet No. 3, ISO 8859-3, 1988. Part 4: Latin alphabet No. 4, ISO 8859-4, 1988. Part 5: Latin/Cyrillic alphabet, ISO 8859-5, 1988. Part 6: Latin/Arabic alphabet, ISO 8859-6, 1987. Part 7: Latin/Greek alphabet, ISO 8859-7, 1987. Part 8: Latin/Hebrew alphabet, ISO 8859-8, 1988. Part 9: Latin alphabet No. 5, ISO 8859-9, 1990.
[ISO-8859]情報処理--8ビットの単一のバイトコード化された図形文字セット--第1部: ローマ字No.1、ISO8859-1:1987。 第2部: ローマ字No.2、ISO8859-2、1987。 パート3: ローマ字No.3、ISO8859-3、1988。 パート4: ローマ字No.4、ISO8859-4、1988。 パート5: ラテン/キリル文字、ISO8859-5、1988。 パート6: ラテン/アラビア文字、ISO8859-6、1987。 パート7: ラテン/ギリシャ語アルファベット、ISO8859-7、1987。 パート8: ラテン語の、または、ヘブライのアルファベット、ISO8859-8、1988。 パート9: ローマ字No.5、ISO8859-9、1990。
[RFC822] Crocker, D., "Standard for the Format of ARPA Internet Text Messages", STD 11, RFC 822, UDEL, August 1982.
[RFC822] クロッカー、D.、「アルパインターネットテキスト・メッセージの形式の規格」、STD11、RFC822、UDEL、1982年8月。
[MIME] Borenstein N., N. Freed, K. Moore, J. Klensin, and J. Postel, "MIME (Multipurpose Internet Mail Extensions) Parts One through Five", RFC 2045, 2046, 2047, 2048, and 2049, November 1996.
[まねます] Borenstein N.、解放されたN.、K.ムーア、J.Klensin、J.ポステル、「MIME(マルチパーパスインターネットメールエクステンション)パート1〜Five」、RFC2045、2046、2047、2048、および2049、1996年11月。
Authors' Addresses
作者のアドレス
David Goldsmith Apple Computer, Inc. 2 Infinite Loop, MS: 302-2IS Cupertino, CA 95014
デヴィッドゴールドスミスアップル・コンピューターInc.2無限ループ、MS: 302-2 カルパチーノ(カリフォルニア)は95014ですか?
Phone: 408-974-1957 Fax: 408-862-4566 EMail: goldsmith@apple.com
以下に電話をしてください。 408-974-1957 Fax: 408-862-4566 メールしてください: goldsmith@apple.com
Goldsmith & Davis Informational [Page 14] RFC 2152 UTF-7 May 1997
ゴールドスミスとデイヴィス[14ページ]情報のRFC2152UTF-1997年5月7日
Mark Davis Taligent, Inc. 10201 N. DeAnza Blvd. Cupertino, CA 95014-2233
マーク・デイビスTaligent Inc.10201N.DeAnza Blvd. カルパチーノ、カリフォルニア95014-2233
Phone: 408-777-5116 Fax: 408-777-5081 EMail: mark_davis@taligent.com
以下に電話をしてください。 408-777-5116 Fax: 408-777-5081 メールしてください: mark_davis@taligent.com
Goldsmith & Davis Informational [Page 15]
ゴールドスミスとデイヴィスInformationalです。[15ページ]
一覧
スポンサーリンク