RFC1642 日本語訳
1642 UTF-7 - A Mail-Safe Transformation Format of Unicode. D.Goldsmith, M. Davis. July 1994. (Format: TXT=27770, PS=50907, PDF=29573 bytes) (Obsoleted by RFC2152) (Status: EXPERIMENTAL)
プログラムでの自動翻訳です。
RFC一覧
英語原文
Network Working Group D. Goldsmith Request for Comments: 1642 M. Davis Category: Experimental Taligent, Inc. July 1994
コメントを求めるワーキンググループD.ゴールドスミス要求をネットワークでつないでください: 1642年のM.デイヴィスカテゴリ: 実験的なTaligent Inc.1994年7月
UTF-7
UTF-7
A Mail-Safe Transformation Format of Unicode
ユニコードのメール安全な変化形式
Status of this Memo
このMemoの状態
This memo defines an Experimental Protocol for the Internet community. This memo does not specify an Internet standard of any kind. Distribution of this memo is unlimited.
このメモはインターネットコミュニティのためにExperimentalプロトコルを定義します。 このメモはどんな種類のインターネット標準も指定しません。 このメモの分配は無制限です。
Abstract
要約
The Unicode Standard, version 1.1, and ISO/IEC 10646-1:1993(E) jointly define a 16 bit character set (hereafter referred to as Unicode) which encompasses most of the world's writing systems. However, Internet mail (STD 11, RFC 822) currently supports only 7- bit US ASCII as a character set. MIME (RFC 1521 and RFC 1522) extends Internet mail to support different media types and character sets, and thus could support Unicode in mail messages. MIME neither defines Unicode as a permitted character set nor specifies how it would be encoded, although it does provide for the registration of additional character sets over time.
1993(E)は共同で世界の書記体系の大部分を包含する16ビットの文字の組(今後ユニコードと呼ばれる)を定義します。ユニコードStandard、バージョン1.1、およびISO/IEC10646-1: しかしながら、インターネット・メール(STD11、RFC822)は現在、文字の組として米国ASCIIを唯一の7ビット支持します。 MIME(RFC1521とRFC1522)は、異なったメディアタイプと文字の組をサポートするためにインターネット・メールを広げていて、その結果、メール・メッセージのユニコードを支持するかもしれません。 MIMEは、受入れられた文字の組とユニコードを定義しないで、またそれがどうコード化されるだろうかを指定しません、時間がたつにつれて、追加文字セットの登録に備えますが。
This document describes a new transformation format of Unicode that contains only 7-bit ASCII characters and is intended to be readable by humans in the limiting case that the document consists of characters from the US-ASCII repertoire. It also specifies how this transformation format is used in the context of RFC 1521, RFC 1522, and the document "Using Unicode with MIME".
このドキュメントは、7ビットのASCII文字だけを含むユニコードの新しい変化形式について説明して、人間で制限場合に読み込み可能であることを意図します。ドキュメントは米国-ASCIIレパートリーからのキャラクタから成ります。 また、それはこの変化形式が「MIMEがあるユニコードを使用する」というRFC1521、RFC1522、およびドキュメントの文脈でどう使用されるかを指定します。
Motivation
動機
Although other transformation formats of Unicode exist and could conceivably be used in this context (most notably UTF-1 and UTF-8, also known as UTF-2 or UTF-FSS), they suffer the disadvantage that they use octets in the range decimal 128 through 255 to encode Unicode characters outside the US-ASCII range. Thus, in the context of mail, those octets must themselves be encoded. This requires putting text through two successive encoding processes, and leads to a significant expansion of characters outside the US-ASCII range, putting non-English speakers at a disadvantage. For example, using
ユニコードの他の変化形式は、存在していて、多分このような関係においては(最も著しくまた、UTF-2かUTF-FSSとして知られているUTF-1とUTF-8)使用できましたが、彼らは不都合を受けます。米国-ASCII範囲の外でユニコード文字をコード化するのに範囲10進128〜255で八重奏を使用します。 その結果、メールの文脈では、それらの八重奏がそうしなければならない、自分たち、コード化されてください。 これは、2つの連続したコード化の過程にテキストを通すのが必要であり、米国-ASCII範囲の外でキャラクタの重要な拡大に通じます、不利な立場に非英語を話す人を置いて。 例えば、使用
Goldsmith & Davis [Page 1] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[1ページ]RFC1642UTF-1994年7月7日
UTF-FSS together with the Quoted-Printable content transfer encoding of MIME represents US-ASCII characters in one octet, but other characters may require up to nine octets.
MIMEのQuoted印刷可能な満足している転送コード化に伴うUTF-FSSは1つの八重奏で米国-ASCII文字の代理をしますが、他のキャラクタは最大9つの八重奏を必要とするかもしれません。
Overview
概観
UTF-7 encodes Unicode characters as US-ASCII, together with shift sequences to encode characters outside that range. For this purpose, one of the characters in the US-ASCII repertoire is reserved for use as a shift character.
UTF-7は、その範囲の外でキャラクタをコード化するためにシフト系列に伴う米国のASCIIとしてユニコード文字をコード化します。 このために、米国-ASCIIレパートリーにおけるキャラクタのひとりは使用のためにシフト文字として予約されます。
Many mail gateways and systems cannot handle the entire US-ASCII character set (those based on EBCDIC, for example), and so UTF-7 contains provisions for encoding characters within US-ASCII in a way that all mail systems can accomodate.
多くのメール・ゲートウェイとシステムが全体の米国-ASCII文字の組(例えばEBCDICに基づくもの)を扱うことができないので、UTF-7は米国-ASCIIの中ですべてのメールシステムがaccomodateをそうすることができる方法でキャラクタをコード化するための条項を含んでいます。
UTF-7 should normally be used only in the context of 7 bit transports, such as mail and news. In other contexts, straight Unicode or UTF-8 is preferred.
通常、UTF-7はメールやニュースなどの7ビットの輸送の文脈だけで使用されるはずです。 他の文脈では、まっすぐなユニコードかUTF-8が好まれます。
See the document "Using Unicode with MIME" for the overall specification on usage of Unicode transformation formats with MIME.
ユニコード変化形式の用法の総合的な仕様に「MIMEがあるユニコードを使用する」というMIMEがあるドキュメントを見てください。
Definitions
定義
First, the definition of Unicode:
最初に、ユニコードの定義:
The 16 bit character set Unicode is defined by "The Unicode Standard, Version 1.1". This character set is identical with the character repertoire and coding of the international standard ISO/IEC 10646-1:1993(E); Coded Representation Form=UCS-2; Subset=300; Implementation Level=3.
16ビットの文字の組ユニコードは「標準のユニコードバージョン1.1インチ」によって定義されます。 この文字の組は世界規格ISO/IEC10646-1のキャラクタレパートリーとコード化と同じです: 1993(E) コード値フォームはUCS-2と等しいです。 部分集合=300。 実現レベル=3。
Note. Unicode 1.1 further specifies the use and interaction of these character codes beyond the ISO standard. However, any valid 10646 BMP (Basic Multilingual Plane) sequence is a valid Unicode sequence, and vice versa; Unicode supplies interpretations of sequences on which the ISO standard is silent as to interpretation.
注意します。 ユニコード1.1はさらにISO規格を超えてこれらのキャラクタコードの使用と相互作用を指定します。 しかしながら、どんな有効な10646BMP(基本多言語水準)系列も有効なユニコード系列です、そして、逆もまた同様です。 ユニコードはISO規格が解釈に関して静かである系列の解釈を供給します。
Next, some handy definitions of US-ASCII character subsets:
次、米国-ASCII文字部分集合のいくつかの便利な定義:
Set D (directly encoded characters) consists of the following characters (derived from RFC 1521, Appendix B): the upper and lower case letters A through Z and a through z, the 10 digits 0-9, and the following nine special characters (note that "+" and "=" are omitted):
セットD(直接コード化されたキャラクタ)は以下のキャラクタ(RFC1521、Appendix Bから、派生する)から成ります: zを通したZとaを通した大文字と小文字手紙A、10ケタ0-9、および以下の9つの特殊文字(「+」と「=」が省略されることに注意します):
Goldsmith & Davis [Page 2] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[2ページ]RFC1642UTF-1994年7月7日
Character ASCII & Unicode Value (decimal) ' 39 ( 40 ) 41 , 44 - 45 . 46 / 47 : 58 ? 63
キャラクターASCIIとユニコードは(10進)の'39( 40 )41、44--45.46/47を評価します:、' 58 ? 63
Set O (optional direct characters) consists of the following characters (note that "\" and "~" are omitted):
セットO(任意のダイレクトキャラクタ)は以下のキャラクタから成ります(「\」と「~」が省略されることに注意してください):
Character ASCII & Unicode Value (decimal) ! 33 " 34 # 35 $ 36 % 37 & 38 * 42 ; 59 < 60 = 61 > 62 @ 64 [ 91 ] 93 ^ 94 _ 95 ` 96 { 123 | 124 } 125
キャラクターASCIIとユニコード値(小数)!33 「36ドルの34#35%37と38*42」。 59<60 = 61>62@64[ 91 ]93^94_95'96、123|124、125'
Rationale. The characters "\" and "~" are omitted because they are often redefined in variants of ASCII.
原理。 彼らがしばしばASCIIの異形に再定義されるので、キャラクタ「\」と「~」は省略されます。
Set B (Modified Base 64) is the set of characters in the Base64 alphabet defined in RFC 1521, excluding the pad character "=" (decimal value 61).
セットB(変更された基地64)はRFC1521で定義されたBase64アルファベットのキャラクタのセットです、パッド文字「=」(デシマル値61)を除いて。
Rationale. The pad character = is excluded because UTF-7 is designed for use within header fields as set forth in RFC 1522. Since the only readable encoding in RFC 1522 is "Q" (based on RFC 1521's Quoted- Printable), the "=" character is not available for use (without a lot of escape sequences). This was very unfortunate but unavoidable. The
原理。 UTF-7が使用のためにRFC1522に詳しく説明されるようにヘッダーフィールドの中で設計されているので、パッド文字=は除かれます。 RFC1522でコード化して、(引用されたRFCのもの1521に基づいている「Q」が読み込み可能だけで印刷可能である、)、「=」キャラクタは使用(多くのエスケープシーケンスのない)に手があいていません。 これは、非常に不幸ですが、避けられませんでした。 The
Goldsmith & Davis [Page 3] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[3ページ]RFC1642UTF-1994年7月7日
"=" character could otherwise have been used as the UTF-7 escape character as well (rather than using "+").
そうでなければ、「=」キャラクタはまた(「+」を使用するよりむしろ)、UTF-7拡張文字として使用されたかもしれません。
Note that all characters in US-ASCII have the same value in Unicode when zero-extended to 16 bits.
無拡張している16までビットであるときに米国-ASCIIにおけるすべてのキャラクタにはユニコードによる同じ値があることに注意してください。
UTF-7 Definition
UTF-7定義
A UTF-7 stream represents 16-bit Unicode characters in 7-bit US-ASCII as follows:
UTF-7の流れは以下の7ビットの米国-ASCIIで16ビットのユニコード文字の代理をします:
Rule 1: (direct encoding) Unicode characters in set D above may be encoded directly as their ASCII equivalents. Unicode characters in Set O may optionally be encoded directly as their ASCII equivalents, bearing in mind that many of these characters are illegal in header fields, or may not pass correctly through some mail gateways.
規則1: (ダイレクトコード化) セットDにおける上のユニコード文字は直接彼らのASCII同等物としてコード化されるかもしれません。 Set Oのユニコード文字は直接彼らのASCII同等物として任意にコード化されるかもしれません、これらのキャラクタの多くがヘッダーフィールドで不法であるか、または正しくいくつかのメール・ゲートウェイを通り抜けないかもしれないのを覚えておいて。
Rule 2: (Unicode shifted encoding) Any Unicode character sequence may be encoded using a sequence of characters in set B, when preceded by the shift character "+" (US-ASCII character value decimal 43). The "+" signals that subsequent octets are to be interpreted as elements of the Modified Base64 alphabet until a character not in that alphabet is encountered. Such characters include control characters such as carriage returns and line feeds; thus, a Unicode shifted sequence always terminates at the end of a line. As a special case, if the sequence terminates with the character "-" (US-ASCII decimal 45) then that character is absorbed; other terminating characters are not absorbed and are processed normally.
規則2: (ユニコードの移行しているコード化) どんなユニコードキャラクタシーケンスもセットBにおける、キャラクタの系列を使用することでコード化されるかもしれません、シフト文字「+」(米国-ASCII文字値10進43)が先行すると。 「+」は、その後の八重奏がキャラクタがそのアルファベットで遭遇しないまで変更されたBase64アルファベットの原理として解釈されることであると合図します。 そのようなキャラクタは復帰や改行などの制御文字を入れます。 したがって、ユニコードの移行している系列は線の端にいつも終わります。 特殊なものとして、系列がキャラクタ「-」(米国-ASCIIの10進45)で終わるなら、その性格は没頭しています。 他の終わっているキャラクタは、没頭していなくて、通常、処理されます。
Rationale. A terminating character is necessary for cases where the next character after the Modified Base64 sequence is part of character set B. It can also enhance readability by delimiting encoded sequences.
原理。 終わっているキャラクタがまたModified Base64系列が文字の組B.Itについて一部になった後に次のキャラクタがコード化された系列を区切ることによって読み易さを高めることができるケースに必要です。
Also as a special case, the sequence "+-" may be used to encode the character "+". A "+" character followed immediately by any character other than members of set B or "-" is an ill-formed sequence.
」 +を配列してください。「特殊なものとして、も」 キャラクタ「+」をコード化するのに使用されてもよいです。 「+」 セットBのメンバー以外のすぐどんなキャラクタによってもついて来られたキャラクタか「-」が不適格な系列です。
Unicode is encoded using Modified Base64 by first converting Unicode 16-bit quantities to an octet stream (with the most significant octet first). Text with an odd number of octets is ill-formed.
ユニコードがユニコードの16ビットの量を八重奏の流れに変換しながら最初にでModified Base64を使用することでコード化される、(最も重要な八重奏、1番目) 八重奏の奇数があるテキストは不適格です。
Rationale. ISO/IEC 10646-1:1993(E) specifies that when characters in the UCS-2 form are serialized as octets, that the most
原理。 ISO/IEC10646-1: UCS-2フォームでのキャラクタが八重奏として連載されるとき、1993(E)はそれを指定して、それは大部分です。
Goldsmith & Davis [Page 4] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[4ページ]RFC1642UTF-1994年7月7日
significant octet appear first. This is also in keeping with common network practice of choosing a canonical format for transmission.
重要な八重奏は最初に、現れます。 また、トランスミッションのための正準な形式を選ぶ一般的なネットワーク習慣で保つのにおいてこれがあります。
Next, the octet stream is encoded by applying the Base64 content transfer encoding algorithm as defined in RFC 1521, modified to omit the "=" pad character. Instead, when encoding, zero bits are added to pad to a Base64 character boundary. When decoding, any bits at the end of the Modified Base64 sequence that do not constitute a complete 16-bit Unicode character are discarded. If such discarded bits are non-zero the sequence is ill-formed.
次に、八重奏の流れは、「=」パッド文字を省略するためにRFC1521で定義されて、変更されるとしてアルゴリズムをコード化するBase64の満足している転送を適用することによって、コード化されます。 コード化するとき、代わりに、ゼロ・ビットは、Base64文字境界にそっと歩くために加えられます。 解読するとき、Modified Base64系列の終わりの完全な16ビットのユニコード文字を構成しないどんなビットも捨てられます。 そのような捨てられたビットが非ゼロであるなら、系列は不適格です。
Rationale. The pad character "=" is not used when encoding Modified Base64 because of the conflict with its use as an escape character for the Q content transfer encoding in RFC 1522 header fields, as mentioned above.
原理。 拡張文字としてのRFCで1522のヘッダーフィールドをコード化するQ内容転送の使用との闘争のために変更されたBase64をコード化するとき、パッド文字「=」は使用されていません、以上のようです。
Rule 3: The space (decimal 32), tab (decimal 9), carriage return (decimal 13), and line feed (decimal 10) characters may be directly represented by their ASCII equivalents. However, note that MIME content transfer encodings have rules concerning the use of such characters. Usage that does not conform to the restrictions of RFC 822, for example, would have to be encoded using MIME content transfer encodings other than 7bit or 8bit, such as quoted-printable, binary, or base64.
規則3: スペース(10進32)、タブ(10進9)、復帰(10進13)、および改行(10進10)キャラクタは彼らのASCII同等物によって直接代理をされるかもしれません。 しかしながら、そのようなキャラクタの使用に関してMIME内容転送encodingsには規則があることに注意してください。 例えばRFC822の制限に従わない用法は、7ビットか8ビット以外のencodingsが引用されて印刷可能であるように2進に噛み付いたMIME内容転送、またはbase64を使用することでコード化されなければならないでしょう。
Given this set of rules, Unicode characters which may be encoded via rules 1 or 3 take one octet per character, and other Unicode characters are encoded on average with 2 2/3 octets per character plus one octet to switch into Modified Base64 and an optional octet to switch out.
このセットの規則を考えて、1か3が1つの八重奏を取るという規則でコード化されるかもしれないユニコード文字は1キャラクタあたり2 2/3の八重奏と1つの八重奏でキャラクタの、そして、他のユニコード文字単位で平均的にコード化されて、Modified Base64と消す任意の八重奏に切り替わります。
Example. The Unicode sequence "A<NOT IDENTICAL TO><ALPHA>." (hexadecimal 0041,2262,0391,002E) may be encoded as follows:
例。 ユニコード系列「><アルファー>と同じ<NOT。」 (16進0041、2262、0391、002E) 以下の通りコード化されるかもしれません:
A+ImIDkQ.
+ ImIDkQ。
Example. The Unicode sequence "Hi Mom <WHITE SMILING FACE>!" (hexadecimal 0048, 0069, 0020, 004D, 006F, 004D, 0020, 263A, 0021) may be encoded as follows:
例。 ユニコード系列「こんにちは、おかあさんの<の白い笑っている表面>!」 (16進0048、0069、0020、004D、006F、004D、0020、263A、0021) 以下の通りコード化されるかもしれません:
Hi Mom +Jjo-!
こんにちは、おかあさん+Jjo、-
Example. The Unicode sequence representing the Han characters for the Japanese word "nihongo" (hexadecimal 65E5,672C,8A9E) may be encoded as follows:
例。 "nihongo"という日本の言葉のためにハンキャラクタの代理をするユニコード系列(65 16進5,672E C、8A9E)は以下の通りコード化されるかもしれません:
+ZeVnLIqe-
+ ZeVnLIqe、-
Goldsmith & Davis [Page 5] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[5ページ]RFC1642UTF-1994年7月7日
Use of Character Set UTF-7 Within MIME
MIMEの中の文字コードUTF-7の使用
Character set UTF-7 is safe for mail transmission and therefore may be used with any content transfer encoding in MIME (except where line length and line break restrictions are violated). Specifically, the 7 bit encoding for bodies and the Q encoding for headers are both acceptable. The MIME character set identifier is UNICODE-1-1-UTF-7.
文字の組UTF-7はメール送信に安全であり、したがって、MIME(行長とラインブレイク制限が違反されるところを除いた)におけるどんな満足している転送コード化と共にも使用されるかもしれません。 明確に、ボディーのための7ビットのコード化とヘッダーのためのQコード化はともに許容できます。 MIME文字の組識別子はユニコード1-1UTF-7です。
Example. Here is a text portion of a MIME message containing the Unicode sequence "Hi Mom <WHITE SMILING FACE>!" (hexadecimal 0048, 0069, 0020, 004D, 006F, 004D, 0020, 263A, 0021).
例。 ここに、ユニコード系列「こんにちは、おかあさんの<の白い笑っている表面>!」を含むMIMEメッセージのテキスト部分があります。 (16進0048、0069、0020、004D、006F、004D、0020、263A、0021)。
Content-Type: text/plain; charset=UNICODE-1-1-UTF-7
コンテントタイプ: テキスト/平野。 charsetはユニコード1-1-UTF-7と等しいです。
Hi Mom +Jjo-!
こんにちは、おかあさん+Jjo、-
Example. Here is a text portion of a MIME message containing the Unicode sequence representing the Han characters for the Japanese word "nihongo" (hexadecimal 65E5,672C,8A9E).
例。 ここに、ユニコード系列を含んでいて、MIMEメッセージのテキスト部分が、"nihongo"(65 16進5,672E C、8A9E)という日本の言葉のためにハンキャラクタの代理をしながら、あります。
Content-Type: text/plain; charset=UNICODE-1-1-UTF-7
コンテントタイプ: テキスト/平野。 charsetはユニコード1-1-UTF-7と等しいです。
+ZeVnLIqe-
+ ZeVnLIqe、-
Example. Here is a text portion of a MIME message containing the Unicode sequence "A<NOT IDENTICAL TO><ALPHA>." (hexadecimal 0041,2262,0391,002E).
例。 ここに、ユニコード系列「><アルファー>と同じ<NOT」を含んでいて、MIMEメッセージのテキスト部分があります。 (16進0041、2262、0391、002E。)
Content-Type: text/plain; charset=UNICODE-1-1-UTF-7
コンテントタイプ: テキスト/平野。 charsetはユニコード1-1-UTF-7と等しいです。
A+ImIDkQ.
+ ImIDkQ。
Example. Here is a text portion of a MIME message containing the Unicode sequence "Item 3 is <POUND SIGN>1." (hexadecimal 0049, 0074, 0065, 006D, 0020, 0033, 0020, 0069, 0073, 0020, 00A3, 0031, 002E).
例。 ここに、「項目3は<POUND SIGN>1である」というユニコード系列を含んでいて、MIMEメッセージのテキスト部分があります。 (16進0049、0074、0065、006D、0020、0033、0020、0069、0073、0020、00A3、0031、002E。)
Content-Type: text/plain; charset=UNICODE-1-1-UTF-7
コンテントタイプ: テキスト/平野。 charsetはユニコード1-1-UTF-7と等しいです。
Item 3 is +AKM-1.
項目3は+AKM-1です。
Note that to achieve the best interoperability with systems that may not support Unicode or MIME, when preparing text for mail transmission line breaks should follow Internet conventions. This means that lines should be short and terminated with the proper SMTP CRLF sequence. Unicode LINE SEPARATOR (hexadecimal 2028) and PARAGRAPH SEPARATOR (hexadecimal 2029) should be converted to SMTP line breaks. Ideally, this would be handled transparently by a
メールのためにテキストを準備するときユニコードかMIMEを支持しないかもしれないシステムで最も良い相互運用性を達成するために、伝送路中断がインターネットコンベンションに続くべきであることに注意してください。 これは、線が短く、適切なSMTP CRLF系列で終えられるべきであることを意味します。 ユニコードLINE SEPARATOR(16進2028)とPARAGRAPH SEPARATOR(16進2029)はSMTPラインブレイクに変換されるべきです。 理想的に、これはaによって透明に扱われるでしょう。
Goldsmith & Davis [Page 6] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[6ページ]RFC1642UTF-1994年7月7日
Unicode-aware user agent.
ユニコード意識しているユーザエージェント。
This preparation is not absolutely necessary, since UTF-7 and the appropriate MIME content transfer encoding can handle text that does not follow Internet conventions, but readability by systems without Unicode or MIME will be impaired. See RFC 1521 for an in-depth discussion of mail interoperability issues.
UTF-7とMIMEの適切な内容転送コード化がインターネットコンベンションに続かないテキストを扱うことができるので、この準備は絶対に必要ではありませんが、ユニコードもMIMEのないシステムによる読み易さは損なわれるでしょう。 メール相互運用性問題の徹底的な議論に関してRFC1521を見てください。
Lines should never be broken in the middle of a UTF-7 shifted sequence, since such sequences may not cross line breaks. Therefore, UTF-7 encoding should take place after line breaking. If a line containing a shifted sequence is too long after encoding, a MIME content transfer encoding such as Quoted Printable can be used to encode the text. Another possibility is to perform line breaking and UTF-7 encoding at the same time, so that lines containing shifted sequences already conform to length restrictions.
線は決して押し入って、UTF-7の中央が系列を移行させました、そのような系列がラインブレイクに交差しないかもしれないのでことであるべきではありません。 したがって、UTF-7コード化は線の壊す後に行われるべきです。 移行している系列を含む線がずっと後にまた、コード化されるなら、テキストをコード化するのにQuoted Printableとしてそのようなものをコード化するMIME内容転送は使用できます。 別の可能性は同時に線の壊すのとUTF-7コード化を実行することです、移行している系列を含む線が既に長さの制限に一致するように。
Discussion
議論
In this section we will motivate the introduction of UTF-7 as opposed to the alternative of using the existing transformation formats of Unicode (e.g., UTF-8) with MIME's content transfer encodings. Before discussing this, it will be useful to list some assumptions about character frequency within typical natural language text strings that we use to estimate typical storage requirements:
このセクションでは、私たちはMIMEの内容転送encodingsと共にユニコード(例えば、UTF-8)の既存の変化形式を使用する代替手段と対照的にUTF-7の導入を動機づけるつもりです。 これについて議論する前に、私たちが典型的な格納が要件であると見積もるのに使用する典型的な自然言語テキスト文字列の中に固有振動数に関するいくつかの仮定を記載するのは役に立ちます:
1. Most Western European languages use roughly 7/8 of their letters from US-ASCII and 1/8 from Latin 1 (ISO-8859-1).
1. ほとんどの西洋のヨーロッパの言語が米国-ASCIIからのおよそそれらの7/8個の手紙とラテン語1(ISO-8859-1)からの1/8を使用します。
2. Most non-European alphabet-based languages (e.g., Greek) use about 1/6 of their letters from ASCII (since white space is in the 7-bit area) and the rest from their alphabets.
2. ほとんどの非ヨーロッパのアルファベットベースの言語(例えば、ギリシア語)がASCII(余白が7ビットの領域にあるので)と残りからそれらのアルファベットからそれらのおよそ1/6個の手紙を使用します。
3. East Asian ideographic-based languages (including Japanese) use essentially all of their characters from the Han or CJK syllabary area.
3. 東アジアの表意文字ベースの言語(日本語を含んでいる)はハンかCJK音節表領域から本質的には彼らの性格のすべてを使用します。
4. Non-directly encoded punctuation characters do not occur frequently enough to affect the results.
4. 非直接コード化された句読文字は結果に影響できるくらいの頻繁に起こりません。
Notice that current 8 bit standards, such as ISO-8859-x, require use of a content transfer encoding. For comparison with the subsequent discussion, the costs break down as follows (note that many of these figures are approximate since they depend on the exact composition of the text):
ISO-8859-xなどの8ビットの現在の規格が満足している転送コード化の使用を必要とするのに注意してください。 その後の議論との比較のために、コストは以下の通り故障します(彼らがテキストの正確な構成によるのでこれらの数字の多くが大体であることに注意してください):
Goldsmith & Davis [Page 7] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[7ページ]RFC1642UTF-1994年7月7日
8859-x in Base64
Base64の8859-x
Text type Average octets/character All 1.33
テキストタイプAverage八重奏/キャラクタAll1.33
8859-x in Quoted Printable
引用されるところの印刷可能な8859-x
Text type Average octets/character US-ASCII 1 Western European 1.25 Other 2.67
1テキストタイプの米国-ASCIIの西洋のヨーロッパの1.25Average八重奏/キャラクタOther2.67
Note also that Unicode encoded in Base64 takes a constant 2.67 octets per character. For purposes of comparison, we will look at UTF-8 in Base64 and Quoted Printable, and UTF-7. UTF-1 gives results substantially similar to UTF-8. Also note that fixed overhead for long strings is relative to 1/n, where n is the encoded string length in octets.
また、Base64でコード化されたユニコードが一定の1キャラクタあたり2.67の八重奏を取ることに注意してください。 比較の目的のために、私たちはBase64、Quoted Printable、およびUTF-7のUTF-8を見るつもりです。 UTF-1は実質的にUTF-8と同様に結果を与えます。 また、ロング・ストリングのための固定費が1/nに比例していることに注意してください。そこでは、nが八重奏でコード化されたストリング長です。
UTF-8 in Base64
Base64のUTF-8
Text type Average octets/character US-ASCII 1.33 Western European 1.5 Some Alphabetics 2.44 All others 4
西洋のヨーロッパの1.5Some Alphabetics2.44の1.33人のテキストタイプAverage八重奏/キャラクタ米国-ASCII All他のもの4
UTF-8 in Quoted Printable
引用されるところの印刷可能なUTF-8
Text type Average octets/character US-ASCII 1 Western European 1.63 Some Alphabetics 5.17 All others 7-9
Average八重奏/キャラクタ1.63テキストタイプの米国-ASCII1個の西部劇ヨーロッパのSome Alphabetics5.17All他のもの7-9
UTF-7
UTF-7
Text type Average octets/character Most US-ASCII 1 Western European 1.5 All others 2.67+2/n
テキストタイプAverage八重奏/キャラクタMost1.5人の米国-ASCII1個の西部劇ヨーロッパ人のAll他のもの2.67+2/n
We feel that the UTF-8 in Quoted Printable option is not viable due to the very large expansion of all text except Western European. This would only be viable in texts consisting of large expanses of US- ASCII or Latin characters with occasional other characters interspersed. We would prefer to introduce one encoding that works reasonably well for all users.
私たちは、Quoted PrintableオプションにおけるUTF-8が西洋のヨーロッパ人以外のすべてのテキストの非常に大きい拡大のために実行可能でないと感じます。 これは、米国のASCIIか他の時々のキャラクタが点在するラテン語のキャラクタの大きい広がりから成りながら、単にテキストで実行可能でしょう。 私たちは、それをコード化するとすべてのユーザのために合理的によく扱われる1つを導入するのを好むでしょう。
Goldsmith & Davis [Page 8] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[8ページ]RFC1642UTF-1994年7月7日
We also feel that UTF-8 in Base64 has high expansion for non- Western-European users, and is less desirable because it cannot be read directly, even when the content is largely US-ASCII. The base encoding of UTF-7 gives competitive results and is readable for ASCII text.
また、私たちは直接それを読むことができないので、Base64のUTF-8が西洋にヨーロッパ人の非ユーザにとって、高い拡大を持って、それほど望ましくないと感じます、内容が主に米国-ASCIIでさえあるときに。 UTF-7のベースコード化は、競争力がある結果を与えて、ASCIIテキストに、読み込み可能です。
UTF-7 gives results competitive with ISO-8859-x, with access to all of the Unicode character set. We believe this justifies the introduction of a new transformation format of Unicode.
UTF-7はISO-8859-x、ユニコード文字の組のすべてへのアクセスで競争力があるように結果を与えます。 私たちは、これがユニコードの新しい変化形式の導入を正当化すると信じています。
As an alternative to use of UTF-7, it is possible to intermix Unicode characters with other character sets using an existing MIME mechanism, the multipart/mixed content type (thanks to Nathaniel Borenstein for pointing this out). For instance (repeating an earlier example):
UTF-7の使用に代わる手段として、他の文字の組が既存のMIMEメカニズムを使用しているユニコード文字を混ぜるのは可能です、複合の、または、複雑な満足しているタイプ(これを指摘するためのナザニエルBorensteinのおかげで)。 例えば(以前の例を繰り返します):
Content-type: multipart/mixed; boundary=foo
文書内容: 複合か混ぜられる。 境界=foo
--foo Content-type: text/plain; charset=us-ascii
--foo文書内容: テキスト/平野。 charsetが私たちと等しい、-、ASCII
Hi Mom --foo Content-type: text/plain; charset=UNICODE-1-1 Content-transfer-encoding: base64
こんにちは、おかあさんの--foo文書内容: テキスト/平野。 内容がコード化を移した状態で、charsetはユニコード1-1と等しいです: base64
Jjo= --foo Content-type: text/plain; charset=us-ascii
Jjo= --foo文書内容: テキスト/平野。 charsetが私たちと等しい、-、ASCII
! --foo--
--foo--
Theoretically, this removes the need for UTF-7 in message bodies (multipart may not be used in header fields). However, we feel that as use of the Unicode character set becomes more widespread, intermittent use of specialized Unicode characters (such as dingbats and mathematical symbols) will occur, and that text will also typically include small snippets from other scripts, such as Cyrillic, Greek, or East Asian languages (anything in the Roman script is already handled adequately by existing MIME character sets). Although the multipart technique works well for large chunks of text in alternating character sets, we feel it does not adequately support the kinds of uses just discussed, and so we still believe the introduction of UTF-7 is justified.
理論的に、これはメッセージ本体でUTF-7の必要性を取り除きます(複合であることは、ヘッダーがさばく中古のコネでないかもしれません)。 しかしながら、私たちは、ユニコード文字の組の使用が、より広範囲になるのに従って専門化しているユニコード文字(装飾活字や数学記号などの)の間欠使用が起こって、また、テキストが他のスクリプトからの小さい切れ端を通常含むと感じます、キリル文字の、または、ギリシアの、または、東アジアの言語などのように(ローマスクリプトによる何でも既存のMIME文字の組によって既に適切に扱われます)。 複合テクニックがテキストの大きい塊に文字の組を交替する際にうまくいきますが、私たちが、それが適切にただ議論した用途の種類を支持しないと感じるので、私たちは、UTF-7の導入が正当であるとまだ信じています。
Goldsmith & Davis [Page 9] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[9ページ]RFC1642UTF-1994年7月7日
Summary
概要
The UTF-7 encoding allows Unicode characters to be encoded within the US-ASCII 7 bit character set. It is most effective for Unicode sequences which contain relatively long strings of US-ASCII characters interspersed with either single Unicode characters or strings of Unicode characters, as it allows the US-ASCII portions to be read on systems without direct Unicode support.
UTF-7コード化は、ユニコード文字が米国-ASCIIの7ビットの文字の組の中でコード化されるのを許容します。 単独のユニコード文字かユニコード文字のひものどちらかで点在した米国-ASCII文字の比較的長いストリングを含むユニコード系列に、それは最も効果的です、米国-ASCII部分がシステムでダイレクトユニコードサポートなしで読まれるのを許容するように。
UTF-7 should only be used with 7 bit transports such as mail and news. In other contexts, use of straight Unicode or UTF-8 is preferred.
UTF-7はメールやニュースなどの7ビットの輸送と共に使用されるだけであるべきです。 他の文脈では、まっすぐなユニコードかUTF-8の使用は好まれます。
Acknowledgements
承認
Many thanks to the following people for their contributions, comments, and suggestions. If we have omitted anyone it was through oversight and not intentionally.
彼らの貢献、コメント、および提案のために以下の人々をありがとうございます。 私たちがだれでも省略したなら、それは故意にであったのではなく、見落としでありました。
Glenn Adams Harald T. Alvestrand Nathaniel Borenstein Lee Collins Jim Conklin Dave Crocker Steve Dorner Dana S. Emery Ned Freed Kari E. Hurtta John H. Jenkins John C. Klensin Valdis Kletnieks Keith Moore Masataka Ohta Einar Stefferud Erik M. van der Poel
グレン・アダムス・ハラルド・T.Alvestrandナザニエル・Borenstein Lee Collins・ジム・コンクリン・デーヴ・クロッカー・スティーブ・デルナー・ダナ・S.Emeryネッド・フリード・カリ・E.Hurttaジョン・H.ジェンキンス・ジョン・C.Klensinヴァルディス・Kletnieksキース・ムーア・Masataka太田・Einar Stefferudエリック・M.バンderポール
Goldsmith & Davis [Page 10] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[10ページ]RFC1642UTF-1994年7月7日
Appendix A -- Examples
付録A--例
Here is a longer example, taken from a document originally in Big5 code. It has been condensed for brevity. There are two versions: the first uses optional characters from set O (and thus may not pass through some mail gateways), and the second uses no optional characters.
ここに、元々Big5コードのドキュメントから抜粋されるより長い例があります。 それは簡潔さのために凝縮しました。 2つのバージョンがあります: 1番目はセットO(そして、その結果、いくつかのメール・ゲートウェイを通り抜けないかもしれません)から任意のキャラクタを使用します、そして、秒はどんな任意のキャラクタも使用しません。
Content-type: text/plain; charset=unicode-1-1-utf-7
文書内容: テキスト/平野。 charsetはユニコード1-1-utf-7と等しいです。
Below is the full Chinese text of the Analects (+itaKng-).
Analectsの完全な中国のテキストが以下にある、(+ itaKng、-、)
The sources for the text are:
テキストのためのソースは以下の通りです。
"The sayings of Confucius," James R. Ware, trans. +U/BTFw-: +ZYeB9FH6ckh5Pg-, 1980. (Chinese text with English translation)
「孔子のことわざ」、ジェームスR.Ware、移- + U/BTFw: + ZYeB9FH6ckh5Pg、-、1980 (英訳がある中国のテキスト)
+Vttm+E6UfZM-, +W4tRQ066bOg-, +UxdOrA-: +Ti1XC2b4Xpc-, 1990.
+ Vttm+E6UfZM、-、+ W4tRQ066bOg、-、+ UxdOrA、-、: + Ti1XC2b4Xpc、-、1990
"The Chinese Classics with a Translation, Critical and Exegetical Notes, Prolegomena, and Copius Indexes," James Legge, trans., Taipei: Southern Materials Center Publishing, Inc., 1991. (Chinese text with English translation)
「Translation、Critical、Exegetical Notes、Prolegomena、およびCopius Indexesと中国のClassics」、ジェームス・レッゲ、移-、台北: 南部の材料は出版のInc.、1991を中心に置きます。 (英訳がある中国のテキスト)
Big Five and GB versions of the text are being made available separately.
別々にテキストの五大国とGBバージョンを利用可能にしています。
Neither the Big Five nor GB contain all the characters used in this text. Missing characters have been indicated using their Unicode/ISO 10646 code points. "U+-" followed by four hexadecimal digits indicates a Unicode/10646 code (e.g., U+-9F08). There is no good solution to the problem of the small size of the Big Five/GB character sets; this represents the solution I find personally most satisfactory.
五大国もGBも本稿で使用されるすべてのキャラクタを含んでいません。 行方不明のキャラクタは、コードが指す彼らのユニコード/ISO10646を使用することで示されました。 「u+、-、」 続かれて、4つの16進数字がユニコード/10646コード(例えば、U+-9F08)を示します。 五大国/GB文字の組の小型の問題のどんな良い解決もありません。 これは満足できた状態で私が個人的に最も見つける解決策を表します。
(omitted...)
(省略されます)
I have tried to minimize this problem by using variant characters where they were available and the character actually in the text was not. Only variants listed as such in the +XrdxmVtXUXg- were used.
私は彼らが入手できたところで異形キャラクタを使用することによって、この問題を最小にしようとします、そして、実際にテキストのキャラクタは最小にしようとしませんでした。 +にそういうものとして記載された異形しかXrdxmVtXUXgありませんでした。使用されます。
(omitted...)
(省略されます)
John H. Jenkins +TpVPXGBG- John_Jenkins@taligent.com 5 January 1993
ジョンH.TpVPXGBGジェンキンス+ John_Jenkins@taligent.com 1993年1月5日
Goldsmith & Davis [Page 11] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[11ページ]RFC1642UTF-1994年7月7日
(omitted...)
(省略されます)
Content-type: text/plain; charset=unicode-1-1-utf-7
文書内容: テキスト/平野。 charsetはユニコード1-1-utf-7と等しいです。
Below is the full Chinese text of the Analects (+itaKng-).
Analectsの完全な中国のテキストが以下にある、(+ itaKng、-、)
The sources for the text are:
テキストのためのソースは以下の通りです。
+ACI-The sayings of Confucius,+ACI- James R. Ware, trans. +U/BTFw-: +ZYeB9FH6ckh5Pg-, 1980. (Chinese text with English translation)
+ ACI、-、+ 孔子、ACIジェームスR.のことわざ、Ware、移- + U/BTFw: + ZYeB9FH6ckh5Pg、-、1980 (英訳がある中国のテキスト)
+Vttm+E6UfZM-, +W4tRQ066bOg-, +UxdOrA-: +Ti1XC2b4Xpc-, 1990.
+ Vttm+E6UfZM、-、+ W4tRQ066bOg、-、+ UxdOrA、-、: + Ti1XC2b4Xpc、-、1990
+ACI-The Chinese Classics with a Translation, Critical and Exegetical Notes, Prolegomena, and Copius Indexes,+ACI- James Legge, trans., Taipei: Southern Materials Center Publishing, Inc., 1991. (Chinese text with English translation)
+ ACI、-、+ TranslationとCriticalとExegetical Notes、Prolegomenaと中国のClassics、およびCopius Indexes、ACI-ジェームス、レッゲ、移-、台北: 南部の材料は出版のInc.、1991を中心に置きます。 (英訳がある中国のテキスト)
Big Five and GB versions of the text are being made available separately.
別々にテキストの五大国とGBバージョンを利用可能にしています。
Neither the Big Five nor GB contain all the characters used in this text. Missing characters have been indicated using their Unicode/ISO 10646 code points. +ACI-U+-+ACI- followed by four hexadecimal digits indicates a Unicode/10646 code (e.g., U+-9F08). There is no good solution to the problem of the small size of the Big Five/GB character sets+ADs- this represents the solution I find personally most satisfactory.
五大国もGBも本稿で使用されるすべてのキャラクタを含んでいません。 行方不明のキャラクタは、コードが指す彼らのユニコード/ISO10646を使用することで示されました。 + ++がACI続いたACI-Uは4つの16進数字で、ユニコード/10646コード(例えば、U+-9F08)を示します。 -これが満足できた状態で私が個人的に最も見つける解決策を表すという五大国/GB文字の組+ADsの小型の問題のどんな良い解決もありません。
(omitted...)
(省略されます)
I have tried to minimize this problem by using variant characters where they were available and the character actually in the text was not. Only variants listed as such in the +XrdxmVtXUXg- were used.
私は彼らが入手できたところで異形キャラクタを使用することによって、この問題を最小にしようとします、そして、実際にテキストのキャラクタは最小にしようとしませんでした。 +にそういうものとして記載された異形しかXrdxmVtXUXgありませんでした。使用されます。
(omitted...)
(省略されます)
John H. Jenkins +TpVPXGBG- John+AF8-Jenkins+AEA-taligent.com 5 January 1993 (omitted...)
ジョンH.TpVPXGBG-ジョン+AF8ジェンキンス+ジェンキンス+AEA-taligent.com1993年1月5日(省略されます)
Goldsmith & Davis [Page 12] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[12ページ]RFC1642UTF-1994年7月7日
Security Considerations
セキュリティ問題
Security issues are not discussed in this memo.
このメモで安全保障問題について議論しません。
References
参照
[UNICODE 1.1] "The Unicode Standard, Version 1.1": Version 1.0, Volume 1 (ISBN 0-201-56788-1), Version 1.0, Volume 2 (ISBN 0- 201-60845-6), and "Unicode Technical Report #4, The Unicode Standard, Version 1.1" (available from The Unicode Consortium, and soon to be published by Addison- Wesley).
[ユニコード1.1]、「標準のユニコードバージョン1.1インチ:」 そして、バージョン1.0、Volume1(ISBN0-201-56788-1)、バージョン1.0、Volume2(ISBN0- 201-60845-6)、「ユニコード技術報告書#4、標準のユニコードバージョン1.1インチ、(ユニコード共同体から利用可能である、アディソン・ウエスリーによってすぐ発行される、)、」
[ISO 10646] ISO/IEC 10646-1:1993(E) Information Technology--Universal Multiple-octet Coded Character Set (UCS).
[ISO10646] ISO/IEC10646-1: 1993(E)情報技術--普遍的な複数の八重奏は文字コード(UCS)をコード化しました。
[MIME/UNICODE] Goldsmith, D., and M. Davis, "Using Unicode with MIME", RFC 1641, Taligent, Inc., July 1994.
[MIME/ユニコード] ゴールドスミス、D.とM.デイヴィス、「MIMEがあるユニコードを使用します」、RFC1641、Taligent Inc.、1994年7月。
[US-ASCII] Coded Character Set--7-bit American Standard Code for Information Interchange, ANSI X3.4-1986.
[米国-ASCII]は文字コードをコード化しました--7ビットの情報交換用米国標準コード、ANSI X3.4-1986。
[ISO-8859] Information Processing -- 8-bit Single-Byte Coded Graphic Character Sets -- Part 1: Latin Alphabet No. 1, ISO 8859-1:1987. Part 2: Latin alphabet No. 2, ISO 8859-2, 1987. Part 3: Latin alphabet No. 3, ISO 8859-3, 1988. Part 4: Latin alphabet No. 4, ISO 8859-4, 1988. Part 5: Latin/Cyrillic alphabet, ISO 8859-5, 1988. Part 6: Latin/Arabic alphabet, ISO 8859-6, 1987. Part 7: Latin/Greek alphabet, ISO 8859-7, 1987. Part 8: Latin/Hebrew alphabet, ISO 8859-8, 1988. Part 9: Latin alphabet No. 5, ISO 8859-9, 1990.
[ISO-8859]情報処理--8ビットの単一のバイトコード化された図形文字セット--第1部: ローマ字No.1、ISO8859-1:1987。 第2部: ローマ字No.2、ISO8859-2、1987。 パート3: ローマ字No.3、ISO8859-3、1988。 パート4: ローマ字No.4、ISO8859-4、1988。 パート5: ラテン/キリル文字、ISO8859-5、1988。 パート6: ラテン/アラビア文字、ISO8859-6、1987。 パート7: ラテン/ギリシャ語アルファベット、ISO8859-7、1987。 パート8: ラテン語の、または、ヘブライのアルファベット、ISO8859-8、1988。 パート9: ローマ字No.5、ISO8859-9、1990。
[RFC822] Crocker, D., "Standard for the Format of ARPA Internet Text Messages", STD 11, RFC 822, UDEL, August 1982.
[RFC822] クロッカー、D.、「アルパインターネットテキスト・メッセージの形式の規格」、STD11、RFC822、UDEL、1982年8月。
[RFC-1521] Borenstein N., and N. Freed, "MIME (Multipurpose Internet Mail Extensions) Part One: Mechanisms for Specifying and Describing the Format of Internet Message Bodies", RFC 1521, Bellcore, Innosoft, September 1993.
解放された[RFC-1521]Borenstein N.、およびN.、「パート1をまねてください(マルチパーパスインターネットメールエクステンション)」 「インターネットメッセージ本体の形式を指定して、説明するためのメカニズム」、RFC1521、Bellcore、Innosoft、1993年9月。
[RFC-1522] Moore, K., "Representation of Non-Ascii Text in Internet Message Headers" RFC 1522, University of Tennessee, September 1993.
[RFC-1522] ムーア、K.、「インターネットメッセージヘッダーの非アスキーテキストの表現」RFC1522、テネシー大学、1993年9月。
Goldsmith & Davis [Page 13] RFC 1642 UTF-7 July 1994
ゴールドスミスとデイヴィス[13ページ]RFC1642UTF-1994年7月7日
[UTF-8] X/Open Company Ltd., "File System Safe UCS Transformation Format (FSS_UTF)", X/Open Preliminary Specification, Document Number: P316. This information also appears in Unicode Technical Report #4, and in a forthcoming annex to ISO/IEC 10646.
[UTF-8]X/Open会社株式会社、「ファイルのシステムの安全なUCS変化形式(FSS_UTF)」、X/Openの予備の仕様は数を記録します: P316。 また、この情報はユニコードTechnical Report#4、およびISO/IEC10646への今度の別館に現れます。
Authors' Addresses
作者のアドレス
David Goldsmith Taligent, Inc. 10201 N. DeAnza Blvd. Cupertino, CA 95014-2233
デヴィッドゴールドスミスTaligent Inc.10201N.DeAnza Blvd. カルパチーノ、カリフォルニア95014-2233
Phone: 408-777-5225 Fax: 408-777-5081 EMail: david_goldsmith@taligent.com
以下に電話をしてください。 408-777-5225 Fax: 408-777-5081 メールしてください: david_goldsmith@taligent.com
Mark Davis Taligent, Inc. 10201 N. DeAnza Blvd. Cupertino, CA 95014-2233
マーク・デイビスTaligent Inc.10201N.DeAnza Blvd. カルパチーノ、カリフォルニア95014-2233
Phone: 408-777-5116 Fax: 408-777-5081 EMail: mark_davis@taligent.com
以下に電話をしてください。 408-777-5116 Fax: 408-777-5081 メールしてください: mark_davis@taligent.com
Goldsmith & Davis [Page 14]
ゴールドスミスとデイヴィス[14ページ]
一覧
スポンサーリンク