HTML 中の改行の扱いNo.08651
ひろ さん 03/04/06 18:22
 
 秀まるおさん今日は、ひろです。
http://www.maruo.co.jp/hidesoft/8/x12023_.html#12085
>  どっちにしてもHTML->TEXT変換関係は今いじらない予定です。
というお返事を頂いているので、書き込みを躊躇しますが、表題の件で一つ気
になった点があります。

 鶴亀では HTML ソース中に
<p>
これ

日本語

文章
</p>
とあった場合、
これは日本語の文章
と変換されます。これは全く問題がないのですが。
<p>
This
is
the
English
sentence.
</p>
と有った場合、
ThisistheEnglishsentence.
と変換されます。つまり本来 HTML では、(その数が幾つであれ) 改行が存在
する場合、その前後が両方も 2 バイト・コードなら、改行は無視されますが、
その前後何方か一方でも 1 バイトコードなら、1 つの空白に変換しますが、
後者が出来ていません。これはこのままで良いのでしょうか?

 個人的には、lynx を使って整形するマクロを作ったので何に問題もありま
せん。しかし 1 バイト・コードの HTML メールを受け取り、なおかつ添付
ファイルを削除する設定にしていると、全く意味不明なメールになることが有
るのが気になります。
 こちらの環境は、Windows98+IE6.0+鶴亀 Ver.2.62 です。

[ ]
RE:08651 HTML 中の改行の扱いNo.08652
でるもんた さん 03/04/06 18:43
 
こんにちは、でるもんたです。

> つまり本来 HTML では、(その数が幾つであれ) 改行が存在
> する場合、その前後が両方も 2 バイト・コードなら、改行は無視されますが、
> その前後何方か一方でも 1 バイトコードなら、1 つの空白に変換しますが、
> 後者が出来ていません。これはこのままで良いのでしょうか?

問題だと思います。

> <p>
> これ
> は
> 日本語
> の
> 文章
> </p>
> とあった場合、
> これは日本語の文章
> と変換されます。これは全く問題がないのですが。

んと、細かいことをいうと、

これ は 日本語 の 文章

になるのが正当ですね。
全角文字だけ特別扱いする規定は公式の規格にはありません。
IE の挙動は規格よりも実状を重視した結果です。

#というか、「全角文字」の定義自体曖昧。ギリシャ文字は日本の環境では
#全角文字ですが、ギリシャ語の環境では ASCII と同じ 1 バイト文字です。

[ ]
RE:08652 HTML 中の改行の扱いNo.08653
ひろ さん 03/04/07 12:40
 
 でるもんたさん今日は、ひろです。
> んと、細かいことをいうと、
>
> これ は 日本語 の 文章
>
> になるのが正当ですね。
> 全角文字だけ特別扱いする規定は公式の規格にはありません。
> IE の挙動は規格よりも実状を重視した結果です。
 確かにその通りですが、この処理は I.E に限らず多くのブラウザで行われ
る処理ですし、また合理的な仕様でもあるので、これはこれで良いと思います。

 ただ鶴亀に限っての話なら、規格上間違っているわけでもないので、どの場
合も全て空白に変換する仕様でも良いかもしれませんね。ただそうすると、
<p>
これ<!--
-->は
日本語<!--
-->の
文章
</p>
はどうするの? といわれそうです(^^)。しかしこれだけ厳密に見ても仕方がな
いので、もしどの様な場合も空白に変換するなら、
これ は 日本語 の 文章
で良いと思っています。

 以下雑談
> #というか、「全角文字」の定義自体曖昧。ギリシャ文字は日本の環境では
> #全角文字ですが、ギリシャ語の環境では ASCII と同じ 1 バイト文字です。
 ギリシャ文字ならただ単に、Symbol フォントを使っているかもしれません
し、&Alpha; を使っていてもどの言語として表示しているかでも変わりますよ
ね。何方しても私の書いた全角文字とは、CJK 文字のことです。

[ ]
RE:08653 HTML 中の改行の扱いNo.08656
秀まるお さん 03/04/07 17:57
 
 HTMLメールに深入りしてたらきりがないので、今回の話も対応しないことにし
ます。

 他にもいろいろやるべき仕事が溜まってます。

[ ]
RE:08656 HTML 中の改行の扱いNo.08659
ひろ さん 03/04/07 18:30
 
 秀まるおさん今日は、ひろです。
>  HTMLメールに深入りしてたらきりがないので、今回の話も対応しないことにし
> ます。
 そうですか。
> しかし 1 バイト・コードの HTML メールを受け取り、なおかつ添付
> ファイルを削除する設定にしていると、全く意味不明なメールになることが有
> る
ということが気にはなりますが、解りました。

[ ]