■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 最新50

サイズが 480KB を超えています。500KB を超えると書きこめなくなるよ。

メモ3

1 :名無しさん@勉強中 ★ : 07/08/04 06:09:43 ID:???
またまた思いついた事など


646 :名無しさん@停滞中 ★ : 08/05/03 19:19:40 ID:???
業務連絡(カッケー!)

http://www.value-domain.com/svip.php?action=all

によると
k2.xrea.comのIPアドレスは
「210.196.176.182」固定みたいです

ところで
mirror.k2.xrea.comみたいなサブドメインの場合って
IPアドレス表示させるにはどうすればいいのでしょうか。
以前、dumper.jpさんのところがなかなか繋がらないのでIPアドレス表示させようとしたですが
2ch.dumper.jpみたいなサブドメインだったので
どうやればいいのか全然わかんなかったまま今に至るんですが。


647 :名無しさん@停滞中 ★ : 08/05/03 20:01:07 ID:???
>>637続き
結果表示の順番試案

・べっかんこ(その26)
・みみずん(その6・その7・その7a)
・nikaさんの所(その20)
・23ch.info(その31)
・2ch-i(その28)
・讃岐メニュー(その24)
・暇つぶし2ch(その27)
・2ch_cache(その39)
・デスクトップ2ch(その23)


今のところこのくらいでどうかなと。
携帯用ページを用意しておられる所・ミラーが多い所を並べただけですが。
ただ あまりこういう事書いても何ですが
大抵はべっかんこで事足りるような感じがするです。

もっともらしい噂によると
ひろゆきさん べっかんこに対してダメ出しされてるそうで。
URLも何もかも違いますし(2ch.netではない)
そこの広告はひろゆきさんとは無関係とかで以下略
いやようわからんだけなんですけど


648 :名無しさん@停滞中 ★ : 08/05/04 15:51:05 ID:???
くだすれPython(超初心者用)
http://pc11.2ch.net/test/read.cgi/tech/1207878910/139
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
139 ★返答 名前:デフォルトの名無しさん[sage] 投稿日:2008/05/03(土) 20:43:48

>>138
Mac板で聞けばいいんじゃね?

なんでMacを持ってない(使える環境がない)人が
検証を必要としてるのか興味あるけどね。
「問題なくできましたよ」ってレスがあれば、それを信じちゃうわけ?
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−


胸がドキドキしちゃった。
これって恋?



とりあえず自分が書いた事を読み直してみましたが
139さんの「なんで〜」の件については過不足なく書いてあると思うんですが。
読解力が足りないなー。

あと何でこのスレッドで訊いたかというと
直前に
http://pc11.2ch.net/test/read.cgi/tech/1207878910/130-132n
のやりとりがあったからで。

にしても世界が狭いなー。
pythonってクロスOS言語の筈ですよね。 (だから覚えようとしてる訳で>自分)
Mac環境がないならスルーすりゃいいのに。

まあこの方がMac使いな可能性もありますが
そういう人は「Mac板で聞けばいいんじゃね?」なんて書かないでしょうし
もしそれでそういう事書いていたら実に何とも意地が悪い。

いやーこれどうするかなー。
あとレス140は自分じゃないです



そういえば、2ch-iさんのhtmlをdat化させようとした時も
最初は実に面倒なやり方しか思いつかなかったんですが
今ではまあ何とかなってますし
同様に何とかなるんじゃないかと。

http://www.geocities.jp/mirrorhenkan/2ch-i/

スクロールした下のほうに最初のやり方が残ってますが
今見ても何だかめんどくさい。
あと 新旧どちらのスクリプトもwshなので
windows限定なのが 何だかなあという感じですな


649 :名無しさん@停滞中 ★ : 08/05/04 16:37:10 ID:???
http://mirror.takatyan.info/test/read.cgi/title_search_bbs/1208011907/76

とあるサイトさんとしては
「ごめんよメンフラハップ」(古)というしかないです
ごめんなさい

という事でたった今
文字を変えてみたです
これで「読めないdat」「仲間由紀恵」「熟女」「援交」等を含むスレッドが一掃されるのではないかと
しかし熟女とか一体

・・・って もう一掃されかかってる
早い


650 :名無しさん@停滞中 ★ : 08/05/04 19:51:17 ID:???
粛々と>>647実装(カッケー!)
他もまあおいおいと



ところで

Peaceful japonica - プログラム
http://www.heiwaboke.net/PHP/

ここ↑の「うんかむ」って404なのでしょうか。
http://www.heiwaboke.net/m/unkam.php


651 :名無しさん@停滞中 ★ : 08/05/04 20:00:35 ID:???
ところでスレ違いという事はないですが(自分で言ってどうする)
「暇つぶし何其」って実にいいですね。
他の方のブックマーク(というかチェックスレ)をあれこれ見れたり
熱いスレ一覧とかあったり。

暇つぶしwikipediaや暇つぶし青空文庫もすごいです
色々小説とか読んでみたりして


652 :名無しさん@停滞中 ★ : 08/05/05 15:05:23 ID:???
携帯で色々見てみましたが(コピペとか面倒ですが仕方ない^^;)
みみずんさんの所がすっげー爆速だもんで
すごくストレスレスですね。

で、色々見ていて思ったのは
携帯用dat2htmlをもう少し改良したいかなと。

とりあえず3つくらい

(1)レスアンカーからジャンプしたい
(2)AASをちゃんと使えるように
(3)文章コピペ出来るように「写」の項目があれば


まだあるかな
どれもこれも 頭を絞れば何とかなりそうな感じがするです


653 :名無しさん@停滞中 ★ : 08/05/05 17:41:43 ID:???
質問?ボコボコにしてやんよ!
http://bokoboko.dip.jp/bokoboko/

以前見た時は 他にやりたい事があるので閉鎖します とあったのですが
再開しておられるですか
クロールして現在進行中ですか
日付や時間を見るとついさっきのとかありますし

質問?ボコボコにしてやんよ! 15歳の時に子供産んだけど何か質問ある?
http://bokoboko.dip.jp/bokoboko/index.py/1209965985

てかリンクを見ると
何だかパワーアップしとるです

ブログ執筆中
http://d.hatena.ne.jp/tomity/
大学・大学院研究室検索のラボナビ
http://labnavi.sytes.net/
ラボナビ開発日記
http://d.hatena.ne.jp/lab_navi/


いやーpythonで構築したサイトの実例だなー
すごいや


654 :名無しさん@停滞中 ★ : 08/05/06 09:50:07 ID:???
メモ

WisdomSoft
http://www.wisdomsoft.jp/

知らない事が多過ぎて、これからの人生わくわくするぜ。


655 :名無しさん@停滞中 ★ : 08/05/06 12:01:24 ID:???
技術資料も分かり易い感じがしますし
論文フォルダの下記とか面白かったー。

未来が創られた時
http://wisdom.sakura.ne.jp/essay/pioneer/index.html


写真の有無によって全然印象が変わりますね。
偉人伝.com↓もプロフィール画像があったらいいなと

コンピュータ偉人伝 ちえの和WEBページ
http://www.ijinden.com/index.html


656 :名無しさん@停滞中 ★ : 08/05/06 13:17:12 ID:???
2ちゃんエディタ
http://edit.2chmap.com/


これですが

http://edit.2chmap.com/read/yutori.2ch.net/news4vip/1210004050.dat/1

http://yutori.2ch.net/test/read.cgi/news4vip/1210004050/l50

がdat落ちしても閲覧出来ていたら
どんなにか嬉しい事でしょうか


657 :名無しさん@停滞中 ★ : 08/05/06 16:09:53 ID:???
閲覧可能ですね。

では追加させて下さい
「その40」という事で


ここですが、トップの下部を見てみると

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
追加予定機能

・過去ログ
過去ログの表示対応
・携帯対応
携帯からも閲覧できるようにする
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−


との事なので
dat落ち後も保存して下さったら嬉しいです。


dat化は次レスにて(まだ完全ではないですが)


658 :名無しさん@停滞中 ★ : 08/05/06 16:23:10 ID:???
メモ
2ちゃんエディタ(http://edit.2chmap.com/)のdat化について

URL例
http://edit.2chmap.com/read/yutori.2ch.net/news4vip/1210004050.dat/1
http://mirror.sarashi.com/htmltodat/1210004050.html

正規表現
m#<dt><a.+?>([0-9]+)</a> ()<b.+?>(.+?)</b> 投稿日:(.+?)</dt><dd>(.+?)<br><br></dd>(<dt>|</dl>)#mik

前処理
s#(<title>)2ちゃんエディタ \[(.+?)\](</title>)#$1$2$3#ik
s#( 投稿日:.+?ID:)<a.+?>(.+?)</a>(</dt>)#$1$2$3#igk
s#<a.+?>((?:&gt;)?&gt;\d+)</a>#$1#igk
s#\n(?:ref|pop).+?(\n)#$1#igk


前処理の3つ目の「&」は半角にして下さいです


終了後に「一行が長すぎるか〜」エラーが出ますが、これでいちおうdat化出来るかと。
エラーがなかなか消えないのでソースを見てみると
全く同じ文章がポップアップ用に出力されているみたいです。
これを省くために前処理の4番目をつけてみたんですが、まだエラーが消えないなぁ・・・。
何でなんだろう。
dat化には問題ないかなとは思いますが。


あとメール欄は元のhtmlの段階から消えているみたいで(生禿さんのところみたいに)
これは我慢するしかないかも。


659 :名無しさん@停滞中 ★ : 08/05/07 20:29:38 ID:???
ちょっと面白かったのでメモ

DCOSHA - Direct Connection for Override System of Hardcopy Archives
http://www4.atpages.jp/mnk/

まあいわゆるdatアップローダなんですが
実にデザインがクールだなと

で、これの元サイトのリンクを辿ってみたら
下のになってたですよ

エロ絵♀
http://haruhix.mad.buttobi.net/


660 :名無しさん@停滞中 ★ : 08/05/07 23:02:28 ID:???
DinoSwiftさんいよいよ上京ですか。

頑張って下さいです


661 :昼休み@名無しさん@停滞中 ★ : 08/05/08 12:52:33 ID:???
サーバPCもお休みになられたみたい



>>659ですが
http://pc11.2ch.net/test/read.cgi/hosting/1193869295/681,685,687
から知ったです

サイトを見れば見るほど
何というか 才能(技術)の無駄遣いだなーと。
いやすごいほめてるんですが。


662 :昼休み@名無しさん@停滞中 ★ : 08/05/10 06:44:57 ID:???
http://popchat.nu/users/mirrorhenkan/7.pop

なことかいてどうしろと
なにかあったらきけんがあぶない
いのちがしんだらどうしてくれる


663 :名無しさん@停滞中 ★ : 08/05/10 16:09:31 ID:???
ログインが必要なWebページをダウンロードするには?
http://homepage1.nifty.com/MADIA/vb/vb_bbs2/200412/200412_04120009.html
XMLhttpにてYahooにログインするには?
http://hpcgi1.nifty.com/MADIA/VBBBS2/wwwlng.cgi?print+200606/06060001.txt
XMLHttpRequestまとめ - Archiva
http://archiva.jp/web/javascript/XNLHttpRequest.html
proxyサーバーを通すインターネット接続をおこなうにな?
http://hpcgi1.nifty.com/MADIA/VBBBS/wwwlng.cgi?print+200511/05110047.txt


664 :名無しさん@停滞中 ★ : 08/05/12 07:57:41 ID:???
各人ニ告グ

掲示板一覧ニ下記二板ガ【ネタ雑談】ニ追加サレタノデ、
閲覧専用機種ヲ使用ノ住人ハ速ヤカニ板一覧更新サレタシ

http://bubble6.2ch.net/dejima/ dejima
http://bubble6.2ch.net/senji/ 戦時




ところでこの二板なんですが
もしかして投稿時に

ひらがな→ローマ字
ひらがな→カタカナ

にそれぞれ変換保存とかしてるんでしょうか。
投稿テストしてみればわかりそうなもんですが。

・・と書いてから見回すと
そんな事はなさそうでした

http://bubble6.2ch.net/test/read.cgi/senji/1210161012/31


665 :名無しさん@停滞中 ★ : 08/05/12 12:10:12 ID:???
戦時板だけでしたか。

試しに書いてみたら


−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

--------------------
書込み中・・・
--------------------
ERROR!
漢字とカタカナしか受け付けていません

ホスト****************************

名前: 名無シサン@ヲ腹イッパイ。
E-mail: sage
内容:
ひらがなではだめですか

★ アクセス規制中でも書ける板たち ★


こちらでリロードしてください。 GO!
アクセス規制・プロキシー制限等規制は、2ちゃんねるビューアを使うと回避できます。自分で解決してみよう! 書き込めない時の早見表
分からないことがあったら2ちゃんねるガイドへ。。。

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−



50音と濁点半濁点促音の変換くらいはサーバ側でやったらいいのになと思ったり。


666 :名無しさん@停滞中 ★ : 08/05/12 12:14:48 ID:???
あと曜日も
月月火水木金金
と表示されるのか・・


667 :名無しさん@停滞中 ★ : 08/05/12 18:19:11 ID:???
メモ

CGI...写メール日記
http://www.kit.hi-ho.ne.jp/t-sonoda/mobdiary/
レッツPHP!
http://php.s3.to/bbs/bbs7.php


668 :名無しさん@停滞中 ★ : 08/05/13 16:44:35 ID:???
業務連絡

http://bubble6.2ch.net/dejima/ dejima

このdejima板なんですが
世界情勢カテゴリに入ったようで。


書き込もうとすると

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
--------------------
書込み中・・・
--------------------
ERROR!
日本語は受け付けていません

ホスト**************************

名前: maji
E-mail: sage
内容:


★ アクセス規制中でも書ける板たち ★


こちらでリロードしてください。 GO!
アクセス規制・プロキシー制限等規制は、2ちゃんねるビューアを使うと回避できます。自分で解決してみよう! 書き込めない時の早見表
分からないことがあったら2ちゃんねるガイドへ。。。

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−



ひらがなカタカナ漢字はいけないんだそうな。
だったらUTF-8にして欲しかったかも。



ところで戦時板ですが
同様の事とか0chですっげー簡単に出来ますね。
更にdatの平仮名をhtml表示時にカタカナにする事とかも
jcode.pl/Jcode.pmのどちらかを使えばあっけなく出来るのでは。
0chを見てみるとmoduleフォルダ内にjcode.plがあるんで
valda.plとgaladriel.plあとread.cgiの該当個所を変えれば良さそう。
例えば下のを参考に


require "./jcode.pl";
$line = "あいうえお\n";
&jcode::tr(\$line, 'あ-ん', 'ア-ン');
print $line;


メモ

jcode.pl official page
http://srekcah.org/jcode/


669 :名無しさん@停滞中 ★ : 08/05/13 20:48:49 ID:???
テナ訳デ
突貫工事デ
ヤッテミタ

戦時@0ch掲示板
http://mirrorhenkan.hp.infoseek.co.jp/senji/cgi-bin/senji/

やっつけなのであちこち適当だもんで
本当は書き込み確認や各種エラーもカタカナ化しようと思ったですが
まあいいやと。

表示をjcode.plでひらがな→カタカナ変換してるだけなので
datにある文章はひらがな混じりになっておるです。
書き込み時にもひらがなをカタカナ化しようかなと思ったですが
まあいいやと。


670 :名無しさん@停滞中 ★ : 08/05/13 21:02:58 ID:???
ところでjcode.plでのひらがな→カタカナ変換なんですが
呈示されていたサンプル

&jcode::tr(\$line, 'あ-ん', 'ア-ン');

これだと、例えば

「あなたのおじい様の戦争体験を教えて」



「アンンンンンん様ン戦争体験ン教んん」

と変換されてしまったです。

あちこち検索してみたですけど、どうやったらいいのかわからない。
仕方なく

&jcode::tr(\$line, 'あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをんがぎぐげござじずぜぞだぢづでどばびぶべぼぱぴぷぺぽぁぃぅぇぉゃゅょっ',
'アイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲンガギグゲゴザジズゼゾダヂヅデドバビブベボパピプペポァィゥェォャュョッ');

とやったです(長すぎるので改行してます)
意味ないなー。


「A-Za-z」みたいには出来ないんでしょうか。
そんな事はないと思うんですが・・・。


671 :名無しさん@停滞中 ★ : 08/05/14 12:41:12 ID:???
>>670の件
たぶんこれが原因なのかも

jcode.pl の私的な解説書
http://mikeneko.creator.club.ne.jp/~lab/kcode/jcode.html#h2-10
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
「-」による範囲指定は、$line の文字コード及びスクリプト自身が、JIS か EUC でなければなりません。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−


変換しようとしている文字コードがShift_Jisだからなのであろうか。
もしこれがビンゴだとしたらまあお恥ずかしい事で。


で、もし更にあきらめずにこの方法でやるとしたら
下のが参考になるかも。

http://usamimi.info/~mirrorhenkan/2ch/perl/php/read.php/1022731565/196-204n
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
'ァ-ン', 'ぁ-ん'をEUC-JPの文字コードで書けばいいんじゃない?
&jcode'tr(*s, "\xHH\xHH-\xHH\xHH", "\xHH\xHH-\xHH\xHH");
HHのとこは16進の文字コードで。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

ただし、199でやっておられるように
いったんShift_JisをEUCまたはJISに変換してからやんないといけないみたいなんで

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
&jcode'sjis2euc(*ss);
&jcode'tr(*s, "\xHH\xHH-\xHH\xHH", "\xHH\xHH-\xHH\xHH");
&jcode'euc2sjis(*ss);
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

というようにせねばならぬようで。
結局>>670で自分的にはよさそうだ。


672 :名無しさん@停滞中 ★ : 08/05/14 20:00:16 ID:???
さて

拡張子binのMacバイナリアーカイブを解凍して中のテキストを見たいのだが、
Aladdin Expanderがレジストリや関連づけをいじるみたいで。 
少なくともzipの関連付けをこのソフトに変えるみたいですし
Macでのzipはこれまたwinとは様相がかなり違う予感。
そういえばMacバイナリの2バイトゴミを除去するソフトとかあったっけなと



という訳で
マカーはいねがー!? 
DL解凍してwinでも開けるような形式にして頂けたら嬉しいのです(私が)


ちなみにファイルは
http://www.vector.co.jp/soft/mac/writing/se036415.html
であり
決して怪しいものではありません。


673 :名無しさん@停滞中 ★ : 08/05/14 20:21:35 ID:???
メモ

丸谷君の遺言
http://hp.vector.co.jp/authors/VA005156/
むだじゃ、むだじゃ
http://hp.vector.co.jp/authors/VA022533/
「正(旧)仮名遣ひ⇔現代(新)仮名遣い」相互変換〜まるやるま君
http://hp.vector.co.jp/authors/VA022533/tate/komono/Maruyaruma.html#pos
misima 旧仮名遣い・旧字変換支援
http://yasuda.homeip.net/misima/misima.html
みんなの知識【ちょっと便利帳】 - 旧字体(旧漢字)と新字体(新漢字)の相互変換
http://www.benricho.org/moji_conv/13.html
はてなブックマーク - 男だってバラが好き: 旧字体、正字変換用データ
http://b.hatena.ne.jp/entry/3591857
はてなブックマーク - FeZn/Sinfonia / 旧字体変換
http://b.hatena.ne.jp/FeZn/%E6%97%A7%E5%AD%97%E4%BD%93%E5%A4%89%E6%8F%9B/
漢字ピンイン変換
http://www.lib.hit-u.ac.jp/~ono/pinyin.html
Text Converter drpl
http://www.yk.rim.or.jp/~tomoto/archives/drpl/



>>672ですが、作者さんのブログが現役なので
作者さんにお願いするという方法もありますが
もんのすんごい勇気と努力と精神力が必要になるです
ぐああ

帝國ニュウス電信
http://ameblo.jp/bap


674 :名無しさん@停滞中 ★ : 08/05/14 20:35:44 ID:???
因に何を遣り度いのかと言ふと
0chで舊假名遣ひ及び正字體變換するやうな物が出來たら面白いなと云ふ事で。
原理的には繪文字變換とさう變はらないんぢやないかなと。

勿論、正確にやらうとすると
形態素解析やマルコフ連鎖のやうな頭痛が痛くなるやうな勉強が必要でせうけど、
まあ其処まではハハハ。



てかさう云ふのも面白いぢやないですか。
下のとか讀ませて戴くといやー實に興味深い。

phaのニート日記
http://d.hatena.ne.jp/pha/


675 :名無しさん@停滞中 ★ : 08/05/14 21:18:24 ID:???
日本語の改革
http://www.geocities.jp/kokuminbunka_3776/japanese.html


676 :名無しさん@停滞中 ★ : 08/05/15 18:29:00 ID:???
取り敢へずやつてみましたがどうでせうか。
途中經過

ttp://mirrorhenkan.hp.infoseek.co.jp/meiji/cgi-bin/test/read.cgi/meiji/1025000169/l50

適當な箇所をピックアップ

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
982 :名無し三等兵:02/11/06 23:32 ID:l/FMz7Y5
親父の爺ちゃんはどこに所屬してゐたか忘れたが滿洲に居たさうだ。日本が壱番景氣の
良い時に行つて惡くなる直前に徴兵滿期で實家に歸つたさうだ。本人は『炊事軍曹』
とか言われてゐたらしい。終戰後、暫くして『また滿洲行きてぇなぁ』とか言つて家蔟全員から
『それは無理だつて』とか突込みを受けた摸樣。詳しくは判らないが滿洲で相當いい思いを
して來たと思われる。自分が小學棲の時に屍んでしまつたが。
母方の祖父は終戰時暢嵜の近くの工場で竹と木で出來た蜚行機を作つてゐて『これじゃ日本は
負けるな』と思つたさうだ。暢嵜の原爆のきのこ雲も目撃して、後片附けにもいつたさうだ。
此方も既に鬼籍にはいつてしまつてゐるが。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

「長嵜」(新字で云ふと「長崎」)が「暢嵜」と誤變換されてゐますが
其れ以外は結構上手くいつてるんぢやないかなと

只、やつてみて思つたですが
矢張り單なる置き換えだけでは限界がありますね。
前後の女子もとい助詞及び副詞の各活用形もですし
變格活用即ちサ變ラ變等の特殊型も考慮せねばならぬ。
いやー面白いなーワクワクするぜ。


さう言へば 主觀的時間が實に緩やかに流れてゐた頃に百人一首を覺えたものでしたが
お陰で古文の文法は適當にやつて何とか成つたもんだつたつけなと。
此れでは如何と理詰めで覺えていつたら泥沼状態のチンプンカンプンになつちやつて
現在に至るんですが。



百人一首の中でも特に好きな歌。
情景が浮かんでくるやうに思ひませんか?

君が爲春の野に出て若菜摘む我が衣手に雪は降りつつ


677 :名無しさん@停滞中 ★ : 08/05/15 18:50:20 ID:???
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
504 :名無し三等兵:02/08/25 00:33 ID:Kzrj+qr/
母方のじいさんは、中國で戰つてゐたらしい。
あまりよく話は聞けなかつたけど、砲兵部隊にゐたらしく
そのせいで難聽になつたさうだ。
空襲に來た敵機を塹壕から野戰砲(砲兵に野戰砲つて、正しいのかは分かりません。ご容赦ください)
で偶然にも撃ち落としたら、次の日から倍以上の敵機が襲つてきたらしい。
あるときマラリアにかかつて、軍醫にも抛つて置かれたが軍醫のところまで這つて行つて
必屍で頼んで治療してもらつた。
しかし、そのおかげで最前綫で戰わなくてすんで棲きて歸つてこられた。
復員してきても、戰場での經驗はトラウマになつたらしく、漏れが中學になつた頃でも夜中にうなされて
叫んで蜚び起きることがあつたさうだ。
そのじいさんも、漏れが嵩3の時に亡くなつた。
亡くなる前に病院のベッドの上で、もう意識が無いのに苦しそうなうめき聲をあげたことがあつた。
よっぽど苦しいことだつたんだと、改めて思つた。
じいさん、安らかに。ばあさんも、暢棲きしてな。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−


どうも「長生き」の變換が變ですね。「暢棲き」になってら。

長→暢(チョウ)
生→棲(セイ)

と機械的に變換されてるみたいです。
>>673のJavaScriptを參考にして判る範圍でperlに入れてみたんですが
前後關係で元に戻してゐる箇所のうちの一つが此れみたい。


然し何と云ふか歴史的假名遣ひつて臨場感があるやうに思ふですが
自分だけでせうか。

暫くかう云ふ文章で書いてみますかね。
其の内飽きるでせうけど。


678 :名無しさん@停滞中 ★ : 08/05/15 19:14:17 ID:???
接続元別アクセス1日統計
http://123.225.123.197/accessIP.htm

どうも自分と此の携帶用dat2html經由で
750アクセス191メガバイトの轉送量があるみたいで
何だか御免なさい

みみずんさんの所とかもつとあるんでせうけど
一體どれくらゐなのでせうか。
てか 携帶用ページが一刻も速く公開されるのを
金麥冷やして待つてる


679 :名無しさん@勉強中 : 08/05/15 23:36:25 ID:SFRx6ZXl
>672のものを解凍して、Mac以外では不要なリソースフォークを削除して、
lhaで圧縮したものをご用意しました。
ご入り用でしたら返信願います。


680 :名無しさん@停滞中 ★ : 08/05/16 07:21:12 ID:???
おはようございます
出掛けに取り急ぎ

>>679さん
おお!ありがとうございます!
是非お願い致します。


681 :名無しさん@停滞中 ★ : 08/05/16 12:21:49 ID:???
メモ

歴史的仮名遣ひ教室
http://www32.ocn.ne.jp/~gaido/kana/index.htm
正字正假名遣ひの爲のリンク集(一覽)
http://www.hat.hi-ho.ne.jp/funaoto/link/link.html


682 :名無しさん@停滞中 ★ : 08/05/16 16:24:10 ID:???
下の記事を見てみると
MacOS Xっていいじゃないですか。

プログラマーを引き付けるMac OS Xの魅力 − @IT
http://www.atmarkit.co.jp/flinux/special/mac/macosxa.html


683 :名無しさん@停滞中 ★ : 08/05/16 18:36:26 ID:???
いろいろ見ていると
間違った仮名遣いを使っているかもと不安になりますね。

旧仮名づかひでレスしたまへ。
http://academy6.2ch.net/test/read.cgi/kobun/1015845434/
★★★★舊字、舊假名遣ひで話すスレッド 四箇目
http://academy4.2ch.net/test/read.cgi/gengo/1092597931/


ところで「舊」で検索したら
makimo.toさんの所では幾つか出るのですが

29ch - 【検索】キーワード「舊」を探しました
http://makimo.to:8000/cgi-bin/search/search.cgi?q=%E4p&andor=AND&sf=2&H=&view=table&all=on&shw=

takatyanさんの所では一つも出てこないです
何でなんでしょう

2ちゃんねる過去ログスレタイ検索
http://mirror.takatyan.info/title_search/title_search.cgi?query=%E4p&query_host=&query_board=&res_min=0&res_max=0&key_min=0&key_max=0&sort=score&hana=mogera


684 :名無しさん@勉強中 : 08/05/16 19:02:20 ID:KLZgAJj8
>>683
それは検索処理方法によるものです。
確かに、完全一致検索では0件、との結果が得られます。

それは、「舊」なる単語を含むスレッドは確かに一つもないためです。
「舊字」を完全一致検索で検索をするといくつか出てきますが、
これらは「舊」なる単語を含むわけではないので「舊」で検索しても出てきません。

恐らく、単語とか関係なく、ただ「舊」なる文字を含むスレッドを探したかったのでしょうと推測いたします。
そのような場合には部分一致検索をご利用ください。多少お時間を頂戴しますが、お望みの結果となります。

上記のような単語ベースの検索になっているのは、
例えば「京都」で検索したときに「東京都」が出てくる、などという現象を防ぐため、
及び高速化のためです。

・・・検索結果数に応じて自動的に完全・部分一致などを切り替えるようにしたほうがいいかもしれませんね。


685 :名無しさん@停滞中 ★ : 08/05/16 19:53:37 ID:???
>>684
おお、そういう事でしたか。
いつもお世話になっておりますです

という訳で、検索処理方式も選ぶものをつけさせて頂いたです
あとは板名入力ボックスもつけてみるですか

というか
何だかごめんなさい
日々反省の毎日です


686 :名無しさん@勉強中 : 08/05/16 20:42:13 ID:KLZgAJj8
>>685
>>684
> ・・・検索結果数に応じて自動的に完全・部分一致などを切り替えるようにしたほうがいいかもしれませんね。
を実装しておきました。

ですが具体的にどういうときにどう切り替わるのかは良く判りません。
なんとなーく、完全一致で検索して何もないと部分一致に切り替わるとかそういうのだと思います。


687 :名無しさん@勉強中 : 08/05/16 23:03:43 ID:HoF9RAbp
>>678 どうも 123.225.123.197の管理人です

1日 750アクセス程度なら気にする程でもないかと思います。
iriaで自鯖にアタック掛けてみましたが、毎秒10ファイル位は処理
出来たのでまだ余裕かと‥
プロバイダもトラフィック管理とか、ちゃんやっているのか
いまいち‥?なOCNを使っているので大丈夫?だと思います。


688 :679 : 08/05/17 09:46:25 ID:VTJcRomI
>680
下記にアップロードしました。
http://ranobe.com/up/src/up273052.lzh


689 :名無しさん@停滞中 ★ : 08/05/17 17:40:32 ID:???
土曜って何それおいしいのそうよとてもおいしいのよ
土曜って平日ですよね



>>686
追随させて頂きましたです。ついでに板名選択ボックスもつけてみたりして

ところで、検索結果ページのtitleタグに検索ワードが含まれていたら嬉しいかもです
「何の単語で検索したんだっけ」という時がありますし(って自分だけ)
あとタイトルに検索ワードが含まれていたらブラウザの履歴一覧で検索した単語が判りますし。


>>687
どうもです。お気を遣って頂いて感謝です

そういえばみみずんさん
転送量の関係でプロバイダ変更されたそうですね

http://qb5.2ch.net/test/read.cgi/operate/1210140086/322


>>688
ありがとうございます。感謝感謝です
ばっちり解凍閲覧出来ていますです

しかしすごい力技のデータベースだな・・。


690 :名無しさん@勉強中 : 08/05/17 17:53:08 ID:tdaTGfYX
>>689
> ところで、検索結果ページのtitleタグに検索ワードが含まれていたら嬉しいかもです
実装しました


691 :名無しさん@停滞中 ★ : 08/05/17 19:26:39 ID:???
早っ
どうもです




メモ

JavaScript で形態素解析もどき - エブログ
http://ablog.seesaa.net/article/20969848.html
マルコフ連鎖で文章生成(JavaScript) - エブログ
http://ablog.seesaa.net/article/20987336.html
JavaScript で人工無脳 マルコフ連鎖で返答 - エブログ
http://ablog.seesaa.net/article/21513007.html


692 :名無しさん@停滞中 ★ : 08/05/17 20:19:05 ID:???
読めるようにして頂いた>>672のデータを見ているんですが
これ本当にすごいですね。
品詞とか助詞とか何も考えずに
機械的に全置換すれば歴史的仮名遣いになってしまうみたい

ただ、10890種類もの置換文をgスイッチで行うというのは
どう考えてもサーバ負荷が甚大っぽい。
というか 試しに1000個くらいやってみたら
サーバエラーになったです。
500くらいに減らしたらOKになったので、過負荷が原因なんだろうなと。
勿論「表」や「能」みたいなダメ文字はエスケープしてやってみたですが。

てか
ダメ文字って正字に多いですね。






































x
x
\
\


693 :名無しさん@停滞中 ★ : 08/05/17 20:43:37 ID:???
うーむ

漢字変換のほうはなんとかなりそうですが
送り仮名等の変化がどうも。

やはり品詞解析や各活用形を解釈して変換させるほうが
遠回りのように見えて実は近道なのかな


694 :名無しさん@停滞中 ★ : 08/05/18 09:07:00 ID:???
http://academy6.2ch.net/test/read.cgi/kobun/1015845434/66
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
66 名前:名無氏物語[] 投稿日:04/09/29(水) 21:17:35 ID:08QD583M
(オリムピツク板に此のやうなスレがありました)

1 名前:クーベルタン男爵さん 投稿日:04/09/01 00:11
昨日の閉會式にも姿を見せなかつたやうだが。
やはり日本人にはマラソン競技は無理なのだらうか。

21 名前:クーベルタン男爵さん 投稿日:04/09/08 20:26
>>20
朝鮮は今は日本の領土なのですが。。。
ところで、朝鮮には孫基禎君と云ふ將來有望な少年がゐるさうですよ。
聲を掛けてみてはいかがでせう?

32 名前:クーベルタン男爵さん 投稿日:04/09/18 11:28:32
>>31
竹取物語でもあるまひし、人類が月に逝くなどあるものか。
其れより、歐州の戰爭が世界大戰とも云へる様相を呈して來たことで、
1916年に豫定してゐた伯林オリムピツク大會の開催が危ういさうだよ。
金栗にはストツクホルム大會の雪辱を果たして欲しかつたのだが。

33 名前:弐拾六 投稿日:04/09/18 13:11:22
>‎>参拾弐殿
人が月へ往くのと、我が帝都でオリムピツクが開催されるのは、
どちらが先でせうか。

34 名前:クーベルタン男爵さん 投稿日:04/09/20 18:15:16
>>33
あるひは月に行く方が先となるやも知れませぬ。
近ごろ獨逸で發明されたと云ふロケツトは、將來は月への到達も考へてゐるさうです。

それに對して、オリムピツクで日本がメダルを取るのさへ夢物語の現状では、
帝都での開催などあらう筈も無いではありませぬか。
日本が金メダルを1つでも取る時代が來れば別ですが、まず考へられませぬ。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−



URLを書いて下さいです
読みたくても読めませぬ

とりあえずレス1の日付からキーを推測するに
2004/09/01 00:11:00〜2004/09/01 00:11:59の間に立てられたものと思われるので
キーは1093965060〜1093965119のどれかなのかなと。
60回ググるのも悲しいので該当過去ログ倉庫を推定すると
名無し名からオリンピック板であり
日時からhttp://sports7.2ch.net/olympic/kako/o1093/のどれかではなかろうかと。

で、この中には当キーの範囲のスレッドがなさそう。
残念ながらここまでかな


695 :名無しさん@停滞中 ★ : 08/05/21 18:48:54 ID:???
http://2c.ath.cx/memo.htm

追随させて頂きましたです

というか
追随させて頂いた途端にIPが変わったのですか。

http://124.87.104.56/


696 :名無しさん@停滞中 ★ : 08/05/21 19:15:05 ID:???
ところでnikaさんの所が繋がらないとの事でしたが
繋がったので良かったです

そういえばデスクトップ2chさんの所も長い事ダウンしてたですが
復活なさいましたし
makimo.toさんのスレタイ検索が復活した時は狂喜乱舞したっけだなーと

DinoSwiftさんも落ち着いたら再稼働して下さるでしょうし
前途洋々です
未来は明るい
ビバ21世紀


それと
dumper.jpさんの所も
いつか再開なさる事をいつまでも待ってる
googleページランクやはてなブックマークを追加されたり
レスアンカーポップアップやID抽出もつけられた矢先に閲覧出来なくなった感じなので。
例えば下記スレとか

コーラを自分で作りたい - 2ちゃんねるみらー
http://web.archive.org/web/20070107152447/2ch.dumper.jp/0000103506/


697 :名無しさん@停滞中 ★ : 08/05/21 19:24:13 ID:???
ところで見ておられる方で余裕がある方に見て頂きたいのですが

(1)ルクダルさんの所と
(2)2chdat.netさんの所と
(3)dumper.jpさんの所の

webarchiveに残っているURLを集めてみたのですが
URLはそれぞれ下記

(1) http://mirror.sarashi.com/webarchive/ruku.txt
(2) http://mirror.sarashi.com/webarchive/2chpop.txt
(3) http://mirror.sarashi.com/webarchive/dumper.txt

このうち
(1)(2)はURLに元スレッドの9or10桁のキーがあるので元スレの類推が可能なのですが
(3)のdumper.jpさんのミラーではそれが全くわからないです。
>>696のwebarchiveだと開いて「最新」の箇所に
http://web.archive.org/web/20070107152447/http://food6.2ch.net/test/read.cgi/juice/1041091682/
とあるのでやっと判るという程度で。
元スレとの突き合わせをしないとどうにもならない。

1000スレッドくらいあるみたいなんですが
何方かやって頂けないでしょうか。


698 :名無しさん@停滞中 ★ : 08/05/22 19:01:53 ID:???
どうも百度掲示板が中国版2ch状態になっているみたいで。


【2ch】ネタちゃんねる m9( ゚д゚)っ 中国の掲示板の書き込みを訳したら、おまいらそっくりだった
http://2channel2.blog32.fc2.com/blog-entry-55.html
中国の大規模掲示板の書き込みを訳してみた - 大陸浪人のススメ 〜迷宮旅社別館〜
http://blog.goo.ne.jp/dongyingwenren/e/f21f241f0c7d925bd458e70f549f7993



という訳で
例えば下記スレッド等をdat化してみたりしたら面白いかも。

百度_地震?_祝日本救援?平安!都来?
http://tieba.baidu.com/f?kz=379156270

文字コードはgb2312ですがJaneNidaでは非公式にサポートしておられるそうなので
まあ無問題。

問題は、gb2312だとhtmltodat.phpでは認識してくれなさそうな事で。
ちょっと心気を澄ます余裕が無いのでひとまずメモ



CJCODE v1.00
http://bjkoro.net/download/cjcode/
多言語CGIダウンロード
http://bjkoro.net/download/index.php?mode=open&cate=4&no=34
中国語の文字コード
http://ash.jp/code/code_zh.htm


ところで上のcjcode.plなんですが
以前DLして色々試してみたらどうも繁体字変換出来なくてかなりてこずったです。
で、コードを追っていったら
単に作者さん 変数名を間違っておられるだけみたい。

× bgi5 → ○ big5

とか変えてみたら動いたです
サポート掲示板を見ても全然その事が書いてなかったので不思議に思ったっけでした
って記憶を頼りに書いてるので此方が間違っているかもですが。


699 :名無しさん@停滞中 ★ : 08/05/23 18:46:36 ID:???
とりあえずhtmlの村下孝蔵を把握せねば話にならぬ

百度_凉宮春日《分裂》??地点求助??
http://tieba.baidu.com/f?kz=190540976
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
<table width="72%" border="0" bgcolor="#FFFFFF">
<tr>
<td height="17" align="center" width="3%" class="gray">1</td>
<td class="p14" align=left >
<a name="1774431698"></a>

<font color=#0000cc>《分裂》??地点求助?? </font>

</td></tr>
<tr><td></td>
<td align=left width="97%" >
<table class="wr" border="0" cellspacing="0" cellpadding="0"><tr><td class="gray14">

<cc>?...
<br>不??来自何方,只要是?找不到?《分裂》的地点就?迎在此求助。
<br>不??来自何方,只要是知道能?到《分裂》的地点就?迎在此回答。</cc>

</td></tr></table>
</td></tr>
<tr><td height="17"></td><td class="p14"></td></tr>
<tr><td height="17"></td>
<td align=left >作者: <a href="http://passport.baidu.com/?detail&aid=6&default_tab=1&un
=%9B%F6%8Cm%A5%CF%A5%EB%A5%D2%A4%CE%9B%E6" target=_blank> 涼宮ハルヒの涙</
a> <a href="http://hi.baidu.com/suzumiya%5Ftear" target="_blank"><img src="http
://img.baidu.com/passport/space_open.gif" border="0" align="absmiddle"></a>&nbsp;



<font class="gray12"> 2007-4-13 14:04 </font> 
<a href="#sub" class=t onclick="ResetReplyTitle('1','《分裂》??地点求助?? ');">回?此?言</a>  


</td></tr>

<tr><td></td><td><hr align=left width="87%" size=1 >
</td>
</tr></table><a name="#2"></a>
<table width="72%" border="0" bgcolor="#FFFFFF">
<tr>
<td height="17" align="center" width="3%" class="gray">2</td>
<td class="p14" align=left >
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−


一レス一レステーブルタグで閉じてるみたい。


ところで、簡体フォントは??になるので
同じ文章を0chUTF8化の板に貼ろうとしたら「NGワードが含まれてます」と出たですが
キャップ付きでもNGワードが含まれていたら投稿出来ないのかな。


700 :名無しさん@停滞中 ★ : 08/05/23 18:59:25 ID:???
メモ

PHP: html_entity_decode - Manual
http://php.benscom.com/manual/ja/function.html-entity-decode.php
「環境」の検索結果 - 猫(=・ω・=)顔 1.0β
http://d.hatena.ne.jp/nyagao/searchdiary?word=%B4%C4%B6%AD


ところで

Twitterたのしーよ@むたぐち の てづくりぶろぐ
http://winscript.jp/blog/diary.asp?id=5

を拝見したのでtwitterなるものを始めてみたのですが
適当にFollowして頂いても頂かなくても。

http://twitter.com/mirrorhenkan/



で、>>698の件をお聞き(というか独り言)してみたら
nishioさんからpythonでのやり方を教えて頂いたのでとても感激したです
・・・凄い人だな。

http://twitter.com/nishio/


701 :名無しさん@停滞中 ★ : 08/05/24 20:32:09 ID:???
なかなか難しいものだ

encode, decodeのおさらい - ヒトヲノロワバ アナフタツ ニッキ
http://d.hatena.ne.jp/shrkw/20071129/1196353733
Python で日本語を扱う基本をまとめてみるメモ(その2) - 猫(=・ω・=)顔 1.0β
http://d.hatena.ne.jp/nyagao/20070808/1186581885
日/中/韓のためのPython
http://cjkpython.berlios.de/index-ja.html


702 :名無しさん@停滞中 ★ : 08/05/24 20:43:23 ID:???
>>699のdat化用正規表現をやろうと思ったんだけど
なにこの怒濤のようなテーブルタグ・・・

こんがらがり過ぎて手もつけられないです
誰か助けてー


703 :名無しさん@停滞中 ★ : 08/05/25 11:56:12 ID:???
業務連絡
隠し板になるかどうかわかんないけど
こんな板が出来たようで

VIP避難所
http://yutori.2ch.net/news4vip/




■ VIP避難所できました。
http://yutori.2ch.net/test/read.cgi/news4vip/1211443449/

で調べてみてみたら
みみずんさんの所は既にクロールされておられるようで
さすがだ
2ch-i.netも対応されておられるです
すごい
ゴージャス


それはそうと
板名も同じだしサーバも以前のyutoriを使っているとなると
どうすればいいのかな・・・


704 :名無しさん@停滞中 ★ : 08/05/25 12:09:14 ID:???
いちおうJaneで隠し板フォルダに板追加出来たですが
通常のyutoriサーバのnews4vip板の過去スレをサルベージする時には
これどうなるんでしょうか


あとp2todatとかも大変になっちゃうのかなとか

外部コマンド Part5
http://jane.s28.xrea.com/test/read.cgi/bbs/1180559017/515
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
515 名前:Jane使いの名無しさん[sage] 投稿日:2007/09/21(金) 20:31:22 ID:yiiQv+xZ0
>>513
それでした
というかこちらが板名でしか調べてなかったので

http://ex14.vip2ch.com/news4vipニュー速VIP避難所
http://wwwww.2ch.net/news4vipニュー速VIP
これらを同じモノとして認識していたのが原因でした

とりあえず面倒なので暫定処理だけ
http://members.jcom.home.ne.jp/nemu-i-yo/p2todat.zip
これでVIPもちゃんとした場所に保存されます
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−


ただ現状のp2todatって
レガシーOSだと何か追加インストールしなければならないみたいなので
自分は使えないんですが。


705 :昼休み@名無しさん@停滞中 ★ : 08/05/28 12:44:45 ID:???
やりかけメモ

http://modoki.mine.nu/log/read.php/gline/1165245437/

正規表現
m#<dl><dt><a.+?>([0-9]+)</a>: 名前:(?:<a href="mailto:(.+?)">)?<b>(.+?)</b></a> \[.*?\] 投稿日:(.+?)<dd>(.+?)<br><br></dl>#mik

前処理
s#(ID:)<a href="read.php/.+?>(.+?)</a> (?:\(\d+\))?(<dd.*?>)#$1$2<dd>#igk



ちょっと集中出来ないのでやりかけメモ
デバッグは余裕が出来た時に


それにしても、onmouseoverが消してないもんで
htmltodatのプレビュー部分にマウスを動かすとエラーダイアログが頻繁に出るんですが
何とかなりませんかね?


706 :名無しさん@停滞中 ★ : 08/05/29 21:17:53 ID:???
http://society6.2ch.net/test/read.cgi/gline/1165245437/592

ちょっと面倒だったのでずっとやってなかったですが
html化されたURLでの入力変換にもいちおう対応させたつもり

あと「その18a」を追加
そこ知らなかったです


707 :名無しさん@停滞中 ★ : 08/05/31 12:18:39 ID:???
メモ
もどきもどき(http://modoki.mine.nu/)のdat化について

URL例
http://modoki.mine.nu/log/read.php/gline/1165245437/1-9999

正規表現
m#<dl><dt><a.+?>([0-9]+)</a>: 名前:.*?(?:<a href="mailto:(.+?)">)?<b>(.+?)</b>.+? \[.*?\] 投稿日:(.+?)<dd>(.+?)<br><br></dl>#mik

前処理
s#<a href="read.php/.+?>(.+?)</a>(?: \(\d+\))?#$1#igk
s#(ID:)( BE:\d+.+?\(\d+\))(.+?)(<dd>)#$1$3$2$4#igk
s#<a target.+?>-キャッシュ-</a>##igk
s#<a target.+?>(.+?)</a>#$1#igk
s#<i>.+?\n##igk
s#</i></dd>###igk
s#<dd class.+?>##igk
s#<img.+?>##ig


708 :名無しさん@停滞中 ★ : 08/06/01 10:56:24 ID:???
上の前処理中で

s#</i></dd>###igk



s#</i></dd>##igk

の間違いでした。
大勢に影響ありそうな気がしますがとりあえず変換出来てるのかな。

まあ「変換出来ないぞこら」という反応はあっても
うまく変換出来た場合は無反応な場合が多いかなと
勿論「変換出来ましたかっこいい素敵キャー!」みたいな反応があってもいいけど



あと思ったのは
<a href 〜>hoge</a>の形式のタグはhtmltodat側で削除してくれますが
<a target 〜>hoge</a>のほうは自分でやらないといけないみたいですね。
これが可能なら上の前処理も2行減らせるんですが。


709 :名無しさん@停滞中 ★ : 08/06/01 11:02:52 ID:???
DinoSwiftさん復活おめでとうございますありがとうございます
あまり無理なさらずに


ところで最近
http://www.nicovideo.jp/watch/sm2242781
を見たんですが
もしかしてサイトのタイトルは
リリィ・シュシュの「Glide」の一節から取っておられるのかなとか


710 : ◆/vmukiyuzw : 08/06/01 21:00:08 ID:N7t4xUrt
>>708
> s#</i></dd>###igk
変換できるかどうか以前に「セパレータの数がマッチしてません」エラーになるかと思ったのですが
特にエラーにはならないし処理も正常に行われるようですね。
ここはbregexp.dllに丸投げの処理なんで、アルゴリズムを推測するしかないのですが
sコマンドで3つめの#(セパレータ)を見つけた時点でセパレータ終了とみなし
以降はオプションとして解析してるんじゃないですかね。
で「#」なんてオプションは存在しないので無視されてるという状況ではないかと。

> <a href 〜>hoge</a>の形式のタグはhtmltodat側で削除してくれますが
> <a target 〜>hoge</a>のほうは自分でやらないといけないみたいですね。
単純に<a 〜> は全部削除するようにしちゃえばいいのかなあ・・・
今<a href 〜>しか削除してないのは単にそれ以外のものを見かけたことがない
だけの理由なんで。


711 :名無しさん@停滞中 ★ : 08/06/02 19:43:56 ID:???
>>710
> 変換できるかどうか以前に「セパレータの数がマッチしてません」エラーになるかと思ったのですが

自分もそう思ってたので「おっ」と思ったです


> 単純に<a 〜> は全部削除するようにしちゃえばいいのかなあ・・・
> 今<a href 〜>しか削除してないのは単にそれ以外のものを見かけたことがない
> だけの理由なんで。

>>497でも出していますが
最近のsnapshot(てかrep2)のhtmlでは
<a target〜>形式のもの混じりになってるみたいです。
対処して頂ければ嬉しいです。

まあこの場合は今のままでも前処理で対処出来るのですが
現状では対処できない
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038588508/498-499
を思い出して頂けると小躍りしますです。
MegaBBSや苺BBS等のdat化の際にも使えますので。

・・・自分に出来ない事を要望するのは後ろめたいもんです。


712 :名無しさん@停滞中 ★ : 08/06/03 07:29:48 ID:???
メモ

PHPでutf-8へのURLエンコードをする方法について WikipediaやGoogleで使われているURLエンコードはutf-8のようです $keyword ="緑茶"; と変数に入っているとします。 これ.. - 人力検索はてな
http://q.hatena.ne.jp/1196772104
PHP基礎:文字のエンコードを変更する|webnote
http://a-cot.jp/webnote/2007/05/php_2.html
phpのmb_convert_encodingでutf-8からgb2312に変換したいと考えています。 utf-8で書かれたページのフォームから入力し、gb2312で書かれたページに文字を表示したいのです.. - 人力検索はてな
http://q.hatena.ne.jp/1172565776
大猩猩的後花園:PHP中GB2312轉UTF-8的三種方法 - livedoor Blog(ブログ)
http://blog.livedoor.jp/chrisliu/archives/50799724.html

猿頁
http://salv.miscnotes.com/

やっつけ
http://dexi.sytes.net/log/
百度_日本文化?_日本的2CH相当于中国的什??
http://tieba.baidu.com/f?kz=385040063


713 :名無しさん@停滞中 ★ : 08/06/03 19:19:40 ID:???
さて
>>699のhtmlをdat化する正規表現を考えたんですが
前処理がうまく合致しないです

元html
http://tieba.baidu.com/f?kz=190540976
のままだと文字化けが激しいので
とりあえずShift_Jisで保存し直してアップ

http://mirror.sarashi.com/htmltodat/190540976.html

htmltodatで呼び出したら
3行目からbodyタグ直前の404行目あたりまで削除して
下記を実行


正規表現
m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)? .+?<font class="gray12">(.+?)</font>#mik

変換結果式
$4<>$3<>$5<>$2<>


これでいちおうdat化出来るです


714 :名無しさん@停滞中 ★ : 08/06/03 19:29:14 ID:???
正規表現は&nbspが変換表示されてしまっとるです

m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?&nbsp.+?<font class="gray12">(.+?)</font>#mik

↑これなんですが
最初「〜&nbsp;〜」とやったらレス3がマッチしなくて
「〜&nbsp〜」とコロン「;」を消したらマッチしたです
何でだろう
不思議だ





問題は前処理ですが

s#\n(?:<meta|<link|</?style|div|a|\.|</?script).+?\n#\n#ig
s#\n\..+?\n#\n#ig
s#\n .+?\n#\n#ig
s#\n +formname.+?\n#\n#ig
w C:\My Documents\テスト.html

これだけやってC:\My Documentsに生成された「テスト.html」を開いてみても
3行目から404行目までのガラガラが全然消えてない。
いったいどこが悪いのだろう
何でだろう
不思議だ


715 :名無しさん@停滞中 ★ : 08/06/03 20:15:10 ID:???
念のため書いておくと
これ文字化けは承知の上でやっており
正規表現その他が何とか確定したら
htmltodat.phpでdat化させてJaneNidaで読み込んでみようかなと。

スレッド一覧からsubject.txtを生成するスクリプトも何とかなりそうですが
その生成したsubject.txtを該当フォルダに放り込む為には
板一覧で外部コマンドが実行出来るようになれば良いのですが
残念ながらkoreawatcher ◆Nida.eneRAさんのほうでは実装予定は無いそうで。

http://pc11.2ch.net/test/read.cgi/software/1201790889/254



そういえばtatsuさんのdat2html最新版をDLさせて頂いたのですが
内部処理をUTF-8にされたみたいで。
Delphiでは難しいのかな

http://pc11.2ch.net/test/read.cgi/win/1202424797/840


716 : ◆/vmukiyuzw : 08/06/04 19:04:14 ID:mjeajOrF
>>714
例えば

s#\n\..+?\n#\n#ig

ですが、

.p14{font-size:14px;}
.gray{color:#0033cc;}


のような繰り返しを削除したいのだと思いますが、意図に反して
1行目は削除できるけど2行目はできないと思います。
2つめの\nにマッチした時点で正規表現の検索のポインタは次の文字へと
進んでしまうので、2行目にマッチさせようとしてせっかく変換した\nは
読み飛ばされてしまうのです。

これに対処するには「先読み」の機能(?=文字列)を使うといいと思います。
マッチはするけどポインタは進めない、ような感じで処理されます。

s#\n\..+?(?=\n)##ig

だと意図した結果が得られると思います。

# 実をいうと先読み機能はオリジナルのbregexp.dllでは
# サポートされてないのではないかと思っていたのです。ドキュメントにも書いてませんし。
# でもやってみたらたまたまできちゃった、てな次第です


717 :名無しさん@停滞中 ★ : 08/06/04 22:29:15 ID:???
>>716

おお!
すっげー!
変換できたです!
ありがとうございます!

先読み使えるのですか。
先読み記号で指定した部分はマッチするだけで置換する際に削除も何ももされないんですか(って自分で書いてても意味不明ですが)
しかし正規表現は奥が深いです
ミノフスキー粒子が濃すぎて先が見えません





中国繋がりでいうと
今日は天安門事件19周年だそうですが
何かニュースで触れられてるのかな。

てか19年前なのか…


718 :名無しさん@停滞中 ★ : 08/06/05 08:20:06 ID:???
PHPリファレンス−PHP基本構文 > 基本その他 > $_SERVER["QUERY_STRING"]
http://www.yaskey.cside.tv/php/referdb/index.php?mode=detail&KEY=95
$_SERVER["QUERY_STRING"]の仕様について - 教えて!goo
http://oshiete1.goo.ne.jp/qa1060139.html


719 :名無しさん@停滞中 ★ : 08/06/05 12:09:54 ID:???
http://com-nika.osask.jp/test/read.cgi/bbs/1166882974/194
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
[194] nika@管理人★◆nika/si95E : 2008/06/04(水) 19:33:57 ID:TJP3rFKX0
重要なお知らせ

現在このサイトは自宅サーバーで運営されていますが、
今後も継続的に自宅サーバーで運営することが困難になるため、
外部掲示板の保管機能は2008年6月中に終了することになりました。

継続的に利用されている方には申し訳ありませんが、
終了後には基本的にdat落ちしたスレッドは見られなくなりますので
ご了承頂けますよう、お願いいたします。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−



お疲れ様でした。


720 :名無しさん@停滞中 ★ : 08/06/05 19:51:21 ID:???
まあ色々ありますが
そうそう落ち込んでいる余裕もなく

万が一
http://tmp6.2ch.net/test/read.cgi/download/1164164363/269
のように「お前のせいだ」とか言う人が居ても
ただただ困惑するのみで


721 :名無しさん@停滞中 ★ : 08/06/05 20:05:58 ID:???
という事で
ガラガラを取り除いたhtmlを出力出来たかなと

元URL
http://tieba.baidu.com/f?kz=386794671

ガラガラ除去(ソースを御覧あれ)
http://mirror.s206.xrea.com/x/cn/string.php?http://tieba.baidu.com/f?kz=386794671


で、次の問題は
>>714の正規表現にある2バイト文字で。

具体的に書くと

m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?&nbsp.+?<font class="gray12">(.+?)</font>#mik

上の「作者:」という箇所で詰まっているみたい。
文字コードgb2312なのでShift_Jisでの「作者:」とは全く違うのでそりゃマッチしないでしょうねと。

簡体字コード一覧表
http://ash.jp/code/cn/gb2312tbl.htm
を見て照合してみると

作 D7F0
者 D5D0
: A3B0

みたいなので
htmltodat.php中の正規表現中の「作者:」部分を

〜\xD7\xF0\xD5\xD0\xA3\xB0〜

と変えてもマッチしない。

しょうがないので「作者:」直線のタグ「<td align=left>」を使ってhtmltodat風に書くと

m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?<td align=left >.+? (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?&nbsp.+?<font class="gray12">(.+?)</font>#mi

としてやってみたけどマッチしない。
難しいものだ




ちなみにこのスレッドですが
下のエントリーを見て興味が湧いたという訳で。

中国のヲタたちの囁き〜声優編〜 - 大陸浪人のススメ 〜迷宮旅社別館〜
http://blog.goo.ne.jp/dongyingwenren/e/cd06d43c4755f8a377cbf98a39a1721d


722 :名無しさん@停滞中 ★ : 08/06/05 21:41:51 ID:???
やりかけ

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=386794671

22レスあるスレッドなのに20行しかないのは何故なのだ

$1の連続関係を調べるとレス20と21が抜けてるみたいなのだが
今日はここまで
私の頭脳CPUの限界を越えてるようです



ソースを出しときますので
識者の方 見ておられたら原因を究明して頂きたく。
スクリプトの文字コードがShift_Jisだったりコメントを変えてなかったりと
突っ込みどころ満載ですが。

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.phps


723 :名無しさん@停滞中 ★ : 08/06/06 19:16:30 ID:???
ああ余裕ない

>>722の件ですが
今見てみたら該当レス二つ
透明あぼーんされてるだけでした
ハハハ
どうしよう
あと
レス2の画像URLも本文に入れるように
前処理考えるだなー

いちおうJaneNidaで外部板を設けて
文字コードgb2312で設定して
datを該当フォルダに放り込んで読み込んだら
文字化けせずに読めたです
ばんざーいい


それと

http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038588508/544

小躍りしてます
ありがとうございました

ああそれにしても余裕ない


724 :あぼーん : あぼーん
あぼーん


725 :あぼーん : あぼーん
あぼーん


726 :名無しさん@停滞中 ★ : 08/06/07 07:53:21 ID:???
おはようございます
朝からずっこけました
大いに笑かせて頂きました
今日は楽しい一日になりそうです


実際のところ自分はというと
あちこち見てるばかりであまり書き込んだりしませんなー。
というか 見てるだけで精いっぱいお腹いっぱい僕乾杯


727 :名無しさん@停滞中 ★ : 08/06/07 18:16:58 ID:???
>>725のほうは消さなくても良かったかも。
なんの事やらまぢわかんないとなってるかもだけど
大した事ないです

というか、JaneNidaだと
ツール→設定→書き込みで
「誤爆警告」「コテハン警告」「Beログイン警告」
のチェック欄があるのですが
他の派生Janeではどうなのでしょう。
ありそうなものですが。


ところでJaneNidaなのですが
スレッド一覧で外部コマンドを使用可能にして下さって
大いに活用させて頂いているです
すごいです

左ペインの板一覧でも外部コマンド使えるようになったら
更に選択肢が拡がるのですが。


728 :名無しさん@停滞中 ★ : 08/06/07 18:24:50 ID:???
ところで
nikaさんの所をwebarchiveで検索してみたら
9938ページ保存されてるみたいです

Internet Archive Wayback Machine
http://web.archive.org/web/*sr_1nr_9938/http://com-nika.osask.jp/*

k1とボクシング板が多い・・

htmlばかりでなく
http://web.archive.org/web/20070322190441/com-nika.osask.jp/bbs/bbs.php?http://ex9.2ch.net/test/read.cgi/k1/1099631963/
datもあるのですか
http://web.archive.org/web/20070322133640/com-nika.osask.jp/wom/dat/1130303803.dat


このhtmlも
dat化用正規表現を考えといたほうがいいのかな


729 :名無しさん@停滞中 ★ : 08/06/08 19:50:54 ID:???
htmltodat.phpでも透明あぼーんを補うようなコードを追記してみたです

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=386794671


次は添付画像のURLを本文に含めるようにしたいなと。

具体的に書くと

http://tieba.baidu.com/f?kz=386794671

のレス2・15・17にある画像URLを本文に含めるように出来ればいちおう完成ですが
これがなかなかマッチしない。
Shift_Jis化してアップし直したものが下記で
正規表現その他は>>713-714で出来るです

http://mirror.sarashi.com/htmltodat/386794671.html

ただ本文は<cc>〜</cc>中にあるんですが画像URLはその中にはなく
直後に

<cc>〜</cc>
</td></tr></table>
</td></tr>
<tr><td height="17"></td><td class="p14">?子相??片: <br><img src=
"http://hiphotos.baidu.com/%CF%E0%C0%C7%D7%DA%BD%E9/pic/item/05592bf09cab92d07931aaa3.jpg"
border="0" onerror="checkErrorImage(this)"></td></tr>
<tr><td height="17"></td>
<td align=left >作者: 121.32.233.* 

となっておるです
これを</cc>直前にする為に
前処理で

s#(</cc>).+?(?:<img src="(.+?)".+?>)?.+?(<td align=left >)#$2<br>$1 $3#ig

とかやっても全然マッチせず。
改行コードをまたいだりしてるのとかも問題なのかな。


730 :名無しさん@停滞中 ★ : 08/06/09 20:15:50 ID:???
御冥福をお祈りします


関連で

百度_日本文化_秋叶原で通り魔 白昼の惨劇【組図・転載】
http://tieba.baidu.com/f?kz=403408591

をdat化して読み込みたいんですが
やはり添付画像を本文に含めるやり方がうまくいかぬ

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=403408591


御冥福をお祈りします


731 :名無しさん@停滞中 ★ : 08/06/10 20:30:08 ID:???
メモ

「日中文化交流」と書いてオタ活動と読む:ニコニコ動画のパクリと言われる「AcFun.cn 天下漫友是一家」について - livedoor Blog(ブログ)
http://blog.livedoor.jp/kashikou/archives/51145664.html#comments
阿?海姆株式会社
http://hi.baidu.com/tentamashi
大陸浪人のススメ 〜迷宮旅社別館〜
http://blog.goo.ne.jp/dongyingwenren
繁体字→簡体字変換
http://www.tulips.tsukuba.ac.jp/misc/export/cat/hankan/
AOL Q&A広場 中国語簡体字 ←→ 中国語繁体字 変換
http://aol.okwave.jp/qa2976707.html
漢字変換道具 [JavaScript版]
http://homepage3.nifty.com/jgrammar/ja/tools/tradkan0.htm
Wikipedia:?繁一多??校?表 - Wikipedia
http://zh.wikipedia.org/wiki/Wikipedia:%E7%AE%80%E7%B9%81%E4%B8%80%E5%A4%9A%E5%AF%B9%E5%BA%94%E6%A0%A1%E9%AA%8C%E8%A1%A8
hao123网址之家--在?繁体字??
http://www.hao123.com/haoserver/jianfanzh.htm


文字化け何とかならないものか。
0ch掲示板のUTF-8化スクリプトのほうを使えばそりゃ化けなくなるけど
専用ブラウザで文字化けする人ばかりだろうし
って 専用ブラウザでここ見てる人 どれくらい居るのかな


732 :名無しさん@停滞中 ★ : 08/06/10 20:57:52 ID:???
中国語と日本語の対応表 -OKWave
http://okwave.jp/qa1732315.html?ans_count_asc=20
とある研究者の余録: 繁体字変換は便利だけど
http://voyage-log.seesaa.net/article/62271244.html#more
Chinese Core Simplified Chars
http://xahlee.org/lojban/simplified_chars.html
インクジェットプリンターのKGK紀州技研工業|豆知識_文字コードの話/簡体字の世界
http://www.kishugiken.co.jp/cn/code10.html
インクジェットプリンターのKGK紀州技研工業|豆知識_文字コードの話/簡体字対照リスト(あいうえお順)
http://www.kishugiken.co.jp/cn/code10c.html
中文−広東語対応表(基本編) - Thank you for the music
http://blog.goo.ne.jp/ico3/e/23780e9b4cb8286bbf7b2a230f70e765


733 :名無しさん@停滞中 ★ : 08/06/11 21:35:45 ID:???
【かちゅ】2chブラウザ「Katju88」Part10【クローン】
http://pc11.2ch.net/test/read.cgi/software/1140337471/l50

170さんすげー!
しかもレス175でこんな事↓書いてるのにすげー!

> 自分はC++歴はそれなりにあるんだけど、Delphiはまったく知らないし。
> いきなり挫折・・・



有形無形問わず、実際に物を作っている人って
すごい謙虚で研究熱心で探求心豊かで
新しい時代の流れに呑み込まれず
確かな目つきと落ち着いた判断を備えていて
さもない質問にも真摯に対応される紳士なのだなーと。

さらにいろいろ書こうかなと思ったら
そうかこれこそまさしく
「実るほど頭を垂れる稲穂かな」
だなーと。
その態度見習わなきゃです


734 :名無しさん@停滞中 ★ : 08/06/12 21:33:56 ID:???
>>729の件
やっとマッチしたです

URL例
http://mirror.sarashi.com/htmltodat/386794671.html

正規表現
m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)? .+?<font class="gray12">(.+?)</font>#mik

前処理
s#\r##ig
s#\n##ig
s#(</cc>)</td></tr></table></td></tr><tr><td height="17"></td><td class="p14">[^<]+?<br><im
g src="(.+?)".+?></td></tr><tr><td height="17"></td>#<br><br>$2$1#ig

変換結果式
$4<>$3<>$5<>$2<>



ポイント(つか悩みどころ)は二つ。


(1) 複数行にまたがる箇所を置換する為には
  いったん改行コードを全削除する必要があるみたい


(2) 前処理の3番目は最初

  〜<td class="p14">.+?<br>〜

  としたら何故か最大マッチ(?)してしまっていたので
  やむなく

 〜<td class="p14">[^<]+?<br>〜

 としたら上手くいったみたい



突っ込み所多数あるでしょうけど
これで百度掲示板の添付画像URLを本文に含められそうです


735 : ◆/vmukiyuzw : 08/06/13 01:40:02 ID:u/UqlNCi
正規表現の.(ドット)は「改行を除く」一文字にマッチということらしいので
無理やりかもしれませんが(?:.|\n)とか使うと多少シンプルにできるかも・・・
試してないのでわかりませんけど。(\rもいるかも)


736 :名無しさん@停滞中 ★ : 08/06/13 20:37:32 ID:???
という事でやってみたです

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=386794671


JaneNidaの該当フォルダにこのdatを入れて読み込んでみると
画像ビューアや外部コマンド翻訳もうまくいってるみたい

http://mirror.sarashi.com/img/janebaidu.png

という事で
次は一覧のsubject.txt化ですか


>>735
> 正規表現の.(ドット)は「改行を除く」一文字にマッチということらしいので

そうだったのかー!!
ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
あったらいいなーという要望とか思ったんですがどうでしょうか。


737 : ◆/vmukiyuzw : 08/06/13 21:33:02 ID:cARXftE6
>>736
> ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
> あったらいいなーという要望とか思ったんですがどうでしょうか。

メニューhtmlてのが何のことを言ってるのかよくわからないですが
subback.htmlからsubject.txtを作るのは前処理で容易にできる気がします


738 :名無しさん@停滞中 ★ : 08/06/14 12:44:26 ID:???
>>737
えーと、言葉が足りませんでしたが

> subback.htmlからsubject.txtを作るのは前処理で容易にできる気がします

いちおう出来るには出来ますが
ヘッダとフッタが残ってしまい
それらを手動で消さなければならないように思うですが。
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038409548/72
のように。


頭の体操的に無理矢理に考えてみると

ヘッダ除去
s#^(?.|\n|\r)+?(\n.+?<>)#$1#ik
フッタ除去
s#(<>(?:\r)?\n)(?:.|\n|\r)+?$#$1#igk

とかなるのかな。。
先読みの使い方ってこれでいいのかな。




具体的には

http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy

とか

http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF

からsubject.txtを生成したいのですが
試行錯誤するツールがあったら嬉しいなと思ったのです


739 :名無しさん@停滞中 ★ : 08/06/14 13:33:49 ID:???
特殊文字は
タブ(\t)とかもあるですか。
他にもあるかな。
あと使ってないのに先読み云々とか
なに口走ってるんだろ

ところで>>716で教えて頂いた先読みですが
htmltodat正規表現の$6に該当する部分を
まるまるこれと差し替えられそうですね。
具体的に書くと、例えば

m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd> ?(.*?)<br><br>(<dt.*?>|</dl>)#mi

これを

m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd> ?(.*?)<br><br>(?=<dt.*?>|</dl>)#mi

とやっても良さそうです。(Bregexp.dllでは非推奨でしょうけど)



「何の意味が?」とか言われそうですけど
新たにhtmltodatのようなスクリプトを組む時にかなり楽になりそうだなと。
JavaScriptやwsh・phpでやってみた時
正規表現でマッチした$6を残す処理が少し(というか結構)面倒だったので。


740 :名無しさん@停滞中 ★ : 08/06/14 18:53:18 ID:???
ところで 秋葉原の件以降
やたらにxreaのサーバ負荷率が上がってるです
特に週半ば以降が顕著で。

−−−−−−−−−−−−−−−−−
20080614
▽アカウントの負荷率
  3) 313 pt - mirror.s151.xrea.com
20080613
▽アカウントの負荷率
  2) 519 pt - mirror.s151.xrea.com
20080612
▽アカウントの負荷率
  8) 154 pt - mirror.s151.xrea.com
20080611
▽アカウントの負荷率
  7) 73 pt - mirror.s151.xrea.com
20080610
▽アカウントの負荷率
  4) 329 pt - mirror.s151.xrea.com
20080609
▽アカウントの負荷率
  0 pt
20080608
▽アカウントの負荷率
  0 pt
20080607
▽アカウントの負荷率
  0 pt
20080606
▽アカウントの負荷率
  0 pt
20080605
▽アカウントの負荷率
  0 pt
20080604
▽アカウントの負荷率
  0 pt
−−−−−−−−−−−−−−−−


負荷率とかよくわかんないんですが
13・14とすごい。
14日って今日なのでもっと数字増えるかもです


調べてみるとこれが原因かな。
追記でimona.phpへのリンクがあって
そこからどわーっと来てるみたい


【秋葉原連続殺傷事件外伝】 まりえったの歌日記♪さん さきほど閉鎖:Birth of Blues
http://birthofblues.livedoor.biz/archives/50661072.html


xreaのアカウントが消されなければ自分的にはどうでもいいんですが
そうなってからでは後の祭りなので
何かやっといたほうが良いのかもしれないのかなと。

一時的にimona.phpを待避させてみますか


741 : ◆/vmukiyuzw : 08/06/14 20:08:44 ID:RgmD5VXT
>>738
もちろんヘッダやフッタも前処理で取り除く前提で考えてたんですが

> http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
> http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF

前者はともかく後者はヘッダが長すぎて一発のsコマンドでは
fatal errorを起こしてしまうので何回かに分けて地道にやるしか
なさそうですね。

しかし、このアプローチで出来ないんであれば、すでに私の力及ばずというか
> ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
> あったらいいなーという要望とか思ったんですがどうでしょうか。
単なるhtmltodatのオプション追加でできるレベルとは思えないのです。
例にあげていただいた2つでも形式がまったく違いますし。

それこそ個別のスクリプト書くか、汎用的にしたいならhtmltosubみたいな
別ツール作ったほうがいいのではと思う次第です。
私はやる気が湧かないので、いっそご自分で作ってみてはいかが?


742 :名無しさん@停滞中 ★ : 08/06/14 21:56:07 ID:???
> >‎ http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
> >‎ http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF
>
> 前者はともかく後者はヘッダが長すぎて一発のsコマンドでは
> fatal errorを起こしてしまうので何回かに分けて地道にやるしか
> なさそうですね。

うーむ


とりあえずUTF-8にしてアップしてみたです

http://mirror.sarashi.com/htmltodat/subjecttest.html

前処理で

s#\n(?:<meta|<link|</?style|div|a|\.|</?script|<input|[^<]).+?(?=\n)##ig
s#\r(?=\n)##ig
s#\n(?=\n)##ig

これでガラガラと空行がある程度省けたので
かなり見通しがよくなったかな

で、肝心のデータ部分は

<td class="d">80037</td>
<td class="d">354</td>
<td class="s"><a class=t href="/f?kz=22542052" target=_blank > 初到?京的感
受~~(ZT) </a>[<font class="red">精品</font>]&nbsp;[<font class="red">置?</fon
t>]&nbsp;</td>

なので以下略
後で考えてみますか


743 : ◆/vmukiyuzw : 08/06/15 02:14:11 ID:TDdn/yNm
前処理とかはなんとかなりそうですね
あと問題になりそうなのはスレ番号をどうやって決めるか
これはスレ保存をどうやってやるかによるのでなんとも言えないです


744 :名無しさん@停滞中 ★ : 08/06/15 20:06:15 ID:???
疲れちゃったので一回休み

やってて思ったのですが
前処理がうまくいったかどうかwコマンドで保存して
保存したものをエディタで開いて
駄目なのでエディタを閉じて保存したファイルを消して
またやり直して保存したものをエディタで開いて確認して
・・という作業がなかなか煩雑に思えたので
wコマンドはそれとして
簡易的に下窓に前処理変換結果が出たら楽かもなーと夢想したです
おやすみなさい


745 : ◆/vmukiyuzw : 08/06/15 21:12:50 ID:TDdn/yNm
>>744
まあおっしゃることはわかりますし自分でもあったらいいかなと思うことはあるのですが
簡易的表示ではあまり意味をなさないというかやっぱ改行マークとかは表示したいなあと
そしたらそれなりに面倒な改造になる上あまり使い勝手がいいものに仕上げる自信もないので
wコマンドで逃げてるってのが正直なところで。

ところで

> 保存したものをエディタで開いて
> 駄目なのでエディタを閉じて保存したファイルを消して

自分が主に使ってるエディタは秀丸ですがこんな手間はかからないです。
ファイルを開いた状態でも他から上書きは可能ですし、「再読み込み」という機能を使うと
最新の状態で読み直してくれるのでワンアクションで済みさほど煩雑には感じないのです。
エディタにもいろいろあるしどれをお使いかわからないですけどそれほど特殊な機能とも思えないので
可能かどうか調べてみては。


500 KB
続きを読む

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :

read.php ver2.4 2005/04/13

Gポイントポイ活 Amazon Yahoo 楽天

無料ホームページ 楽天モバイル[UNLIMITが今なら1円] 海外格安航空券 海外旅行保険が無料!