試し

webで選択しがちな文体 - SSMGの人の日記
文字エンコーディングEUC-JPの場合のみ。はてなダイアリーはオッケーっぽいね。
http://allineedis.cutegirl.jp/p/bun.php
http://allineedis.cutegirl.jp/p/bun.php?p=http://d.hatena.ne.jp/Erlkonig/
右側の数字は出現回数。
「すべての漢字を取り出す正規表現」をPHPで試す:phpspot開発日誌
これをコピペしただけな感じです。
出かけるので帰ったらまた考えて遊ぼう。
あまり役にたたないっぽいけど。


「近い内に」とか「機会があれば」などの漢字仮名混じってるのを検出とかは無理っぽいのでやっぱ役に立たないか。
形態素解析 - Wikipedia
出来ないけどとりあえずこの辺勉強とかしないと駄目なんかな。難しそうなのでパス。


違う簡単な方法無いかなー。
-
「。」の前後何文字かを収集すると文頭と文末のリストが出来るかなー。
どうやればいいのかわからないのでとりあえず今回はここまで。
機会があれば近いうちにやりたいけど誰かやってくれたら面白いなあと思いました。そんな感じ。