Tips

structure.rdf.u8 から日本語階層を抽出する

カテゴリ情報を保存する structure.rdf.u8 は、約500メガバイトあります。content.rdf.u8 程ではないにせよ、やはり扱いにくいサイズです。詳細は調べてないのですが、一時期は content.rdf.u8 より肥大化し、3ギガバイトにもなってしまった事がありました。

このファイルも前ページで紹介した方法とほぼ同じ手法で、日本階層の切り出しが行えます。

#!/bin/sh
#カテゴリーファイル元データ(入力)
in_s=structure.rdf.u8
#日本語階層カテゴリーファイル(出力)
out_s=structure.rdf_jp.u8.xml

#カテゴリーファイルからJapaneseカテゴリを抽出
echo "making $out_s"
start=`grep  -n -m1 '<Topic r:id="Top/World/Japanese">' \
    $in_s|sed 's/\([0-9]*\):.*/\1/'`
tmp1=`expr $start + 1`
end=`\
    tail +$tmp1 $in_s|\
    grep -E -n -m1 '<Topic r:id="Top/World/[^J]'|\
    sed 's/\([0-9]*\):.*/\1/'
`

head -7 $in_s >$out_s
tail +$start $in_s|head -`expr $end - 1` |\
    sed 's/.*[:"]Top\/\(\(World\/[^J]\|[^W]\)\).*\/>//' >>$out_s
echo '</RDF>' >>$out_s

日本階層のみになれば、約8メガバイトになります。少々辛いですが、このサイズならフルスクリーンエディタでも扱う事が可能です。



株式会社スプライン