structure.rdf.u8 から日本語階層を抽出する
カテゴリ情報を保存する structure.rdf.u8 は、約500メガバイトあります。content.rdf.u8 程ではないにせよ、やはり扱いにくいサイズです。詳細は調べてないのですが、一時期は content.rdf.u8 より肥大化し、3ギガバイトにもなってしまった事がありました。
このファイルも前ページで紹介した方法とほぼ同じ手法で、日本階層の切り出しが行えます。
#!/bin/sh
#カテゴリーファイル元データ(入力)
in_s=structure.rdf.u8
#日本語階層カテゴリーファイル(出力)
out_s=structure.rdf_jp.u8.xml
#カテゴリーファイルからJapaneseカテゴリを抽出
echo "making $out_s"
start=`grep -n -m1 '<Topic r:id="Top/World/Japanese">' \
$in_s|sed 's/\([0-9]*\):.*/\1/'`
tmp1=`expr $start + 1`
end=`\
tail +$tmp1 $in_s|\
grep -E -n -m1 '<Topic r:id="Top/World/[^J]'|\
sed 's/\([0-9]*\):.*/\1/'
`
head -7 $in_s >$out_s
tail +$start $in_s|head -`expr $end - 1` |\
sed 's/.*[:"]Top\/\(\(World\/[^J]\|[^W]\)\).*\/>//' >>$out_s
echo '</RDF>' >>$out_s
日本階層のみになれば、約8メガバイトになります。少々辛いですが、このサイズならフルスクリーンエディタでも扱う事が可能です。
- content.rdf.u8 から日本語階層を抽出する
- structure.rdf.u8 から日本語階層を抽出する
- Open Directory Lisence 日本語訳
