public final class RecursiveFSHTMLNoiseReducer
extends java.lang.Object
HTMLNoiseReducer
の簡単なコマンドラインインタフェース。
クラスパス上にプロパティファイル conf.properties を配置し、起動引数に処理対象HTMLファイルのディレクトリ(入力ディレクトリ)と、
処理後の出力ディレクトリの2つのディレクトリパスを指定する。$ java com.rondhuit.html.RecursiveFSHTMLNoiseReducer work out
HTMLNoiseReducer
で使われるプロパティを設定する。
プロパティ名 | 説明 | デフォルト値/必須 |
---|---|---|
rcss.html.noise.reducer.encoding | 処理対象のHTMLファイルの文字コード | 必須 |
rcss.html.noise.reducer.encoding.out | ノイズ削減後のHTMLファイルの文字コード | nlp4l.html.noise.reducer.encodingと同じ値 |
rcss.html.noise.reducer.batch.num | バッチ処理単位HTMLファイル数 | 10 |
rcss.html.noise.reducer.batch.min | 最小のバッチ処理単位HTMLファイル数。入力HTMLファイルをrcss.html.noise.reducer.batch.numの 数ずつ処理していくが、残ったHTMLファイル数がrcss.html.noise.reducer.batch.min未満とならないよう、直前のバッチ処理単位に組み込む | 3 |
rcss.html.noise.reducer.exts | 処理対象のHTMLファイルのファイル拡張子をカンマ区切りで指定する。ファイル名はString.toLowerCase() されたあと
String.endsWith(String) を使ってこのプロパティで指定された文字列と比較されるため、小文字で指定する必要がある | html |
HTMLNoiseReducer
修飾子とタイプ | フィールドと説明 |
---|---|
static int |
DEF_BATCH_MIN |
static int |
DEF_BATCH_NUM |
static java.lang.String |
DEF_EXTS |
static java.lang.String |
P_BATCH_MIN |
static java.lang.String |
P_BATCH_NUM |
static java.lang.String |
P_ENCODING |
static java.lang.String |
P_ENCODING_OUT |
static java.lang.String |
P_EXTS |
コンストラクタと説明 |
---|
RecursiveFSHTMLNoiseReducer() |
修飾子とタイプ | メソッドと説明 |
---|---|
static java.io.File[] |
getHtmlList(java.lang.String inDir,
java.lang.String[] exts) |
static java.lang.String |
getOutputFileWithMkdirs(java.lang.String inFilePath,
java.lang.String inTopDirPath,
java.lang.String outTopDirPath)
入力HTMLファイルの絶対パスに対応する出力HTMLファイルの絶対パスを求める。
|
static java.lang.String |
getOutputFileWithMkdirs(java.lang.String inFilePath,
java.lang.String inTopDirPath,
java.lang.String outTopDirPath,
boolean mkdirs)
入力HTMLファイルの絶対パスに対応する出力HTMLファイルの絶対パスを求める。
|
static void |
main(java.lang.String[] args) |
static void |
printUsage() |
public static final java.lang.String P_ENCODING
public static final java.lang.String P_ENCODING_OUT
public static final java.lang.String P_BATCH_NUM
public static final java.lang.String P_BATCH_MIN
public static final java.lang.String P_EXTS
public static final int DEF_BATCH_NUM
public static final int DEF_BATCH_MIN
public static final java.lang.String DEF_EXTS
public static void main(java.lang.String[] args) throws java.lang.Exception
java.lang.Exception
public static void printUsage()
public static java.io.File[] getHtmlList(java.lang.String inDir, java.lang.String[] exts)
public static java.lang.String getOutputFileWithMkdirs(java.lang.String inFilePath, java.lang.String inTopDirPath, java.lang.String outTopDirPath)
File.mkdirs()
で親ディレクトリが作成される。inFilePath
- 入力HTMLファイルの絶対パスinTopDirPath
- 入力トップディレクトリの絶対パスoutTopDirPath
- 出力トップディレクトリの絶対パスpublic static java.lang.String getOutputFileWithMkdirs(java.lang.String inFilePath, java.lang.String inTopDirPath, java.lang.String outTopDirPath, boolean mkdirs)
File.mkdirs()
で親ディレクトリが作成される。inFilePath
- 入力HTMLファイルの絶対パスinTopDirPath
- 入力トップディレクトリの絶対パスoutTopDirPath
- 出力トップディレクトリの絶対パスmkdirs
- File.mkdirs()
で出力HTMLファイルの親ディレクトリを作成する場合はtrue、作成しない場合はfalseCopyright © 2009-2018 RONDHUIT Co.,Ltd. All Rights Reserved.