public final class RecursiveFSHTMLNoiseReducer
extends java.lang.Object
HTMLNoiseReducer の簡単なコマンドラインインタフェース。
クラスパス上にプロパティファイル conf.properties を配置し、起動引数に処理対象HTMLファイルのディレクトリ(入力ディレクトリ)と、
処理後の出力ディレクトリの2つのディレクトリパスを指定する。$ java com.rondhuit.html.RecursiveFSHTMLNoiseReducer work out
HTMLNoiseReducer で使われるプロパティを設定する。
| プロパティ名 | 説明 | デフォルト値/必須 |
|---|---|---|
| rcss.html.noise.reducer.encoding | 処理対象のHTMLファイルの文字コード | 必須 |
| rcss.html.noise.reducer.encoding.out | ノイズ削減後のHTMLファイルの文字コード | nlp4l.html.noise.reducer.encodingと同じ値 |
| rcss.html.noise.reducer.batch.num | バッチ処理単位HTMLファイル数 | 10 |
| rcss.html.noise.reducer.batch.min | 最小のバッチ処理単位HTMLファイル数。入力HTMLファイルをrcss.html.noise.reducer.batch.numの 数ずつ処理していくが、残ったHTMLファイル数がrcss.html.noise.reducer.batch.min未満とならないよう、直前のバッチ処理単位に組み込む | 3 |
| rcss.html.noise.reducer.exts | 処理対象のHTMLファイルのファイル拡張子をカンマ区切りで指定する。ファイル名はString.toLowerCase()されたあと
String.endsWith(String)を使ってこのプロパティで指定された文字列と比較されるため、小文字で指定する必要がある | html |
HTMLNoiseReducer| 修飾子とタイプ | フィールドと説明 |
|---|---|
static int |
DEF_BATCH_MIN |
static int |
DEF_BATCH_NUM |
static java.lang.String |
DEF_EXTS |
static java.lang.String |
P_BATCH_MIN |
static java.lang.String |
P_BATCH_NUM |
static java.lang.String |
P_ENCODING |
static java.lang.String |
P_ENCODING_OUT |
static java.lang.String |
P_EXTS |
| コンストラクタと説明 |
|---|
RecursiveFSHTMLNoiseReducer() |
| 修飾子とタイプ | メソッドと説明 |
|---|---|
static java.io.File[] |
getHtmlList(java.lang.String inDir,
java.lang.String[] exts) |
static java.lang.String |
getOutputFileWithMkdirs(java.lang.String inFilePath,
java.lang.String inTopDirPath,
java.lang.String outTopDirPath)
入力HTMLファイルの絶対パスに対応する出力HTMLファイルの絶対パスを求める。
|
static java.lang.String |
getOutputFileWithMkdirs(java.lang.String inFilePath,
java.lang.String inTopDirPath,
java.lang.String outTopDirPath,
boolean mkdirs)
入力HTMLファイルの絶対パスに対応する出力HTMLファイルの絶対パスを求める。
|
static void |
main(java.lang.String[] args) |
static void |
printUsage() |
public static final java.lang.String P_ENCODING
public static final java.lang.String P_ENCODING_OUT
public static final java.lang.String P_BATCH_NUM
public static final java.lang.String P_BATCH_MIN
public static final java.lang.String P_EXTS
public static final int DEF_BATCH_NUM
public static final int DEF_BATCH_MIN
public static final java.lang.String DEF_EXTS
public static void main(java.lang.String[] args)
throws java.lang.Exception
java.lang.Exceptionpublic static void printUsage()
public static java.io.File[] getHtmlList(java.lang.String inDir,
java.lang.String[] exts)
public static java.lang.String getOutputFileWithMkdirs(java.lang.String inFilePath,
java.lang.String inTopDirPath,
java.lang.String outTopDirPath)
File.mkdirs()で親ディレクトリが作成される。inFilePath - 入力HTMLファイルの絶対パスinTopDirPath - 入力トップディレクトリの絶対パスoutTopDirPath - 出力トップディレクトリの絶対パスpublic static java.lang.String getOutputFileWithMkdirs(java.lang.String inFilePath,
java.lang.String inTopDirPath,
java.lang.String outTopDirPath,
boolean mkdirs)
File.mkdirs()で親ディレクトリが作成される。inFilePath - 入力HTMLファイルの絶対パスinTopDirPath - 入力トップディレクトリの絶対パスoutTopDirPath - 出力トップディレクトリの絶対パスmkdirs - File.mkdirs()で出力HTMLファイルの親ディレクトリを作成する場合はtrue、作成しない場合はfalseCopyright © 2009-2018 RONDHUIT Co.,Ltd. All Rights Reserved.