Skip to content

PacificOcean/Model_selection

Repository files navigation

                                                                    2016.10.31

                    モデル選択ツールの使い方
                   ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
1. ツール概要
 ̄ ̄ ̄ ̄ ̄ ̄ ̄
  本ツールでは、機械学習における分類問題に対して、GA(遺伝的アルゴリズム)によ
  るモデル選択および評価を実行します。


2. インストール
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
2.1. 動作環境
 ̄ ̄ ̄ ̄ ̄ ̄ ̄
  - OS:CentOS 7
  - Pythonバージョン:2.7.5(動作確認済)
  - Pythonモジュール:Anacondaでインストールされるモジュール

2.2. モジュール構成
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
  - README.txt:本ドキュメント
  - setup.sh:環境設定コマンド(シンボリックリンクを生成)
  - subscripts:処理単位で分割したスクリプトを格納したディレクトリ
  - tools_for_cv_2:
      2値分類問題かつ、テストデータが無い場合用のディレクトリ。
      学習データをクロスバリデーションして精度を検証する。
  - tools_for_cv_multi:
      多値分類問題かつ、テストデータが無い場合用のディレクトリ。
      学習データをクロスバリデーションして精度を検証する。
  - tools_for_shift_2:
      2値分類問題かつ、テストデータがある場合用のディレクトリ。
      学習データで構築したモデルをテストデータに適用して精度を検証する。
  - tools_for_shift_multi:
      多値分類問題かつ、テストデータがある場合用のディレクトリ。
      学習データで構築したモデルをテストデータに適用して精度を検証する。

2.3. インストール方法
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
  上記モジュールを同一のディレクトリ配下に配置します。
  インストールディレクトリに移動して、以下のコマンドを実行します。

    # sh setup.sh


3. 使用方法
 ̄ ̄ ̄ ̄ ̄ ̄
  2値/多値、テストデータ有/無を確認し、適切なディレクトリに移動します。

  ・2値分類問題かつ、テストデータがある場合の例
    # cd tools_for_shift_2

  run_ga_eval.shコマンドを実行します。

    # sh run_ga_eval.sh <train> <test> <id_col> <tgt_col> <GA_pop> <GA_gen> \
      <GA_seed> <algo> <out>

    $1:学習用データファイルを指定
    $2:テスト用データファイルを指定
    $3:ID識別キーのカラム名を指定
    $4:目的変数のカラム名を指定。 正例1、負例0
    $5:GAの探索で使用するpopulation
    $6:GAの探索で使用するgeneration
    $7:GAの探索で使用するseed
    $8:学習器 rf,svm,logistic,xgb
    $9:出力先ディレクトリ


4. コマンド仕様
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
  その他、各スクリプトの仕様は冒頭のコメント文を参照。

                                                                      -以上-

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published