2019-01-01から1年間の記事一覧

機械学習のための特徴量エンジニアリング(本)メモ

べき変換:power transform(対数変換や平方根変換等) 分散安定化変換:valiance-stabilizing transformation とも呼ばれる。 Box-Cox変換:対数変換と平方根変換を一般化したもの(詳細は25ページ) 正規化 ーMinMaxスケーリング:特徴量を[0,1]の値に変換 ー…

機械学習のための特徴量エンジニアリング(本)メモ

べき変換:power transform(対数変換や平方根変換等) 分散安定化変換:valiance-stabilizing transformation とも呼ばれる。 Box-Cox変換:対数変換と平方根変換を一般化したもの(詳細は25ページ) 正規化 MinMax

ビットコインメモ

プルーフオブワークとよばれる仕組みでデータの偽造や二重支払いを防ぐ 具体的には新規ブロックのハッシュ値が一定以上の0が続くナンスの値を総当たり法で求めるため、膨大な計算が必要になる。一つの取引データを改ざんしようとするとそれ以降全てのナンス…

多項式回帰(PolynomialFeatures)における係数、パラメータ等のメモ

説明変数とし(切片は考えない)、次数(degree)を1として考えると によってできた多項式の係数は係数項の行列順(sklearnモデルのでcoef_等で出力される順)は [a,b] の順番である。 同様に次数(degree)を2として考えると、交互作用項を含む形で出力され [a,b,c…

SVC(kernel=’linear’)とLinearSVCの違い

LinerSVC L1/L2正則化パラメータが設定できる。 損失関数に ヒンジロスor 二乗ヒンジロスを指定できる。 multiclassの場合にovr (1 vs the rest :(1 vs他のクラス))が指定される。 https://funmatu.wordpress.com/2017/05/20/svckernellinear%E3%81%A8linear…

特徴量選択についてのまとめ

RFE(Recursive Feature Elimination):すべての特徴量から部分集合を取り出してモデルを訓練させることを繰り返し、最適な部分集合を決める SVC等でも利用可能 SelectFromModel:Lasso 等で特徴選択し、邪魔な特徴量を排除して計算するモジュール https://qi…

Djangoメモ

マイグレーション:モデルからデーターベースのテーブルを作成すること orm:オブジェクト関連マッピング:データーベースの操作方法

Lassoのよさそうな説明サイト

https://stats.biopapyrus.jp/sparse-modeling/lasso.html

スクレイピングメモ

import urllib.request urllib.request.urlretrieve(url名,./保存するファイル名) でファイルとしてダウンロードできる retrieve:日本語は:取り戻す、回収する、(情報を)引き出す、検索する等 https://www.sejuku.net/blog/67698

t検定の考え方

t検定は母平均に対する検定 データの平均値が0と異なっており有意であるか(意味のある値になっているか) t値が大きければ、平均値に有意な差があるとみなせる t値がいくらになれば大きいと判断するのか →t値からp値を計算し、p値の値からt値が大きいか判断…

多重共線性で解が求められなくなる理由

最小二乗法を計算するときに出てくる の逆行列を求めるためにはを計算する必要がある。Hの中身が同じようなものが多い場合、行列式を計算していくと0になり行列が正則行列ではなくなる。 ー>0 に近づくのでの逆行列は無限大に発散してしまう。 tekenuko.hat…

ガウス積分の公式

ガウス積分 https://mathtrain.jp/gauss ヤコビアン https://mathtrain.jp/jacobian

正規分布での最尤推定について

N個のの積で表される 平均値とに一致するときには一番大きな値となる nは1からNまであるので、これらを全てを考慮したもの(かけ合わせたもの)の最大値を求めるのが最尤推定

NFS

NFS (ネットワークファイルシステム) ネットワークを介してサーバ上のストレージ領域をローカルストレージと同様にマウントして使うことのできるストレージ ローカルストレージと同様に読み書きできる CIFS(Common Network FileSystem) : windows環境でよく…

japandas がimport Errorを発生した時のメモ

pandas のバージョンによって最新のものでは import japandasで ImportError: cannot import name のエラーが発生 pip install "pandas<0.25.0" でpandas旧バージョンのものを再インストールする

物体検出keras-yolov3

https://sleepless-se.net/2019/06/21/how-to-train-keras%E2%88%92yolo3/ https://sleepless-se.net/2019/06/21/how-to-use-vott/

linux リダイレクトまとめサイト

https://eng-entrance.com/linux-redirect

Uipath

Winactorと違って家でも試せるらしい https://techacademy.jp/magazine/22443 暇なときにしてみよう

行選択コマンド

home押してからshift++end

ondrive で大容量データを扱うときのメモ

onedriveで大容量データ(フォルダ配下のデータ総容量4GB以上)をブラウザを使ってまとめてフォルダでダウンロードしてしまうと、解凍でエラーが発生する。 zipファイルは4GB以上の圧縮・解凍でエラーを起こしてしまうためである。 そのためこの場合wondow…

プロジェクトの進め方メモ

①方針を決めるー>参加者び合意を得るー>次回までの課題を伝える 作業内容の流れ : アンケート及びヒアリングをもとに課題抽出(意見を聞いてそれに基づいて作った、働きかけたという努力を伝える意味でも必要)ー>課題作成ー>指示、日時決定 PMBOK(Proj…

点推定

母集団からいくつかのサンプルを抽出してその母集団の平均分散を推定する方法 標本平均: 標本分散: 不偏分散 : 不偏分散は標本平均を倍したものである。 なのでサンプル数nが大きくなると標本分散=不偏分散になるが小さい場合不偏分散が標本分散より大き…

pyenvでpython環境の構築

Macでpython環境を構築するときに、homebrewでpyenvをインストールしpyenvの上にpython環境を構築する。 pyenvで使用するコマンドは #installした環境を確認 pyenv versions #ターミナルでpythonを叩いた時の環境を指定 pyenv global 環境名 参考 https://ba…

Cauchy分布

Cauchy分布はt分布の特殊系(自由度1のt分布と同一) https://mrunadon.github.io/Distributions/

カイ二乗分布はガンマ分布のパラメータを変えた(参考記事ではn→n/2,μ→2 )としたもの 追記

参考 https://mathtrain.jp/gammadist 追記 カイ二乗分布は標準正規分布を二乗して足し合わせたもの。 自由度1のときは一つの標準正規分布を2乗したものとなり、自由度kのときk個の標準正規分布を足し合わせたものとなる。 https://atarimae.biz/archives/…

クリーク

無向グラフにおいて、繋がっている部分集合をクリークという

行列が凸かどうかを見分ける

ある関数を二点間結んで、その最小値が2点間の下にある場合、凸関数 数式的には凸関数かどうかは2階導関数がどこでも0かどうかでも判断可能

非線形最適化

ロジスティック回帰などを最尤推定で解こうとすると、expがでてきてしまい解くことができない そのため、非線形最適化問題となる。

距離について

https://www.slideshare.net/SeiichiUchida/21-77833992?qid=a63de0b2-9c70-49ae-b7fa-a6b1aa3aafca&v=&b=&from_search=1

データ補間方法

欠損値のデータの補間方法として、scipyを用いた方法が書かれていたのでメモ スプライン補間等がある org-technology.com