py
from sklearn.preprocessing import StandardScaler
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt

# RandomStateオブジェクトを作成
sample = np.random.RandomState(1)

#２つの乱数を生成
X = np.dot(sample.rand(2, 2), sample.randn(2, 200)).T

# 標準化 (平均0, 分散1にする)
sc = StandardScaler()
X_std = sc.fit_transform(X)

# 相関係数の算出とグラフ化
print('相関係数{:.3f}:'.format(sp.stats.pearsonr(X_std[:, 0], X_std[:, 1])[0]))
plt.scatter(X_std[:, 0], X_std[:, 1])

主成分分析の実行

py
# インポート
from sklearn.decomposition import PCA

# 主成分分析
pca = PCA(n_components=2) # 2次元に圧縮
pca.fit(X_std)

学習結果の確認

`components_`属性

変換行列(固有ベクトル)を出力する

py
print(pca.components_)

`explained_variance_`属性

分散(固有値)を出力する

py
print('各主成分の分散:{}'.format(pca.explained_variance_))

結果を図示する

py
# パラメータ設定
arrowprops=dict(arrowstyle='->',
                linewidth=2,
                shrinkA=0, shrinkB=0)

# 矢印を描くための関数
def draw_vector(v0, v1): # v0: 先端, v1: 終端
    plt.gca().annotate('', v1, v0, arrowprops=arrowprops)

# 元のデータをプロット
plt.scatter(X_std[:, 0], X_std[:, 1], alpha=0.2)

# 主成分分析の2軸を矢印で表示する
for length, vector in zip(pca.explained_variance_, pca.components_): # zip(): forループの中で複数のリストを同時に取り出す
    v = vector * 3 * np.sqrt(length)
    draw_vector(pca.mean_, pca.mean_ + v) # 重心を起点とする

plt.axis('equal')

PCAを用いた乳がん患者予測

ライブラリインポート

py
# 乳がんデータを読み込むためのインポート
from sklearn.datasets import load_breast_cancer
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
%matplotlib inline

乳がんデータの取得

py
# 乳がんデータの取得
cancer = load_breast_cancer()
cancer

pandas dataframeで整理

py
df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
df["target"] = cancer.target
df

欠損値などはありませんでした。

説明変数と目的変数の関係をヒストグラムにしてみる

データをmalignant (悪性)かbenign (良性)に分けるためのフィルター処理

py
malignant = df[df["target"] == 0]
benign = df[df["target"] == 1]

30個のヒストグラムを作る

py
#　malignant（悪性）がブルー、benign（良性）がオレンジのヒストグラム
# 各図は、各々の説明変数（mean radiusなど）と目的変数との関係を示したヒストグラム
fig, axes = plt.subplots(6,5,figsize=(20,20))
ax = axes.ravel()
for i, column in enumerate(df.columns[:-1]):
    _,bins = np.histogram(df[column], bins=50)
    ax[i].hist(malignant[column], bins, alpha=.5)
    ax[i].hist(benign[column], bins, alpha=.5)
    ax[i].set_title(column)
    ax[i].set_yticks(())

# ラベルの設定
ax[0].set_ylabel('Count')
ax[0].legend(['malignant','benign'],loc='best')
fig.tight_layout()

しかし特徴的なデータは見当たらないので、主成分分析を用いて次元削減を行ってみる

PCAで次元削減

py
# 標準化
sc = StandardScaler()
X_std = sc.fit_transform(cancer.data)

# 主成分分析
pca = PCA(n_components=2)
pca.fit(X_std)
X_pca = pca.transform(X_std)

# 表示
print('X_pca shape:{}'.format(X_pca.shape))
print('Explained variance ratio:{}'.format(pca.explained_variance_ratio_))

X_pcaは569行2列に変換された→569個の二次元ベクトルの集合

圧縮データの可視化

DF作成

py
# 列にラベルをつける、1つ目が第1主成分、2つ目が第2主成分
X_pca = pd.DataFrame(X_pca, columns=['pc1','pc2'])

# 上のデータに、目的変数（cancer.target）を紐づける、横に結合
X_pca = pd.concat([X_pca, pd.DataFrame(cancer.target, columns=['target'])], axis=1)

# 悪性、良性を分ける
pca_malignant = X_pca[X_pca['target']==0]
pca_benign = X_pca[X_pca['target']==1]

可視化

py
# 悪性をプロット
ax = pca_malignant.plot.scatter(x='pc1', y='pc2', color='red', label='malignant');

# 良性をプロット
pca_benign.plot.scatter(x='pc1', y='pc2', color='blue', label='benign', ax=ax);

# おおよその境界線
x = np.arange(-5, 9)
y = 1.7 * x - 0.8
ax.plot(x, y, color="black")

境界線はSVMを使うとより最適化できるかも

補足

主成分の選び方

累計寄付率を求めてみると、次元が大きくなるほど値は変化しなくなる。なくなるぐらいの次元がベスト。逆に次元が大きくなるほど累計寄付率が大きく変わる場合、それは相関関係があるとは言えない。PCRを使ってもあまり意味がない。

注意点

解釈の難しさ

主成分分析を用いて得られる結果は、統計的な指標や数値情報である。しかし、見つかった主成分が具体的にどのような意味を持つのかは、分析者の解釈に委ねられ、直感的には理解しづらい場合がある。その理由は、主成分自体が元のデータと直接の関連を持たないためである。

正規性の仮定

主成分分析は、データが正規分布に従っているという仮定の元に成り立っている分析手法である。正規分布とは、平均値の周りにデータが集中し、左右対称の釣鐘状にデータが広がるような分布をさす。正規性の仮定を満たさないデータに主成分分析を適用すると、主成分の方向や寄与率が歪められる可能性がある。

外れ値の影響

外れ値は通常のデータパターンから大きく逸脱した値であり、分析結果に悪影響を及ぼす可能性がある。主成分分析はデータの分散を最大化する方向を求める手法である。そのため、外れ値が分散に大きく影響すると、主成分の方向や寄与率が歪められてしまう。これにより、分析結果が歪んだり、軸の解釈が困難になってしまう問題が発生する。

Tech Blog

Talking to oneself about what I've learned

Table for contents

教師なし学習とは
教師あり学習と比較
データサイエンスのプロセス
OBTAIN (データの取得)
SCRUB
EXPLORE (データの探索)
MODEL
INTERPRET
PCAとは
次元削減
PCA概要
アルゴリズム
やること
寄付率
pythonで実装してみる
データを作る
主成分分析の実行
学習結果の確認
属性
属性
結果を図示する
PCAを用いた乳がん患者予測
ライブラリインポート
乳がんデータの取得
pandas dataframeで整理
説明変数と目的変数の関係をヒストグラムにしてみる
データをmalignant (悪性)かbenign (良性)に分けるためのフィルター処理
30個のヒストグラムを作る
PCAで次元削減
圧縮データの可視化
DF作成
可視化
補足
主成分の選び方
注意点
解釈の難しさ
正規性の仮定
外れ値の影響

Tech Blog

Related posts

PCA解説

Tech Blog

Table for contents

Tags