クラスタリング（k-means）- インタラクティブ学習

🤔 クラスタリングとは?

クラスタリングは「似ているデータをまとめる」手法です。正解ラベルがなくても、データの特徴から自動的にグループを見つけ出します。k-meansは最も基本的で広く使われているアルゴリズムです。

各クラスタの「中心点」をセントロイドと呼びます。k-meansでは、各データ点を最も近いセントロイドに割り当て、そのセントロイドを更新することを繰り返します。

「割り当て → 更新」のサイクルを繰り返します。セントロイドの位置がほとんど変わらなくなったら収束したと判断します。初期値によって結果が変わることがあります。

データを入力しよう

💡 ポイント: クラスタリングは「教師なし学習」です。データにラベル(色)を付ける必要はありません。アルゴリズムが自動的にグループを見つけます。

クラスタ数kを設定しよう

クラスタ数 k: 3

🎯 セントロイドとは? 各クラスタの「重心」です。最初はランダムな位置に配置され、データ点との距離に基づいて徐々に最適な位置に移動していきます。

📊 k の決め方: 適切なクラスタ数は問題によって異なります。エルボー法などで決定することもできますが、ここでは直感的に決めてみましょう。

クラスタリングを実行しよう

🔄 アルゴリズムの流れ:

💡 ヒント: 初期値によって結果が変わることがあります。「リセット」して別の初期値で試してみましょう。また、クラスタ数kを変えると、データの分け方が大きく変わります。

教師なし学習: 正解ラベルなしでパターンを発見

k-means法: 最もシンプルで高速なアルゴリズム

距離ベース: ユークリッド距離で類似度を測定

反復最適化: セントロイドを繰り返し更新して収束

データ点数: 0

クラスタ数 k: -

ステップ数: 0

状態: データ入力待ち

総距離(Inertia): -

収束: 未実行

Inertiaは各点とそのセントロイドとの距離の二乗和です。小さいほど良いクラスタリングです。

×印がセントロイド(重心)を表します

• 顧客セグメンテーション

• 画像の色圧縮

• 異常検知の前処理

• 文書のグループ化