Outliers:データサイエンスとサクセスストーリーの出会い
データサイエンスはこれまでのパラダイムを覆した。外れ値はもはや「排除すべきエラー」ではなく、「理解すべき貴重な情報」なのだ。外れ値1つで線形回帰モデルを完全に歪めることができる(傾きが2から10に変わる)。しかしそれを排除することは、データセットの最も重要なシグナルを失うことを意味する。機械学習は洗練されたツールを導入している:Isolation Forestはランダムな決定木を構築することで外れ値を分離し、Local Outlier Factorは局所的な密度を分析し、Autoencoderは正常なデータを再構築し、再現できないものを報告する。グローバルな外れ値(熱帯地方での気温-10℃)、文脈上の外れ値(貧困地区での1,000ユーロの出費)、集団的な外れ値(攻撃を示すトラフィックネットワークの同期スパイク)などがある。ポール・マッカートニーは、「多くのバンドがハンブルグで1万時間やったが成功しなかった。アジアの数学的成功は遺伝的なものではなく、文化的なものである:中国の数的システムはより直感的であり、稲作には絶え間ない改良が必要であるのに対し、西洋の農業は領土の拡大が必要である。実際の応用例:英国の銀行はリアルタイムの異常検知によって18%の潜在的損失を取り戻し、製造業は人間の検査では見逃してしまうような微細な欠陥を検知し、ヘルスケアは85%以上の異常検知感度で臨床試験データを検証する。最終的な教訓:データサイエンスが異常値を排除することから、異常値を理解することに移行するにつれて、我々は型破りなキャリアを修正すべき異常値としてではなく、研究すべき貴重な軌跡として捉える必要がある。