1 min read

「Python機械学習プログラミング」を読む #3

nabeen

引き続きこれ。

今日からは、流し読みで全体を俯瞰していく感じで読んでいる。

第 4 章の前処理と第 5 章の次元削減のところを読み進めた。

前処理では、欠損値の特定、削除、補完など、「あーこれタイタニックのでやったなぁ」という感じでサクサクと。名義特徴量、順序特徴量のマッピングあたりは、ふむふむって感じで、one-hot エンコーディングは聞いたことはあったけど scikit-learn で実装するとこんななんだって思いながら見ていた。

スケーリングは結構前にもやったけど、特徴選択、特徴抽出あたりはこれもふむふむって感じで進めていた。

次元削減は、主成分分析(PCA)は確か Coursera でやったなぁと思いつつ、LDA、KPCA あたりは所見(のはず)だったので、こういう手法もあるんだなーって感じで読み流した。

結構数式もあったんだけどほぼすっ飛ばして、完全に雰囲気だけ理解した。多分このへんは実際に課題をやりながらうんうん唸らないと自分のモノにはならないだろうなっていう感覚を覚えた。まぁだから流し読みスタイルに切り替えたんだけど。

このあたりは実際に Kaggle でコンペやりながらリファレンス的に使っていこうと思う。例の Kaggle で勝つ本も合わせて使っていく。

P.S.

最近機械学習ばっかりでちょっと煮詰まってきたってのもあって、前にツイートした CTF をちょこっとやってみた。

cpawCTF はホントに初心者向けって感じで、セキュリティのセの字も知らない(これはこれで問題だけど)僕でも、ちょろちょろググりながらでサクッと Level 1 は全完できた。

パケットキャプチャあたりは全くというか、自分でも足りてないなって感じるネットワーク部分で、CTF 通じて学んでいくのも楽しそうだなと。

Level 2 になると一気にガッとレベル上がったなーって感じで、まぁググればなんとでもなりそうな感じではあるけど、今のところそこそこ楽しめている。

セキュリティは機械学習と並んで僕の中ではアツい分野なので、時々息抜きでやっていこうと思う。