※かじとじむ(当サイト)は、ふだんはネット情報のまとめサイトですが、ときどき管理人が読んだ本をまとめています。読書タグや、ざっくりまとめタグからどうぞ!
有賀康顕、中山心太、西林孝著「仕事ではじめる機械学習」を読みました。
本書は、
- 「技術書典」という技術書イベントにおける同人誌をもとにした本で、
- 機械学習を仕事でやるときに気をつけるべきことをまとめた本です。
技術書典のページはこちら。
https://techbookfest.org/
なお、本書で利用されているライブラリは、Python の Scikit-learn ですが、
基本的な使い方は知っている前提で書かれています。
前提知識を得るためには、以下の2つが推奨されています。
・Coursera の Machine Learning コース
https://www.coursera.org/learn/machine-learning
・「ゼロから作るディープラーニング」
===
本書は、上司から「機械学習でいい感じにしてくれ」と突然言われたときに、役立つように作られています。
ユニークなのは、機械学習の本なのに、機械学習を使わないやり方も紹介されていることです。
第9章がそれにあたります。
ざっくり言えば、
- APIからデータをjson形式で取得する
- csvに変換して、エクセルでグラフ化
- グラフから分かることをレポート形式で作成
といった流れになっており、たしかに機械学習のライブラリを使っていません。
そして、十分納得できるようなレポートが仕上がります。
===
本書に、なぜこのような章を含んでいるかというと、機械学習のシステム構築の難しさを、以下のように指摘するからです。(p.8)
- 確率的な処理があるため自動テストがしにくい
- 長期運用しているとトレンドの変化などで入力の傾向が変化する
- 処理のパイプラインが複雑になる
- データの依存関係が複雑になる
- 実験コードやパラメータが残りやすい
- 開発と本番の言語/フレームワークがバラバラになりやすい
わたしは、機械学習は趣味でいじっている程度なので、詳しくは分かりませんでしたが、
本書の内容を読んでいくにつれて、たしかに「ありそう」な感じはしました。
===
もちろん、機械学習を使った事例もたくさん紹介されています。
そこが本書のメインです。
機械学習でできることを、本書では大きく4つに分けています。
- 分類
- 回帰
- クラスタリング・次元削減
- その他
この中では、分類が分量としても多く、充実している印象です。
実際、仕事で使われているのも、分類が多いのでしょうか。
正直、後半はわたしには難しく、太刀打ちできなかったのですが、
本書の前半部分は、入門書から実務への足掛かりとして、とても良い本だと思いました。
経営者から、「機械学習でなにかやりたい」と突然言われる機会は、
今後どんどん増えてくると思います。
ソフトウェアを扱う部署の方は、
発注側であれ、受注側であれ、ぜひ一度、読んでみてください。