こんにちは!所長です!
タイトル通り今回は僕なりにデータサイエンティストについて自分の考えを語ってみたいと思います。
僕は現在、大学院生で統計学専攻。
一般的な回帰分析から機械学習手法まで様々な解析手法を学んでいます。
企業のデータやオープンデータを解析するというよりも手法の理論を突き詰めるタイプの研究室です。
将来はデータサイエンティストになる!
という決意を胸に統計の研究室に入りましたが現実はそんなに甘くない。。。
データサイエンティストと聞くとデータから様々な知見を導き出し、魔法のようにビジネスを大きくする人間だと思ってました。
飛び込んだインターンシップ

そんなデータサイエンティストの姿に憧れていた僕は、とあるベンチャーでデータ解析の長期インターンシップをやらせてもらえることになりました。
これが大学3年生の3月です。
この会社には、Web上のログや紙媒体での消費者データなどデータはたくさん蓄積されていました。
しかし、その膨大なデータを解析を行うアナリストがいなかったのです。
初日から膨大なデータを渡されて自由に解析していいよと言われた僕。。。
当時、手法はいくつか知っているし、やる気もあった僕はなんとかなると思っていた。
しかし、既存手法で解析を行っても上手くいかない。これといって新しい知見は出てこない。
じゃあデータの構造がぐちゃぐちゃなのではないかという発想からデータ加工に奔走する日々。
紙媒体のデータをデジタルデータにおこす日々。
思っていたのとは違い地味な作業の繰り返し。
そして、決してその作業を行ったからといって何か道がひらけるのかは分からない。
結局3ヶ月ほど続けた結果、自分が本当の意味で納得できる結果については得ることが出来なかったのです。
アウトプットは出すことができ、様々な手法をこねくり回して何となく良さそうな数値は出ているのですが、結局はクロス分析とかで出せるようなレベルのアウトプットでした。
社長をはじめ役員の方々にプレゼンする機会をいただき、その中でお話合いを経て解析をよりブラッシュアップしていったのですが、結局ビジネスに落とし込むレベルまでは持っていけませんでした。
とまあ、データサイエンティストという存在が想像以上に地味で大変で難しく、イメージとかけ離れていて意気消沈してしまいました。
結局データサイエンティストって?

もちろん、本当の意味でのデータサイエンティストっていうとデータ加工も行うしそれを解析し、得られた知見をふまえてビジネスに落とし込む。
そしてビジネスを打ち出すところにまでコミットし、効果検証しつつそこから得られたインプットを元にさらにデータ分析・・・・という流れになるでしょう。
それが理想的なデータサイエンティストのあり方だし、実際にそのような働き方をされている人はたくさん居ます。
ただ、今の学生はデータサイエンティストという言葉に踊らされている人が多く、何となくかっこいいし憧れを持っているのでは??
企業としてもデータサイエンティストって言えば学生が集まってくれるからそう言っているところも少なくない、と思います。
データサイエンティストの募集をしていたから行ってみたら、実際は地味なデータクレンジング・EXCEL計算ばかり!
本当はRとかPython使ってバリバリ解析したいのに!!
とか、ざらにありそうですね!
僕の場合は、逆に自由度が高すぎて、何をやったらいいのか途方に暮れてしまい結局たいしたアウトプット出せずに終わってしまいましたけど!笑
ということでデータサイエンティスト志望の皆さんには、データサイエンティストという言葉を過大評価せず、自分の中で本当にやりたいこと、目指したい姿を模索していって欲しいと思います。
おそらく、IT企業でバリバリデータサイエンティストとして活躍なさっていてメディアにも露出されているような方々と同じような働き方を1年目からはできないと思います。
僕は、データサイエンティストになりたかったのではなく、顧客の潜在ニーズを見つけて、ここだ!ってキャンペーン打ち出したり、サービス作ったりしたい人間だったので結局広い意味でのマーケターになることに決めました。笑
もちろんデータを扱うことには慣れているつもりなのでそこは強みにしつつ、より包括的にビジネスを動かせる人間になりたいと思っています。
最後にあきらめてしまった僕がデータサイエンティストを目指す上で勉強になったなと思う本をご紹介しますね!
そして統計に関するWebメディアを研究室の同期と作り始めました!(2017年11月)
→デジラボ
少しでも統計を勉強する人の役に立ちますように!
データサイエンティストをあきらめた男のオススメ本・Webサイトなんて興味ないという方は無視して下さい。笑
オススメ本

■初級
研究室に入ってすぐに読んだ本。ストーリー仕立てで話が進んでいくので本当に読みやすく、主要な解析なエッセンスが詰まっているのでオススメ
こちらも、初学者にオススメで、分かりやすい。
■中級
解析はできるけど今まで腑に落ちなかったところがすーっと分かるようになる。
回帰系・モデリングからベイズまでのお話。
機械学習系を全て網羅している。「はじめての」と付くが全然初学者向けじゃない。式が多く理解に難しい箇所もある。ある程度解析などもできて何となくわかってきた中級者向け
■上級
機械学習を語る上では外せない名著中の名著。
ただ、非常に難解で理解に苦しむ。ちなみに僕は一回開いてみて、そっと閉じました。
やっぱり、上級者にはなれなかったなあーこれをガツガツ読んでいる人がたくさんいるって考えるとやっぱり、データサイエンティストは向いていなかったみたいです。

忙しくて書籍を読む時間のない、そこのあなた!!
まさにそんなあなたにピッタリのサービスがアマゾンオーディブル!!
アマゾンオーディブルなら好きな書籍が音声で聞ける!今なら無料で1か月で試せるのでぜひ試してみてください!