ハードウェアエンジニアの備忘録

電子工学(半導体物性)→応用光学・半導体プロセス→アナログ回路→C/C++→C#/.NETと低レイヤーから順調に(?)キャリアを登ってきているハードウェアエンジニアの備忘録。ブログ開始時点でiOSやサーバーサイドはほぼ素人です。IoTがマイブーム。

【Startup School】アイデアのつくり方と計り方について

イデアのつくり方と計り方について - Stewart Butterfield & Adam D'Angelo

youtu.be

講演者の経歴

まず、軽く講演者の経歴からおさらいしよう。

Stewart Butterfield

1973年、カナダに生まれたStewartはビクトリア大学で哲学の学士号を、ケンブリッジ大学修士号を取得する。2000年に友人らとともにGradfinder.comを起業し、その後フリーランスwebデザイナーになる。2002年にバンクーバーでLudicorpを起業し(Ludicorpは2005年にYahoo!によって買収される)、この会社でFlickrを始めることになる。2008年までFlickr部門の責任者を努めた後、2009年にTiny Speck社を起業する。2013年にStewartはTiny Speckで開発していたSlackのリリースをアナウンスする。その後、Slackは500万人のDAU、150万人の有料ユーザーを抱えるサービスまで成長することとなる。

参考:Stewart Butterfield - Wikipedia

Adam D'Angelo

1984年に生まれたAdamはフィリップス・エクセター・アカデミーに入学し、マーク・ザッカーバーグらと音楽アプリを作る。その後、カリフォルニア工科大学に進んだAdamはコンピューター工学の学士号を取得する。FacebookでCTOを努めた後、2009年にQuoraを起業する。現在QuoraはQ&Aサイトとして成功している。

Stewartのインタビュー

  • イデアを思いついた過程について

1992年に大学に入ったときUNIXマシンのアカウントをもらいwebへの接触機会があった。webがメジャーになる1年ほど前の出来事だ。どんなコミュニティーかに関わらず人々がコミュニティーを探せる点に惹かれた。そして、SNSのような働きをするオンラインゲームに惹かれた、商業的には良い考えではなかったのだが。その後、2009年にSlackを作ることになる会社を始め、1750万ドルの資金調達をした。2002年の1度目の起業の際はドットコムバブルの崩壊やワールドコムエンロンのスキャンダル、911テロの直後で、NASDAQS&Pは下がりきっており、誰もインターネットに投資しようという人はいなかった。その為、良いアイデアかそうでないかを語るのは難しい時代だった。市場からこれに投資すべきだというシグナルが得られなかったからだ。

我々は友人や家族からいくらかの資金を調達し、1年をかけてプロトタイプを作った。プロトタイプは悪くなかったが、完成形を作るまでにもう一年かかり、資金調達をすることは出来なかった。家族がいるメンバーもいたので、今まで開発した技術を使ってマーケットに参入できる製品を作ろうとなったのが、Flickrで、ただこれも最初は悪いアイデアに過ぎなかった。ゲーム用のメッセージ処理の仕組みをバックエンドに持っていたので、ゲームクライアントを写真のシェアリングに変更するだけだった。ゲームも写真もリアルタイムのインタラクションであり、2003年時点では素晴らしい技術であったが、誰がオンラインかなんて当時は気にもとめなかった。 Slackを作ったときの経験はこれとは少し異なり、十分な資金もあったし、AWSもあったし、インターネット回線もずっと良くなり、多くの人がオンラインにつながるようになった。つまり、外的環境によって、2003年当時は大きな市場が存在せず、悪いアイデアに過ぎなかった。

  • Slackはなぜ良いアイデアだったのか?

我々はIRCベースのコミュニケーションシステムを開発することをスタートした。Slackは1989年時点では欠けていた要素を持っているIRCだとも考えられる。成功した理由を言うのは難しいが、3年半をデザインに費やしたことだ。IRCを使うことに決めたが、メッセージの保存や転送ができないなど欠陥を抱えていた。つまり自分が誰かにメッセージを送ろうと思ったとき、誰かがサーバーに接続されてなければ、メッセージは送られないということだ。そこでまず、メッセージが保存されるような機能を開発し、検索できるようにした。これが2009年の出来事だ。また当時はiPhone向けの良いIRCクライアントはなかったので、Safari向けのHTML5フロントエンドを開発した。 ソフトウェアの開発においては、エゴや推測がつきまとう。この機能は良い、悪いなどと議論するものだ。もし仏陀の境地まで達することができるなら、エゴもなくできるだろうが、実際にはエゴも、この機能は誰かにとってはすごく価値のあるものだといった推測が発生する。一方で、Slackのプロトタイプのようなシステムを作っているときには、問題すべてが腹立たしいものだ。そうしたとき、問題を表明し、最小の努力で、やるべきことに立ち返ることにし、数カ月の間問題に取り組むこともある。Slackにはそうしたことに従事するものが45名いた。 我々で助けられないが、有利になることが明確なものに関しては、最小の時間で取り組んでいた。こうしたプロセスの終わりには、完全にデザインされた製品、1から作っていたらならないようなひどい実装のもの、しかし価値の高いものが出来上がる。このような価値観で、優れたアイデアだと言え、その証拠もある。

  • 他にピボットを考えた事はあるか?

たくさんのだめなアイデアが有り、そのうちの一つがチーム内で価値があると合意の取れたものだった。当時、銀行口座に投資家から返却を求められないお金が5Mドルがあった。投資家達はむしろ、我々に何か新しいことをするように求めた。Jason Horowitzは投資家の中のひとりで、ミーティングをした。そのときはまだSlackは出来ていなかったが、プロトタイプはあり、「いつか数億ドルの売上高をあげ、数十億ドルの時価総額の会社になるアイデアがある」と話していた。そして、それが頂点だと思っていたが、現在は数十億ドルの売上を上げ、数百億ドルの時価総額の会社になり、まだ成長し続けている。 つまり言いたいのは、どれだけアイデアが良いかは気づかなかった。

しかし、辞める決断をしたものもある。ユーザーエンゲージも高い良いサービスも持っていた一方で、Glitchという新しいユーザー獲得も出来ないゲームも抱えていた。人々が悪いと思っているアイデアでもそれをはねのけてこそ良い起業家だという思いがある一方で、もう続けられないと毎朝考えていた。皆を説得するのは非常に難しい。

  • イデアを評価することの難しい点の一つだと思う。朝目覚め、前に進もうと思ったのはいつだったか?

新しいユーザー体験にフォーカスしていた。この機能は何か、というのをユーザーに教え楽しませることだ。なぜなら、ユーザーを集めることには苦労しなかったが、留めることに苦労していた。

  • それはいつもネタ切れして諦めた時に人々にこうするとうまくいくということだ

その通り、アイデアがあってやってみたが、うまく行かず、また別のアイデアと言った具合に。最初はたくさんのアイデアをホワイトボードに書き、どれが一番価値があるかを議論し、1つずつ時間をかけて消していく。殆どが始めるには最悪のアイデアばかりで、3つのアイデアが残った。

  • たくさんのアイデアがあると言ったが、どうやって思いつくのか?また、同アイデアを評価するのか?

簡単なことだ。むしろ思いつかないことのほうが難しい。良いアイデアである必要はないのだから。ただ、どのアイデアが良いアイデア化評価することはずっと難しい。最近ファスト&スロー(以下の本)という本でチェスのチャンピオンの話を読んだ。彼らは戦局をみて直感的にあと3手でチェックメイトと言った具合に判断する。これは非常に鍛錬された直感だという。どうしてそう考えたかなどは説明出来ない。20年間ソフトウェア開発をしているが、どの機能が重要で、その機能が重要でないか、は実際のところ直感に依る部分もある。 アイデアを作る過程はフィルタリングだ。皆がアイデアを持っている。Slackで言えば、一月に20000ツイートぐらいをもらうし、カスタマーサポートにも同じような数の意見をもらう。そして、そのアイデアが良いもので実際に実装可能に思えたら、議論をする。

考えない。個別のチームにとって価値があると考えているし、それは実証されていると思うが、どれくらいかというのは気にしない。セールスの人間もいるが、90%以上の顧客と話したことはない。 良いアイデアがあって、必要なのは開発してくれる人というのは本末転倒な話だ。しかし、人々は常にアプリのアイデアがあって、それらは評価しにくいものだ。一見しただけで、良いアイデアと分かるのは珍しいケースで、実際に進められるかにも依存する。先日Youtubeを見ていたら、MileIQというアプリの広告が出てきた。これは、移動する度に移動速度や位置を見て、停止したら記録する。そして、これは出張か否かを選択する。これはシンプルだが良いアイデアにみえる。顧客は精算するのにトラブルを抱えているし、進めるのも難しくなさそうで、効果的にマーケティングをすれば、成功するビジネスになるだろう。しかし、私が聞いた95%のアイデアは成功する考えが浮かばない。

  • 実行の仕方の問題でアイデアの問題ではなく、つまりいつかSlackのようになるまでトライするべきということはないか?

ベイエリアには沢山の人がいて、多くがテック企業で成功したいと望んでいる。そこには生存バイアス(成功者ばかりに注目し間違った判断を下すこと)や認知バイアスがある。成功には実行の仕方に大きく依存する。スティーブ・ジョブズの例で言えば、ジョン・スカリーを雇い入れ、アイデアが全てだという人々を雇い入れた。アイデアは重要だが、実行するためには多くのことを用立てる必要がある。スティーブ・ジョブズのケースで言えば、ガラスやバッテリーを作るにはどうしたら良いかといったことだ。 つまり言いたいのは、実行することが好きで、とは言え、ひどいアイデアに良い実行があっても成功はしないわけで、両方が必要ということだ。

  • もし新しい会社を作るとして、どこでアイデアを探すか?

他の人にも有効かは分からないが、消費者としての自身の経験から探す。不満に思っていることを見つけやすいし、人々は不満を抱えているものだ。 いつも話す話がある。私達のオフィスのあったバンクーバーは歩道が狭くて、その歩道には店の立て看板がおいてあり混雑しているので、歩くときには蛇行しなければならない。そして、雨が降ると、多くの人が傘を指して、傘を指していない我々に向かってくる。誰も傘を逸らそうとしない。こうした事態が起きていることに対して、様々な説明を思いつく。悪意を持ってではなく、エクササイズをするだけの道が少なくこの機会にエクササイズをしているのだと言った具合だ。これには2つの説明があり、一つは皆ただ歩いているだけで、傘を避ける我々が見えていない。あるいは何が起こっているか見えているが、改良する手段が考えつかないかだ、ただ少し傘を傾ければ済むのにもかかわらず。 この話の要点は、人々が世界をどのように見ているかということだ。問題は明確で、それに気づけば、解決手段を思いつかないことはないということだ。2/3の人々は傘を傾けない。もし、あなたが傘を傾けるタイプの人々であれば、すべての世界がチャンスということだ。

  • 傘を傾けることに気づくためのコツはあるか?

他者、そして自身に気を配ることだ。

  • それはYCombinatorの歴史でもわかっている。アイデアを生み出そうとしても出ないが、他者に気を配ることで出るようになる。たくさんのアイデアをフィルターするのに良い方法はあるか?

実行することとアイデアの間の弁証法のようなものがある。Slackが良い例で、我々はビジネスのツールとして考えていたが今ではSNS的な利用も多くされている。だが我々はそのようなピボットはしないという確固たるものがあった。こうした気をそらすものが沢山有るものだ。

  • 社内でいろいろな新しいアイデアが挙がった時にノーをいうか?

私はノーを言う筆頭者だが、他にも多くのノーを言う人がいる。

  • (ここで、学生からの質問)Slackの前にも成功していると思うが、1回目の起業と2回めの起業で何か違いはあるか?

外部的な要因すべてが容易になっている。Flickrは資金調達が出来ずにやめた。早送りして7年後、我々は望む額の資金を調達できた。それ以外にも、広告や注目を集める事、リクルーティングなど様々なことが容易になった。

Adamの講義

本講義ではMeasurement, Metricsにフォーカスする。スタートアップ起業の際にする様々なことはスタートアップ専用のもので、ある領域においてエキスパートになるだろう。講義において教えることは難しいが、この領域における尺度は一般的なもので多くのスタートアップに適用可能だ。

下の写真は90年代のAmazonのHPで、いまや巨大なAmazonも最初はこのような状態だったことが分かる。

f:id:tosh419:20170825042624j:plain

Amazonはなぜ本の販売から始めたのだろうか。ベゾスは店を始めようと思っており、差別化が重要だと気づいていた。そこで、既存の会社には難しいが、ベゾスには出来る事を考えていた。Amazonのケースでは、実店舗販売を行う会社は在庫を持つスペースが限られており、インターネットを使えば巨大な倉庫を持つことでより多くの商品の選択肢を提供することが可能であった。

そして、どの商品カテゴリがもっとも利便性を得られるかと考えた時に、それは本だったわけだ。

この話にはより一般的な学びがある。測定することは漠然としたアイデアを良いものに変えるということだ。 たくさんの見積をすることで、アイデアを尖ったものに素早くイテレーションすることが出来る。

測定することはマーケットサイズといったものの見積もりには役に立たないが、ユーザー価値などを見積もるのには役立つ。

測定するもの

プロダクトを作った後には、何を測定するのが良いのか。アクティブユーザー数や収益、トランザクション数などがある。その中でフォーカスすべきは価値を生み出すユーザーだ。マーケットプレイスの例で言えば、バイヤーやセラーを測定すればトランザクション数も分かる。その中で、何がバイヤーにとって良くて、セラーにとって悪くてと言ったことが分かるので、両者に良いように改善すれば良い。こうした測定をしないとすべてが疑わしく、何が起こっているかわからない。

f:id:tosh419:20170906211654p:plain 次はリテンションに移る。まずはcohortが何かだが、ある期間にプロダクトを初めて使ったユーザーの数だ。スタートアップでは期間は1週間で、プロダクトをローンチして、はじめの1週間、次の1週間と言った形で見ていく。上の図はあるプロダクトの年ごとのリテンション率を表したものだ。この6年後どうなっているだろうか?

古いユーザーが減り続けるということは新しいユーザーも減ってくるということだ。すべてのcohortについて減少しているという傾向が見られたら非常にまずいということだ。

リング状の火、というアナロジーがある。野原に火をつけると、円状に火が広がるがやがて燃やすものがなくなると中心から火は消えていきリング状の火になる。そして、最後にはすべての火が消えてしまう。GrouponポケモンGoが最近の例だといえる。

これを逆転できれば、逆にパワフルだといえる。数少ないcohortを増加させている例が、Whatsapp、UberFacebookなどだ。つまり、新しいユーザーを獲得するだけでなく、既存ユーザーの測定をし、留めなければならない。

f:id:tosh419:20170907050549p:plain 次にTom Tunguzというベンチャーキャピタリストのデータを紹介しよう。彼はスタートアップの評価額と相関係数の高いものを求めた。第一に収益の増加、これは相関係数0.18だった。次に収益の総額、これは0.3だった。最後に、アカウントの増加が0.54だった。これは前述のエピソードを裏付ける話だ。

要するに大事なのはユーザーのリテンションを測れ、ということだ。

f:id:tosh419:20170907052830p:plain リテンションは最も大事なことだが、くまなくユーザーにプロダクトを届けるためには十分とはいえず、成長についても考えなければいけない。上のグラフは線形、2乗、3乗、指数の伸びをプロットしたものだ。継続したPRは線形の成長につながるが、予算の限界もある。もし指数関数的な伸びを期待したいのなら、週ごとの%伸び率などを計測する必要がある。

Paul Grahamの言葉を借りれば、

収益をグラフ化する代わりに、収益の伸び率をグラフ化しよう

とのことだ。

次に、イテレーションについて述べる。大企業に比べてスタートアップが優れているのはイテレーションを素早く回せるということだ。ただ、同時にイテレーションは正しい方向に回さなければならない。あまり述べられないが、どれだけイテレーションを早く回しているか、イテレーションの構成要素は何か、といったことも測定できる。

例えば、Quoraではエンジニアがユニットテストを終え、コミットするまでにどれだけ時間がかかるか、なども計り、それが10~15分の間になるようにした。これが出来ているところは少なく、結局毎日のリリースが、毎週、毎月へと遅くなっていく。これではイテレーションを回せない。

最後に、こうした測定をすると大抵は期待や想定を下回った結果になる。しかし、必要なことをやればよく、自信を持って未来に対して楽観的であるべきだ。

BOSE QuietControl 30をMacBookやBluetoothトランスミッターに繋ぐ方法

BOSE QuietControl 30を買った

少し前にBOSEのワイヤレスノイズキャンセリングイヤホンであるQuietControl 30 (以降QC30)を買った。

このイヤホン、ノイズキャンセリング性能はかなりのもので、性能面ですごく気に入っている。 無線による遅延なども普段使いでは気になることもなく、突然通信が切れるといったこともない。バッテリーの持ちは通勤時に聞く程度であれば、自分の場合1週間程度は持っている。

BOSE QuietControl 30をAUKEYのBluetoothトランスミッターで使いたい

さて、そんなQC30は普段はiPhone7と接続し使っており、問題はないのだが、次第にMacBookとも接続して使いたいように思ってきた。また、これだけのノイズキャンセリング性能があるので、飛行機内で使いたい気持ちもある。

そこで、まず買ったのが以下の製品、AUKEYのBluetoothトランスミッターである。Amazonのベストセラー製品になっている。

この製品には操作ボタンは1つしかなく、操作方法は、

  1. 電源オフ状態で、ボタンを3秒長押しすると電源オン。青LEDが1回点滅する。
  2. 電源オン状態で、ボタンを3秒長押しすると電源オフ。赤LEDが1回点滅。
  3. 電源オフ状態で、ボタンを5秒長押しするとペアリング。青LEDが早く点滅する。

となっており、3がペアリングモードとのことだ。

ところが、QC30を電源オンしトランスミッターをペアリングモードにしてもiPhone7と自動で接続されてしまい、トランスミッターとつなぐことができなかった。 そこで、iPhone7のBluetoothを切断して、ペアリングモードを試すも、うまくいかない。色々とネットで検索しても、マニュアルを見ても見つからなかった。

結果的に、MacBookもAUKEYのBluetoothトランスミッターも簡単に繋ぐことが出来たので、もし困っている人がいるかもしれないので、書き留めていこうと思う。

iPhoneアプリから簡単にできた

まずAppStoreから専用アプリをインストールする。以下にリンクを張っておく。

Bose Connect

Bose Connect

  • Bose Corporation
  • Music
  • Free

QC30を起動し、iPhoneiPadとのペアリングをした状態でアプリを起動すると以下のような画面が出ると思う。

f:id:tosh419:20170819222046p:plain

ここで、左下のBluetoothのロゴがついている部分をタップする。なお、数字の2がついているが、ペアリングに成功していない状態では2の表示はないはず。 タップすると以下のような画面に遷移する。

f:id:tosh419:20170819221954p:plain

ここの画面がQC30に接続するデバイスを編集する画面になる。 なお、QC30の仕様として、同時に接続可能なデバイス数は2つまでと決まっているので、2つ以上同時に接続した場合は、以下のような画面になる。

f:id:tosh419:20170819222037p:plain

よってAUKEYのトランスミッターを接続したい場合は

  1. BOSEのアプリ、上の画面の状態でCONNECT NEWを押し、QC30側をペアリングモードにする。
  2. AUKEYのトランスミッターをペアリングモードにする(電源OFF状態でボタン5秒間長押し)
  3. iPhoneとQ30の接続を切る。
  4. (QC30で「○○と接続されました」というアナウンスを確認する)

という手順を踏めば良い。

ちなみに、MacBookとつなぎたい場合は、MacBookBluetooth画面からペアリングを選べば良い。

f:id:tosh419:20170819223528p:plain

以上が、MacBookBluetoothトランスミッターとQuietControl 30を接続する方法である。 アプリをいじっていればわかったことだが、最近の家電製品はマニュアルにこういった話がぜんぜん書いていないのね。。

これで飛行機に乗ったときも機内オーディオとQuietControl 30を繋ぐことが出来る!

海外のスタートアップ関連イベント、展示会でオススメのものまとめ。Viva Technology報告会情報とともに。

「海外スタートアップイベント活用のポイント」Viva Technology報告会

f:id:tosh419:20170730221124j:plain

peatix.com

先日、スタートアップから見たおすすめの海外イベントの紹介をする勉強会に参加してきた。そこの議論の内容が非常に興味深かったので、シェアするとともに、海外の展示会やイベントについて軽くまとめてみようと思う。

海外イベントの選び方、成功のポイント

上記peatixリンクを見てもらえれば分かるように、フランスのViva Technologyというイベントについての座談会もあったのだが、今回のスコープとは多少外れるので、割愛し、海外イベントの選び方のセッションから書き下す。

パネリストの方々

議論内容

  • それなりに経費がかかる海外イベントへの参加。そこで成果を得るためのノウハウをご紹介いただきたい。まずは、皆さんのイベント参加経験から教えていただきたい。(西川氏)

    • 2、3年で40個くらいのイベントに参加した。CESなどの業界別のイベントやスタートアップ系のイベントに参加。国はアメリカ、ヨーロッパ、ドバイ、シンガポール。同僚は北京、上海のイベントにも参加している(美谷氏)
    • 創業事業がリテールであるが、インダストリーカットのイベントも行く。また、nVidiaSalesForceに出資してもらっているので、GTCなどは参加している。(外木氏)
    • 国内外合わせて20個程度。あとはインテルとパートナーなので、インテル関連のイベントに参加。アブダビ、ドバイ、バンコク、CESなど。求められれば行くというスタンス。こちらで出展料を払っていくケースはまだない。(木村氏)
    • 参加した数は20前後。出展や登壇したのが10個ぐらい。業界イベントやSXSW、CES。アジアだとスタートアップ系イベントなど。(萩原氏)

  • これだけは参加した方が良いイベント、呼ばれても参加しないイベント、色々とあると思うが、どのようなイベントを選んだらよいか?(西川氏)

    • スタートアップ目線で言うと、プロダクトのフェーズにもよって異なる。プロダクトマーケットフィットが終わっているか否か。あまりアーリーな段階で大きい展示会に出展すると埋もれてしまう。であれば、コンペなどに出場し、勝ち上がっていきイベントに登壇するというのが良いのではないか。一方で、大きいイベントが駄目かというとそうでもなく、CESで言えば、EurekaParkなどもある。EurekaParkなどはこじんまりしたブースが集まっているので、ブースの見た目で差別化が出来ない。そして、参加するイベントとしてはMWCがベスト。特にB2B狙いなら必須であると思う。(萩原氏)
    • 展示会に対して、直接顧客の獲得するのは期待していない。製品に最新の技術などを取り入れ、自社製品のバリューを上げるという参加の仕方だ。その観点で言えば、CESは大きい企業(例えば、デバイスメーカーなど)のトップと直接会える。ASEAN系だとセミコンはオーガナイズがしっかりしているので業界にいる人たちを見つけやすくOEM先などは見つけやすい。ダントツはCES。行くだけで収穫がある。セミコンはモノづくりをしたい人にはおすすめ。(木村氏)
    • 最初はAwarenessを高める目的で参加する。ASEAN地域でおすすめなのはInnovFest。参加することでシンガポール政府へのチャネルが出来る。自身のプロダクトに自信があるのなら参加したほうが良い。Leadという部分ではnVIDIAのGTCカンファレンスが最も良かった。DeepLearningに関わる会社が250社参加している中、nVIDIAから出資を受けたのは5社でその中にABEJAは入っていたのでプレゼンスが示せた。また、高い参加費を払わないと参加できないので来ている人たちが皆真剣。高くて難しそうなイベントを選ぶと良い。(外木氏)
    • スタートアップのフェーズによっても違うが、一番オススメなのはCESのUnveiled。これは選考もあるのだが、メディアの人しか参加しないため、対メディアPRでは大きな影響力ある。MWCは残念だった。Huaweiがホールを貸し切っていたり、ブースがHuawei帝国のようだったり。HPやNECがブースを出していても、人全然いない。イベント時のバルセロナはチケットもホテルも高いし、不満だった。スタートアップ系の4YFNは良いが、MWC本体は大企業向けの接待イベント。(美谷氏)

  • 海外イベントに参加する際のKPIはどのように設定している?(西川氏)

    • CESはわかりやすく成果があるが、行ってみないと分からないイベントも正直有る。その場合、必ずどこかで商談を入れ、出張全体で元を取れるようにする。例えば、ベルリンのイベントだったら、アムステルダムで商談もするといった具合だ。また、チラシをどれだけ撒いたかも一つのKPIで数はカウントしている。(美谷氏)
    • CPA(Cost Per Acquisition)のような顧客獲得の算数は社内である。また、メディアでプレゼンが取り上げられた、ファイナンスに繋がった、それが最終的な利益につながるというのはアピールになる。また、事前にどの会社がどういう形で来るかが分かる事もあるので、意思決定検者と会うようにする。その日のうちにメール、1週間後にフォローメールも忘れがちだがする。日本でしている当たり前のことをする。(外木氏)
    • 展示会のあと、1週間程度は滞在するようにしている。そこで、商談をする。CESの際はLasVegas→SF→サンタクララインテルのSVPと合った。また、成果の期待の半分くらいは外れる。でも行ってみると、思いがけないオポチュニティーがある。(木村氏)
    • シードアーリーの頃から行っていたから、正直KPIは最初はなかった。それよりも闇雲にチャンスをつかみたい、グローバルなら誰か引っかかるのではないかという気持ちが先行していた。その中で編み出したのが、パートナー企業に連れてってもらう。初めては香港だったが、デバイス系のパートナーに連れて行ってもらった。最初はいかに現地の滞在時間を少なくして、やっていた。そうすると出先でテーブルセットですぐカバンを開いてデモできたりする。プロダクトソリューションフィットに辿り着く前に、意見を聞きたいが、出展すると生の意見を聞ける。作り込む前に意見を聞きたい。やっと最近になって(顧客を)刈り取りたいと思うようになった。また、一人で行くのではなく、メンバーを連れて行って、プロダクトの説明をさせると社内のインナーマッスルが鍛えられる。社員に刺激を与えられる(萩原氏)

  • 展示会で会った人たちのフォローアップはどのようにしているか?日本では名刺を見れば分かるが、海外はわからない会社も多いと思うが。(西川氏)

    • 名刺はあてにならないし、活用もできない。一番良いのはLinkedinでその場でつながる事。そして、忘れないうちにメッセージを送っておく。興味ある人はその日のうちにつながるというのが大事だ。更に、本当に大事な相手は現地で食事を設定する。ブースに来たうちの10-20%くらいの来場者はLinkedinにつなげる。あとでやると探せないので、その場でつなげる。そういう意味で言うと、合う前にLinkedinのプロフィールは真っ黒にしておいたほうが良い。(萩原氏)
    • 名刺をあとから見返すのは苦手。自分の名刺はQRコードが印刷してあって、SNSが全部書いてある。基本は大事な人は可能であれば飯を食うようにする。(木村氏)
    • その場で次の日にアポをとって、面接につなげる。我々の業界では、需要・供給バランスを見ているとアジアは圧倒的に供給側のプレイヤーが少なく、テクノロジー的に解を持っている企業が少なかった。その時点でLeadが溜まっているので、あとは刈り取るのが我々の仕事だった。また、初期には経産省TVSの制度で仮説検証をさせてもらって、今に至っている。(外木氏)
    • 名刺は難しいし、メールも見れない。パリに行くなら彼に会おうみたいなのは整理している。この人がキーパーソンだから、フライトを変えて会うようにしよう、など。展示会の中で商談が解決することは少ない。2年目、3年目にようやくビジネスをしようかという話に発展したこともある。キーとなる展示会では同じような場所、カラーで何年か展示を続けることが大事。(美谷氏)

  • 最大限に海外イベントを活用するにはどうしたらよいか?(西川氏)

    • イベント以外のイベントを探すようにしている。CESの例ではMeetUpを探すようにしている。イベントは人が多すぎてゆっくり話せないことも多いので、イベント期間中のサブイベントに顔を出すようにしている。(美谷氏)
    • 事前準備が9割。海外イベントに出ることが決まったところで盛り上がってしまって、本番は名刺の枚数、ビラの枚数足りないことも多い。日本だったら、Leadどのように流すかなどしっかり準備をするが、海外では怠ってしまうことも多い。あたり前のことだが、準備時間をかければかけるほどリターンも大きい。(外木氏)
    • なるべく長く滞在することだ。また、相手のオフィスを訪問する。訪問すれば、会社規模や言っていることが嘘でないかが分かる。(木村氏)
    • 自分の合う展示会を探す。事前準備は国内でもやるが、現地で準備をすることもおすすめ。日本で印刷したビラが足りなくなった時にも、ビラの印刷も現地の業者を使えば、対応できる。あとは、オープンマインドで図々しく会う。意思表示する事が大事だ。スタートアップは海外のピッチコンペに絶対出るべき。(萩原氏)

議論に上がった展示会+α情報

以下に、海外のスタートアップに関連するイベントをまとめます。開催時期に関しては年によって前後したりするので、最新の情報を調べるようにしてください。

開催時期 イベント名 開催場所 概要 参加費その他
1月 CES ラスベガス(アメリカ合衆国 世界最大級のエレクトロニクス系の展示会 無料~$200(早期登録で無料)。業界イベントの為、一般客参加不可。
2月 MWC バルセロナ(スペイン) 携帯電話関連の展示会 699ユーロ~
3月 SXSW(サウス・バイ・サウスウエスト) オースティン(アメリカ合衆国 もともとは音楽祭として始まったが、今ではテクノロジーの祭典として注目を集める。 $495~$1,695
3月 CeBIT ハノーファー(ドイツ) 世界最大級のコンピュータ・ITの展示会 61ユーロ
3月 GTC サンノゼアメリカ合衆国 NVIDIA社が開く開発者会議 展示のみ$325、会議含~$1,920
5月 Google IO マウンテンビュー(アメリカ合衆国 Googleが行う開発者向け会議 アカデミック$375、一般$1,150
5月 Tech in Asia シンガポール シンガポールで行うスタートアップイベント STARTUP PASS: $299 GENERAL PASS: $499 INVESTOR PASS: $799
5月 innovfest シンガポール シンガポールで行われるSMART NATION INNOVATIONS WEEK期間中のイベントの一つ £147.50(早期申込割引)–£295.00
6月 CES Asia 上海(中国) CESのアジア版。中国で行われる 早期登録で無料
6月 COMPUTEX 台北(台湾) アジア最大級のコンピュータ・通信関係の展示会 200台湾ドル
6月 Viva Technology パリ(フランス) スタートアップや投資家が多く集まるパリのイベント 300ユーロ
6月 WWDC サンノゼアメリカ合衆国 Appleが行う開発者向け会議 $1,599
7月 Tech Open Air ベルリン(ドイツ) テクノロジーとアートをテーマとしたイベント 419ユーロ~
9月 TechCrunch Disrupt SF サンフランシスコ(アメリカ合衆国 TechCrunchが主催するスタートアップイベント $1,995~
11月 Slush ヘルシンキフィンランド フィンランド発のスタートアップや投資家が集まるイベント 295ユーロ~(複数種類あり)

※続きは今後更新します;;

海外イベント参加成功のコツまとめ

  • ホテルは速攻で予約を

【Startup School】スタートアップの力学

スタートアップの力学 - Kirsty Nathoo

youtu.be

講演者の経歴

まず、軽く講演者の経歴からおさらいしよう。

Kirsty Nathoo

Kirsty Nathooは2002年にケンブリッジ大を卒業したあと、PwCでキャリアを過ごし、YCombinatorに入る。その後、YCombinatorではCFOとして、YCombinatorの資金面のみならず、スタートアップの資金面の支援もしている。

参考:TechCrunchLinkedIn

Kirstyの講義内容

Kirstyの講義資料はここに上がっている。

Kirstyの講義のまとめ

  • スタートアップを会社化するなら、C Corporationにしよう
  • 法人化の手続きにはClerky、従業員の雇用管理にはGustoなどを使うと良い
  • vestingの期間、仕組みを理解しておこう
  • 初期の資金調達はコンバーチブルノート、後半ではシリーズラウンドが用いられる。コンバーチブルノートにはSAFEという仕組みがよく使われる

今日の講義のトピック

  • 企業形態
  • 資本政策
  • 資金集め
  • 雇用
  • ビジネスを行う事

このトピックの順は会社が作られ大きくなっていく過程でもある。

会社の形態

会社化することにより、個人と切り離されて考えられることになる(Separate legal entity)。その為、税金、資産と負債、契約、訴訟などは所有者とは切り離されて考えられ、スタートアップの創業者は会社と独立した存在だ。USAではこういった形態の会社をC corporationと呼んでいる。スタートアップを始めるにあたり、LLCその他にしたほうが良いと言う人もいるが、スタートアップに適しているのは間違いなくC Corporationだ。

C Corporation

カリフォルニア州の場合、以下のような企業形態があるそうだ。

企業形態 事業主の責任 二重課税 税務コスト IPO
個人経営(Sole Proprietorship) 無限責任 非対象
C株式会社(C Corporation) 投資額に限定 対象
S株式会社(S Corporation) 投資額に限定 非対象
パートナーシップ(Partnership) 一人以上のパートナーが無限責任 非対象
LLC(Limited Liability Company) 投資額に限定 非対象

ここで、C株式会社、S株式会社などとなっているのは連邦税法のSubchapter C、Sによって税金規定が決まっているため、このような名前になっているそうだ。また、LLCは日本で言う有限会社とのことだ。

参考:企業形態について

難しいのは、いつ法人にするか、という問題だ。早すぎても煩雑なプロセスが大変だ。初期にはまだ、このビジネスを本気でやるかわからないし、副業としてやっているかもしれない。この時期には法人化すべきでない。逆に、多くの特許を出願するとか、製品を開発して課金できるところまでいったら法人化すべきタイミングだ。口座を分けて管理すべきで、混同すべきではない。また、起業家個人の無限責任を回避する意味でも法人化の意味はある。

YCombinatorとしては米国が法人を作る場所としてはベストだと考えている。なぜなら資本の多くは米国に存在し、米国の投資家は一般に海外投資をしにくいからだ。物理的に米国にいる必要はない。州についても50州のどこかに実際にいる必要はない。そして、実際のところ多くのスタートアップがデラウェア州で法人登記しているデラウェア州の法律は株式の発行等に柔軟で、事業主のプライバシーの保護についても優れている。デラウェアでは米国民でなくても米国に実際に存在しなくても登記が可能だ。

実際の法人設立の方法についてだが、大きく、①フォームを埋めた書類をファックスする(これは24時間以内に済む)、②定款を定めるの2つのステップがある。こうした手続をすすめるにあたって、弁護士を使うのが一般的だ。大体、出願手数料に加えて$3,000-$5,000程度でやってくれるだろう。シリコンバレーの多くの弁護士は資金調達を終えるまで支払いを延期してくれる。もし、何処か田舎の弁護士の友人がいる場合にも、彼らに頼むべきではない。例として、昔YCで扱ったケースで、コネチカット州のLLCがあった。創業者の友人がコネチカット州の弁護士だったそうだ。YCとして投資する事になったとき、デラウェア州のC-Corporationに変更することにしたのだが、これもコネチカット州の弁護士が担当した。しかし、3ラウンドの資金調達のあと、(巨額の資金調達の際に)、他の弁護士が会社の変更に間違いがあり、有効でないことに気づいた。これにより資金調達は6ヶ月遅れ、4つの法律事務所を巻き込み、50万ドルがかかった。弁護士を使う以外にもYCombinatorのプラットフォームであるClerkyを使うという手もある。これなら数百ドルで済む。

資本政策

株式の割当ては金銭的リターンに直結するので、共同創業者全員が公平と感じなければならない。一般的には共同創業者でだいたい同じくらいの割当にすべきだ。ただ、創業者によっては、「自分のほうが3ヶ月前に始めたから…」、「自分がアイデアを考えたから…」、などといって、自分が90%の割当だなどという。アドバイスとしては、こうした後ろではなく、前を見て決めるべきだということだ。この先、会社が成功すれば、10年、15年と続くことになるので、3ヶ月はほんの少しの期間だということだ。 付け足すことがあるとすれば、株式の拮抗を避けるために少しだけ株の割当を多くしておくことだが、こうした投票をしなければならなくなるような状況では修復不可能なほど創業者同士の関係は悪くなっているだろう。

会社の株を買うときは、創業者がいくらかの個人用口座からお金を出し、会社の口座に入金する。 会社の株を買ったときから会社の一部を保有することになる。そして、創業者が去るときには、会社は株のいくらかを買い戻す権利がある。そして時間が進むにつれて、会社が買い戻す権利のある株数は減っていく。これをvesting(権利確定)という。そして、スタートアップとして標準的な、4年間のvesting、1年のcliffを推奨する。

f:id:tosh419:20170709091430p:plain

引用元:Dropbox - Kirsty Nathoo - Startup Mechanics.pdf

上の図が典型的なvestingの様子だ。縦軸は創業者の株式のシェアを表している。365日後には25%の株式が会社側の買戻権が外れることがわかる。1年後以降は1ヶ月毎に徐々に買戻権が外れ、4年が経過するとすべての株式が創業者のものとなることが分かる。その為、4年以内に会社を去ると、いくらかの株式は会社によって買い戻されることになる。そして、その際に買い戻される金額は、会社から創業者が株を買ったときの金額と同じであるため、儲けは出ない。 このような制度がある理由は、他の共同創業者に対する保護がある。vestingがない場合、会社に残った共同創業者の努力に対する報酬と同じだけを会社を立ち去った共同創業者が得ることになる。これは、会社に残ってハードワークをするインセンティブになっており、同時に投資家を保護することにもなる。

83b electionについても述べておかなければならない。これにサインしないとvestingの度に保有する株式に対して税金が課されることになる。逆に言うと本来vestingの際に課される税金をこれにサインすることにより、例外的に株式の取得時点で課すことにしてくれる。つまり、最初のうちは株式を$0.00001とか非常に安い金額で取得するが、この時に取得株式の時価と取得金額の差額に対する税金を支払う事で、価値が上がったvestingの時点で払わなくて良くなる。$0.00001で取得した際には時価も$0.00001並に安い金額であろうから、実質的に税金を支払わなくて良くなる。なお、この手続は、株式取得から30日以内に米国歳入庁に提出しなければならない。

参考:BizLawInfo.JP

資金調達

資金調達は、シリーズラウンドによるもの、コンバーチブルノートによるものがある。シリーズラウンドではラウンド毎に特定の価格で株は売買され、コンバーチブルノートでは投資家がすぐに現金をくれる代わりに、将来株を渡すことになる。一般的にシリコンバレーの多くのスタートアップが、最初はコンバーチブルノートを選択し、数年後にシリーズラウンドで資金調達をする。

シリーズラウンドでは企業価値が一株の価格を決定する。例えば、創業者が900万株を持っていて、企業価値が800万ドル、200万ドルを資金調達したい場合、企業価値を900万ドルで割って($8M/9M=$0.89/株)、一株あたりの価格を調達したい金額から割れば売るべき株数が分かる。ここで、この資金調達を終えた後には企業価値は1000万ドルになる。これにより、資本構成は以下のように変化する。

普通株 優先株 発行済み株式における比率
創業者1 3,000,000 26.7%
創業者2 3,000,000 26.7%
創業者3 3,000,000 26.7%
投資家 2,250,000 20%
合計 9,000,000 2,250,000 100%

コンバーチブルノートについて、ベイエリアではSAFE(Simple Agreement for Future Equity)というものがある。投資家が現在において資金を出し、未来において株式を得る権利を定めたものだ。未来において株式を得るときの評価額にもvaluation capと呼ばれる定めがある。将来のシリーズラウンドで巨額の企業価値で資金調達をする際に、初期の投資家は一定の低い評価額で株式を調達できる。例えば、先程の会社の例で言えば、200万ドルを調達するシリーズラウンドの前に、40万ドルを400万ドルのvaluation capのSAFEで調達していたとする。この場合、シリーズラウンド時の株式の価格には、シリーズラウンドの投資家の価格である$0.89($8M/9M株)とSAFEで投資した$0.44($4M/9M株)の2種類が存在することになる。この場合、SAFEで投資した投資家は、約半分の価格で株式を取得することができる。これにより、資本構成は以下のようになる。

普通株 優先株 発行済み株式における比率
創業者1 3,000,000 24.7%
創業者2 3,000,000 24.7%
創業者3 3,000,000 24.7%
SAFEによる投資家 900,000 7.4%
シリーズラウンドの投資家 2,250,000 18.5%
合計 9,000,000 3,150,000(※) 100%

(※)動画中では2,250,000となっているが間違いだと思われる。

このようにして、株式は希薄化され創業時から以下のように変化する。これは避けられないことであるが、同時にパイ全体(富の大きさ)は大きくなっている。

f:id:tosh419:20170709162722p:plain

注意しておきたいのは、必要もないのに創業時の低い企業価値で多くの株を売らないことだ。調達した資金を何に使いたいのか、使いみちがはっきりしないのであれば、6ヶ月、あるいは1年待ち、より高い評価額で資金調達をしよう。

雇用

資金調達が終わり、そのお金は多くの場合、従業員の雇用に使われる。雇用については非常に複雑で多くの法律や規制が関連するので、ここでは基本となる考えを抑えておこう。 USでは雇用には、Contractor(独立契約者、コントラクター)、Employee(従業員)の2種類の形態がある。そのどちらにしても、知的財産は会社に帰属することになる。違いは以下のとおりだ。

コントラクター 従業員
知的財産 会社に帰属 会社に帰属
勤務時間 自身で決定 会社で定める
マネジメント プロジェクト、ゴールによって規定 会社が管理
設備 自身で準備 会社が準備
支払い 契約に基づき決定 最低賃金がある

従業員への賃金支払については、税金その他も複雑でGustoのようなサービスを使うのが良い。 従業員へのインセンティブには株式の付与もある。創業期には、従業員には最低賃金以上ではあるものの平均以上の賃金は払えないことがある。これを穴埋めするのに、株式の付与を行うケースが有る。そして、創業期のメンバーにはパフォーマンスを大きく左右するため、株式の付与に関して気前良くあるべきだ。典型的には最初の10人の従業員には10%の株式をスライドをつけて渡すなどだ。もし、従業員のパフォーマンスが上がらなかったり、すぐやめた場合にはvestingによってもちろん買い戻すことができる。 最後に、株式をどの従業員に何株付与して、何%のシェアを持っているかには常に気を配っておこう。

質疑応答

(Q.) プロフィットシェアリングなどに比べて、株式の付与が良い方法なのか?

(A.) 急成長の曲線を描く、スタートアップの場合、多くの価値は株式によってもたらされる。よって、株式による支払いが良い。逆に商店など多くの資金調達を必要とせず、また最初から収益が上がる場合は、プロフィットシェアリングなども考えられる。

(Q.) 優先株普通株の違いは?

(A.) 優先株には普通株にない権利が付与されている。liquidation preferences(この記事で触れた)などもその一部だ。

【Startup School】スタートアップを始める理由

Stanford Univ.のオンラインコースで面白いものをやっていた。 Startup School: The First 100 Daysというもので、様々なスタートアップの創業者などが自らの体験をもとにトピックについて語っている。中々参考になることも多いので、備忘録を兼ねて、まとめることにした。

スタートアップを始める理由 - Sam Altman、Dustin Moskovitz

youtu.be

講演者の経歴

まず、軽く講演者の経歴からおさらいしよう。

Sam Altman

Sam Altmanは著名なベンチャーキャピタルであるY Combinatorの社長である。1985年ミズーリ州に生まれたSamはスタンフォード大学コンピュータサイエンスを学び、19歳の時にSNSアプリケーションを作るLoopt社を共同創業する。Loopt社は2012年に$43.4Mで買収される。その後、2014年にSamはY Combinatorの社長に指名され現在まで社長を務める。Samは2015年にForbes誌の30歳以下のトップ投資家に選ばれたほか、BusinessWeek誌のBest Young Entrepreneurs in Technologyにも選ばれている。

Samは2014年からスタンフォード大学で教鞭をとっており、例えば2014年の講義はここにまとまっている。

参考:Wikipedia

Dustin Moskovitz

Dustin MoskovitzはFacebook社の共同創業者である。1984年生まれのDustinは若くして純資産が100億ドルを突破している。 経済学をハーバード大学で学んでいたDustinはMark Zuckerbergらルームメイトと2004年Facebookを創業する。2008年にFacebookを去ったDustinはAsana社を創業する。その後、Dustinはエンジェル投資家としての顔も持つようになる。

参考:Wikipedia

二人の講義のまとめ

  • Dustinの講義内容
    • スタートアップ成功の可能性は1%
    • 起業に限らずレイターステージの会社に入る事による金銭的リターンも大きい
    • スタートアップはHARDだ
    • それでもやる理由は「やらずにいられないから」
  • Samの講義内容
    • 第一に価値観、第二に才能、第三にスキルの順番で社員を選ぶ
    • 少数に愛され使われるプロダクトをまずは目指す
    • ユーザーインタビューはトップレベルの質問は避ける。具体的に掘り下げた質問をすること
    • 顧客と話す→ペインポイントの理解→それを表す製品開発→顧客のもとに持っていき顧客が何をするかを見る の繰り返しを早く行うこと

Dustinの講義内容

さて、講義内容はYoutubeに上がっているのでそれを見ればよいのだが、忘れてしまわないように要点をまとめていこうと思う。 まずは、Dustinの講義から見ていこう。

金銭的なリターンと成功確率

創業したスタートアップを成功させると金銭的なリターンは計り知れない。しかし確率は低い。CBInsightsによれば、資金調達のラウンドに応じて、スタートアップの数は 1027(シード)→411(2ndラウンド)→232(3rdラウンド)→90(4thラウンド)→34(5thラウンド)→9(6thラウンド) と減っていくとのことだ。目安としては厳密ではないものの、6thラウンドがユニコーン企業価値10億ドル以上)というイメージらしい。その確率実に1%。成功するには、

  1. イデアが優れていること:ユニーク、競争優位がある、大きな市場を想定している
  2. 実行力があること:ハードワーク、適切な人を引き付ける、競合よりも良い戦略を持つ、
  3. 幸運:困難やコントロールできないこともある

などが必要だ。また、近年になるほど、このラウンドを通過するのが難しくなっているという。これは多くの競合と戦わなくなければなければならない、多くの人がスタートアップを始めている他、ベイエリアではコストが上がっているというのも理由だ。しかしながら、最も大きな理由は現在マーケットにいる大企業のスピードも上がっており先行者利益を活かす方法が知られてきたからだ。

起業家になるか従業員として働くか

起業家として、ペットシッターUBERを創業したケースを考える。創業者で$100Mで会社を売却、株式の希薄化もうまくやり10%の株を売却し、$10Mの現金を手にする。これは非常にラッキーなケースで、スタートアップを途中でやめれば何も手にすることは出来ない。また、売却をしたとしても、investor liquidity preference*の問題があり、多くのケースで何も手にすることができない。

*Investor Liquidity Preference

ベンチャーキャピタルから(VC)の資金調達の際に使われる契約書(term sheet)では主に、(a)調達額、(b)一株の価格、(c)投資前の企業価値、(d)liquidity preference、(e)投票権、(f)希薄化防止条項、(g)登録請求権などが書かれているという。

参考:Startup InnovatorsWikipedia

このliquidity preferenceに関しては売却、IPOなどのイベントの際に投資家を保証するためのもので、最初の投資額や未払いの配当などの支払いを規定するものだ。

例えば、あなたは創業者で$100kの企業価値を持つスタートアップのオーナーで、このスタートアップに対し、

  1. VCが$50kの投資(新株を購入)をしたとする。これで、企業価値は$150kとなり、VCは33%の株を持っていることになる。同時に、$20kの配当を将来支払うことを取り決める。
  2. 会社を第3者に$400kで売れたとする。
  3. VCはまず、$20kの未払い配当を回収する。これで残りは$380kだ。
  4. 次に、VCは最初の投資額である$50kを回収する。これで残りは$330kだ。
  5. さらに、VCは33%の株分である$110kを回収する。これで創業者に残ったお金は$220kだ。

以上をまとめると、$400kでスタートアップを売却できたとしても、66%分の$300kはそのまま創業者に渡るのではなく、VCに最初の投資額や配当金も支払う必要があることが分かる。

参考:Wikipedia


起業するリスクは上記の通りだが、従業員としてレイターステージのスタートアップに入るケースはどうか? $500M-$20Bの企業価値のスタートアップに入り、0.05%の株式を取得できれば、$10Mになる。これが、100人目のFacebookのエンジニアが多くの起業家よりも大きい金銭的なリターンを手にしている訳だ。もちろん、悪い会社を選んでしまい株が無駄になってしまうリスクもあるが、レイターステージであればその会社についてより多くの情報を手に入れることができる。

レイターステージ企業に入ることのインパク

ある程度確立された企業に入ることによるメリットもある。確立された企業であれば、ユーザー数、インフラ、開発チームなど多くのリソースを保有しており、同じことをスタートアップで行うに比べ、大きなインパクトを与えることが可能になる。例えば、

起業家のHard Things

HBOのドラマ、シリコンバレーのようなストレスが起業家にはある(ドラマ、シリコンバレーは日本ではHuluで見ることができる)。チームのメンバーは人生の最良の期間を起業家に捧げているし、そのメンバーを雇おうとするリクルーターも接触してくるので、彼らを失う恐怖に悩まされることになる。資金調達ラウンドは毎回、生き死にの様だし、競合は起業家を常に狙っている。さらに起業家は会社や家族、そして自分自身のための時間を作るのに必死になり、くたくたになるだろう。

Hard Thingsについて掘り下げたい場合、以下の本がおすすめとのことである。

The Hard Thing About Hard Things: Building a Business When There Are No Easy Answers

The Hard Thing About Hard Things: Building a Business When There Are No Easy Answers

誰がボスかについて

起業家は自分がボスであるように思われがちだが、むしろ起業家になると従業員、顧客、パートナー、メディア、ユーザー、ステークホルダーすべてが起業家のボスとなる。皮肉なことに、起業家になるとより多くのボスを抱えることになるのである。

ここまでのまとめ

迷信 現実
金銭的なリターン 起業し株を売却するのが良い 成長している会社に入る方が可能性が高い
社会的インパク 起業することが唯一の方法である 既に確立された会社や製品があなたの仕事を何倍にも大きくする
生活 最高! ハードワーク、ストレスにあふれる
管理 起業家が命令する 皆が起業家のボスになる

それでもスタートアップを起業する理由

やらずにはいられないから、この一言に尽きるという。これは、情熱がある、才能がある、この2点によって構成される。

最後に質疑応答があったが、講義の繰り返しのような内容が多かったので省略。

Samの講義内容

続いて、Samの講義内容に移る。こちらはslideshareに資料が上がっているので、以下を合わせて参考にしたい。

何がシリコンバレーを特別なものにしているか

シリコンバレーには起業家が奇抜なアイデアを出してもそれをバカにせず本気で行えるだけの環境がある。出る杭は打たれる、といったことはない。また、スタートアップで働く人の比率が高く、他のスタートアップを思いやる文化がある。

イデアファースト

シリコンバレーの迷信の一つに、スタートアップを起業しさえすればアイデアは何でも良いというものがある。起業したのちにアイデアをピボットすればよいと。しかしながら、大きく成功したスタートアップはアイデアが第一だったし、他社のコピーではなくユニークなものだった。若い人たちは技術の最前線にいる傾向にあり、大きな波が来る前にアイデアを想像できるはずだ。

スタートアップの創業時期はある時期に集中していることに疑問を持つかもしれない。90年代後半、2000年代初頭、2009-2011年などだ。これにはインターネット、モバイル、スマートフォンといった大きな波があった。起業家のやるべきは次の大きな波が何かを予測することだ。もちろん機械学習は一つの大きな波だ。今はおもちゃのように見えることでも次の大きな波かもしれない。そうした波によってできることをやり、そのプラットフォーム上で作ることだ。

共同創業者

共同創業者がいるのが良いが、それが悪い共同創業者の場合、いない方が良い。共有できる歴史を持ち、確固たる共同創業者を持つべきだ。共同創業者に求めるのは、第1に価値観、第2に才能、第3がスキルだ。多くの人は、JavaScriptのスキルがあるからなどと逆の順番で共同創業者を選ぶ。2004年から2017年でスタートアップに対して何が変化したかという質問に答えるとするなら、現在はスタートアップに間違った理由で入る人が多いということだ。すなわち、かっこいいから、という理由で。こういう人たちは2004年には投資銀行に入っていた。スタートアップをやる理由は、アイデアがあってそれを放っておけないからだ。

少数に愛されること>多数に好かれること

素晴らしい製品を開発する事は最も重要なことの一つだ。また、製品を好きでいてくれる多数のユーザーよりも愛してくれる少数のユーザーの方が大事だ、ということを多くのスタートアップは誤解している。もちろん、多数のユーザーに愛される製品を作ることが理想だが、それは無理で、狭く深いところから広げるか、広く多くのユーザーに届け、リテンションを増やすかの道しかない。そして、少数のユーザーに愛される製品を作ることから始めるべきだ。自分の生活を見ても、本当に好きな製品は他人に勧めるだろう。これを見る指標はリテンションと使用頻度だ。成長率やユーザー数の絶対値は当初は追うべきではなく、どれだけ使っているかに注目すべきだ。しかしこうした分析も優れた製品を作るということなしにはうまくいかない。良い製品を作ること、これが最重要だ。

ユーザー獲得

最初に少数のユーザーを獲得し、ユーザーの声を聴くことが重要だ。ユーザーの声を聴くというと、使用しているユーザーに電話をかけて、「僕たちのアプリ好き?」といった感じで感想を聞くというように思われるかもしれないが、ユーザーは良い事しか言わない。むしろ、「誰かほかの人に勧めてくれたか?/それはなんで?」、「課金してくれたか?/それはなんで?」といったインタビューから特定の点に関して話をすべきだ。掘り下げないトップレベルの質問は役に立たない。 こうしたインタビューをするための最初のユーザーは直接メールを送ったり、つながりを使って頼むべきだ。そして、もし有料アプリなら実際に払わせることだ。あるいはターゲットとしている人たちに直接メールを送り使うように頼む方法も考えられる、もちろんこの段階ではコンバージョン率は2、3%と低いだろうが。ソーシャルメディアの利用、Hacker Newsへのポストなども考えられる。 AirBnBはシリアルのつまった大きな箱をジャーナリストに送り付けた、デスクの上で注目を集めるために。もっとも簡単な手段はFacebookGoogleで広告を打つことだが、おすすめできない。

会社を作ること

優れた起業家はユーザーの声をよく聞く、時にはユーザーを訪問したり、Airbnbのケースではユーザーと住んでみたりもした。 顧客と話し、ペインポイントを理解し、それを表す製品を開発し、顧客のもとに持っていき、顧客が何をするかを見るといったサイクルを繰り返す。このイテレーションを繰り返し、1回で2%改善できれば、それが1年後には全く別のものになっているだろう。 会社の期間については、簡単なもので2から3年を考えておくが、これは必ず長くなる。長いものでは10年かかるものもある。そして、10年経った頃にはもっと良い判断ができるようになっているはずだ。

従業員を雇うこと

雇用については、全てがうまくいくまではリーン的であるべきだ。これはある意味バイモーダルと言え、最初のうちはスピードボートのようにあるべきで、うまくいきだしてから空母のようになれば良い。マーケットに本当にフィットしたとき、スケールを考えるべきだ。しかし、そうなった時でも普通の人達を雇う誘惑には抵抗しよう。あなたが作ったチームは会社自身になるのだ。もし、素晴らしい人達のチームと人々が愛する製品を作れたならば、90%以上は成功したと言って良いだろう、どちらもすごく難しいことだ。良いCEOは採用活動に多くの時間を割いている。

スタートアップはハードだ。だが、あなたには自身に、チームに、投資家に気を配る義務があるし、健康や個人的な人間関係も疎かにしてはならない。そして、自身のスタートアップの最も重要なミッションを見つけるべきだ。

質疑応答

(Q.) 情熱的だがスキルにかける人物と、スキルはあるが情熱にかける人物がいたらどちらを採用するべきか?

(A.) 価値観が一番、才能が二番、特定のスキルは三番だ。情熱があればスキルはあとから学べる。

(Q.) どうしたらよいアイデアをたくさん得られるか?

(A.) 一つには練習。人々にアイデアを話し、悪い点のフィードバックをもらう。良いアイデアは一人からは生まれない。賢い人達で話している中から生まれる。生活の中に問題を見つけ、問題について話し続けるべきだ。そして、アイデアは壊れやすいものなので、すぐに不完全なものだと言って切り捨てないことだ。

(Q.) スケールアップすべきタイミングはいつか?

(A.) それは起業家が知っている。週に80時間プロダクトの事ばかり考え、ついにユーザーが気に入ってくれた。今こそ、というタイミングがわからなかった起業家を今まで見たことはない。

以上。第2回目以降の講義もまとめていこうと思う。

企業価値評価 バリュエーションの理論と実践 を買った【目次編】

最近、本業で新規事業検討をやっていることもあり、DCFによる企業価値・事業価値評価などに興味が出てきた。そこで、企業価値評価の良書と言われている、企業価値評価 バリュエーションの理論と実践 第6版を買ってみた。なお、本書は上下巻に別れており、内容に関しては以下の目次を参考にしてほしい。

企業価値評価 第6版[上]―――バリュエーションの理論と実践

企業価値評価 第6版[上]―――バリュエーションの理論と実践

企業価値評価 第6版[下]―――バリュエーションの理論と実践

企業価値評価 第6版[下]―――バリュエーションの理論と実践

目次

意外に目次が細かくWeb上に載っていないので、上巻、下巻どちらを買えば良いのかわからない人もいると思う。以下に上下巻の目次を記す。

上巻

  • 第1章 なぜ、企業価値か?
    • 1 株主価値創造とは何か
    • 2 ステークホルダーの利害は一致させられるか?
    • 3 株主資本主義はすべての社会的問題を解決できない
    • 4 価値創造の原則を忘れることの危険性
    • 5 根強い短期志向
    • 6 本書について
  • 第2章 価値創造の基本原則
    • 1 成長率、ROIC、キャッシュフローの関係
    • 2 価値創造におけるROICと成長率のバランス
    • 3 現実化での実証例
    • 4 経営に対する意味合い
    • 5 ROICと規模を含有したエコノミック・プロフィット
    • 6 価値創造の数理
  • 第3章 企業価値不変の法則とリスクの役割
  • 第4章 株式市場の魔力
    • 1 なぜ投資家の期待には際限がないのか
    • 2 期待との際限なき戦いの実例
    • 3 株主に対する総リターンの要因分析
    • 4 株主からの期待を理解する
    • 5 経営への意味合い
  • 第5章 市場はすべて織り込み済み
  • 第6章 投下資産収益率(ROIC)
    • 1 ROICを高めるドライバ
    • 2 競争優位性を築く要素
    • 3 ROICの持続性
    • 4 ROICに関する実証的分析
  • 第7章 成長とは何か
    • 1 売上成長のドライバ
    • 2 成長と企業価値創造
    • 3 なぜ成長を持続させるのは難しいのか
    • 4 企業の成長に関する実証分析
  • 第8章 企業価値評価のフレームワーク
    • 1 エンタプライズDCF法
    • 2 エコノミック・プロフィット法
    • 3 アジャスティッド・プレゼント・バリュー(APV)法
    • 4 資本キャッシュフロー
    • 5 エクイティ・キャッシュフロー
    • 6 DCF法を用いたその他のアプローチ
    • 7 その他の企業価値評価手法
  • 第9章 財務諸表の組み替え
    • 1 財務諸表の組み替え:基本的な概念
    • 2 財務諸表の組み替え:実践編
    • 3 専門性の高い課題
  • 第10章 業績の分析
    • 1 投下資産収益率(ROIC)の分析
    • 2 売上高成長率の分析
    • 3 信用力と資本構成
    • 4 業績分析にあたって考慮すべきこと
  • 第11章 将来の業績予測
    • 1 将来予測の期間と詳細
    • 2 良い企業価値評価モデルを作るための条件
    • 3 将来予測の構造
    • 4 補足事項
  • 第12章 継続価値の算定
    • 1 DCF法での継続価値算定式
    • 2 エコノミック・プロフィット法での継続価値算定式
    • 3 継続価値の解釈をめぐる問題
    • 4 陥りやすい誤り
    • 5 他のアプローチの評価
    • 6 より高度な継続価値の算定法
  • 第13章 資本コストの推定
    • 1 WACC
    • 2 株主資本コスト
    • 3 税引後有利子負債コストの推計
    • 4 目標とする資本構成を基に資本コストを推定
    • 5 複雑な資本構成
  • 第14章 企業価値から1株あたりの価値へ
    • 1 非事業用資産の評価
    • 2 有利子負債および有利子負債同等物の評価
    • 3 ハイブリッド証券と非支配持分の評価
    • 4 1株あたり価値の算定
  • 第15章 算定結果の分析
    • 1 モデルの検証
    • 2 感度分析
    • 3 シナリオの作成
    • 4 企業価値評価の妙味
  • 第16章 マルチプル法の活用法と注意点
    • 1 複数事業を保有する企業は各事業部門の合計として評価する
    • 2 将来の業績予想を用いる
    • 3 経験豊かな実務家が使うマルチプル
    • 4 NOPLATとEBITA
    • 5 非事業項目の調整
    • 6 適切な類似企業グループを使用する
    • 7 代替的なマルチプル
  • 第17章 事業単位ごとの企業価値評価
    • 1 事業単位ごとの企業価値評価:手順と洞察
  • 資料編
    • 参考資料A エコノミック・プロフィットとキャッシュフローの等価性
    • 参考資料B フリー・キャッシュフロー、WACC、APVの算出
    • 参考資料C 株主資本コストの算出
    • 参考資料D レバレッジとP/E
    • 参考資料E 資本構成に関するその他の問題
    • 参考資料F マーケット・リスクプレミアムの推定に関するテクニカルな問題

下巻

  • 第18章 税金と企業価値評価
    • 1 組み替えられた損益計算書における事業にかかる税金費用
    • 2 現金ベースの税金費用の算出方法
    • 3 組み替えられた貸借対照表における繰延税金
    • 4 繰延税金の価値評価
  • 第19章 営業外損益、引当金および準備金
    • 1 営業外費用および一時的費用
    • 2 引当金と準備金
  • 第20章 リースおよび退職給付債務
  • 第21章 資産収益率を測定する別の方法
    • 1 価値に基づく資本収益率:ROICとCFROI
    • 2 費用計上した投資の資産計上
    • 3 ビジネスに必要な資本が皆無に近い場合
  • 第22章 インフレーション下の企業価値評価
    • 1 インフレの結果、価値創造が減少する
    • 2 高インフレの過去分析
    • 3 実質ベースと名目ベースでの財務予測
  • 第23章 クロスボーダーの企業価値評価
  • 第24章 ケース・スタディ:ハイネケン
    • 1 ビール業界の動向
    • 2 財務諸表の再構成
    • 3 過去の業績の分析
    • 4 将来の業績予測
    • 5 資本コストの推定
    • 6 継続価値の算定
    • 7 算定結果の解釈
  • 第25章 事業ポートフォリオ戦略と価値創造
    • 1 ベスト・オーナーに求められる要件
    • 2 ベスト・オーナーのライフサイクル
    • 3 ダイナミックに変遷していく事業ポートフォリオ
    • 4 多角化の神話
    • 5 事業ポートフォリオの構築
  • 第26章 価値創造のための業績管理
    • 1 適正な粒度の採用
    • 2 適正な価値評価指標の選定
    • 3 価値評価指標の組織的な運用
  • 第27章 M&Aによる価値創造
    • 1 価値創造のフレームワーク
    • 2 実証研究の結果
    • 3 M&Aによる価値創造の型
    • 4 より高度なM&A戦略
    • 5 事業オペレーション改善効果の試算
    • 6 買収対価:現金か株式か?
    • 7 会計上の増益ではなく、価値創造に注力
    • 8 成功している買い手の特徴
  • 第28章 事業売却を通じた価値創造
    • 1 事業売却による価値創造
    • 2 なぜ経営者は事業売却をためらうのか
    • 3 事業売却によって生み出される価値の算定
    • 4 事業売却の形態の決定
  • 第29章 資本構成、配当、自社株買い
    • 1 実践的なフレームワーク
    • 2 目標となる資本構成の設定
    • 3 還元と資金調達の決定
    • 4 ファイナンシャル・エンジニアリングによる価値の創造
    • 5 資本構成の検討事例
  • 第30章 インベスター・リレーションズ(IR)
    • 1 IR活動の目的
    • 2 本質的な価値vs市場価値
    • 3 どの投資家が重要か?
    • 4 投資家に耳を傾ける
    • 5 業績のコンセンサス予想を達成する
  • 第31章 新興国市場での企業価値評価
    • 1 過去の業績分析
    • 2 キャッシュフロー予測
    • 3 カントリーリスクのシナリオ別DCF評価法への反映
    • 4 新興国市場での資本コストの推計
    • 5 結果の算定と解釈
  • 第32章 高成長企業の価値評価
    • 1 高成長企業の価値評価プロセス
  • 第33章 シクリカルな企業の価値評価
    • 1 株価の推移
    • 2 シクリカルな企業の価値評価アプローチ
  • 第34章 銀行の企業価値評価
  • 第35章 経営の自由度
    • 1 不確実性、自由度、そして価値
    • 2 自由度の管理
    • 3 自由度を価値評価する方法
    • 4 自由度の価値評価の4つのプロセス
    • 5 リアル・オプション法とディシジョン・ツリー法:数値計算

以上が上下巻の目次で、第1章から第7章までが原理編、第8章から第17章までが実践編、第18章から第24章までが上級編、第25章から第30章までが管理編、第31章から第35章までが応用編となっている。

TensorFlowで学ぶディープラーニング入門備忘録【第2章】

第1章からの続きになる。

2.1 ロジスティック回帰による二項分類器

2.1.1 確率を用いた誤差の評価

第1章でも論じた、与えられたデータをウイルスに感染している・していないに分類する二項分類器(パーセプトロン)のモデルを取り上げる。ただし、単純に2種類に分類するのではなく、確率を用いてすすめる。第1章でも論じたように、検査結果(x1,x2)に対して、ウイルスに感染している確率は、

{
\displaystyle
\begin{equation}
P(x_1,x_2)=\sigma(f(x_1,x_2)) \tag{2.3}
\end{equation}
}

で表される。ここで、仮にパラメータw0,w1,w2が具体的に決まっているとして、最初に与えられたデータを改めて予測し直してみる。まず、与えられたデータは全部でN個あるものとして、n番目のデータを(x1n,x2n)とする。またデータが実際に感染している場合、tn=1、感染していない場合、tn=0とする。n番目のデータが感染している確率はP(x1n,x2n)で与えられるので、この確率に応じて感染していると予測する。0〜1の間で乱数を発生させて、P(x1n,x2n)以下であれば感染している、と予測することにする。

この方法で予測した場合、正解する確率はどれほどだろうか。tn=1のとき、つまり実際に感染しているときに感染していると予測する確率はP(x1n,x2n)そのものなので、これが正解する確率に一致する。一方、tn=0、つまり実際には感染していない場合、感染していないと正しく予測する確率は1-P(x1n,x2n)になる。これは、以下の数式で一度に書ける。

{
\displaystyle
\begin{equation}
P_n = \{P(x_{1n},x_{2n})\}^{t_n}\{1-P(x_{1n},x_{2n})\}^{1-t_n} \tag{2.4}
\end{equation}
}

そしてN個のデータ全てに正解する確率Pは、個々のデータを正解する確率の掛け算で計算することができ、

{
\displaystyle
\begin{equation}
P=P_1 \times P_2 \times \cdot \cdot \cdot \times P_N = \prod_{n=1}^{N}P_N \tag{2.5}
\end{equation}
}

あるいは、

{
\displaystyle
\begin{equation}
P = \prod_{n=1}^{N} \{P(x_{1n},x_{2n})\}^{t_n}\{1-P(x_{1n},x_{2n})\}^{1-t_n} \tag{2.6}
\end{equation}
}

と書ける。この確率がパラメータw0,w1,w2を評価する基準になる。このように「与えられたデータを正しく予測する確率を最大化する」手法は最尤(さいゆう)推定法と呼ばれる。これでパラメータの良し悪しを判断する基準、すなわち「機械学習モデルの3ステップ」のステップ2が用意できた。TensorFlowで計算する場合、式(2.6)のような掛け算を大量に含む演算は効率が良くないので、次式で誤差関数Eを定義する。

{
\displaystyle
\begin{equation}
E = -\log P \tag{2.7}
\end{equation}
}

これでPを最大にすることと、-logPを最小にすることが同値になった。 (2.6)を(2.7)に代入し、変形すると、誤差関数Eは

{
\displaystyle
\begin{equation}
E = -\log \prod_{n=1}^{N} \{P(x_{1n},x_{2n})\}^{t_n}\{1-P(x_{1n},x_{2n})\}^{1-t_n} \\
= - \sum_{n=1}^{N}[t_n \log P(x_{1n},x_{2n})+(1-t_n) \log \{ 1-P((x_{1n},x_{2n}) \} ]
\tag{2.9}
\end{equation}
}

と表される。

2.1.2 TensorFlowによる最尤推定の実施

TensorFlowでこれまでの数式を表現する。まずはモジュールのインポートを以下で行う。

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
from numpy.random import multivariate_normal, permutation
import pandas as pd
from pandas import DataFrame, Series

次に行うのが、トレーニングセットのデータの用意だ。

#乱数のシードを決める。20160512という数字に意味はない。同じ数字を指定すると、毎回同じデータが生成される。
np.random.seed(20160512)

#t=0(非感染)のデータを乱数で発生
n0, mu0, variance0 = 20, [10, 11], 20
data0 = multivariate_normal(mu0, np.eye(2)*variance0 ,n0)
df0 = DataFrame(data0, columns=['x1','x2'])
df0['t'] = 0

#t=1(感染)のデータを乱数で発生
n1, mu1, variance1 = 15, [18, 20], 22
data1 = multivariate_normal(mu1, np.eye(2)*variance1 ,n1)
df1 = DataFrame(data1, columns=['x1','x2'])
df1['t'] = 1

#データを一つにまとめ、行の順番をランダムに入れ替え
df = pd.concat([df0, df1], ignore_index=True)
train_set = df.reindex(permutation(df.index)).reset_index(drop=True)

これで、データセットが整った。Jupyterのノートブック上で、データフレームの内容は以下コマンドから表で確認できる。

train_set

f:id:tosh419:20161010165136p:plain

ただしTensorFlowで計算する際は各種のデータを多次元配列で表現する必要があった。そこで、(x1n,x2n)とtnをn=1〜Nについて縦に並べた行列を次のように定義する。

{
\displaystyle
\begin{equation}
X=\begin{pmatrix} x_{11}  & x_{21} \\  x_{12} & x_{22} \\ x_{13} & x_{23} \\ . & . \\ . & . \\ . & . \end{pmatrix}, t=\begin{pmatrix} t_1 \\ t_2 \\ t_3 \\ . \\ . \\ . \end{pmatrix} \tag{2.10}
\end{equation}
}

トレーニングセットに含まれるそれぞれのデータを(2.1)のf(x1,x2)に代入した結果は次のように表現できる。

{
\displaystyle
\begin{equation}
\begin{pmatrix} f_1 \\ f_2 \\ f_3 \\ . \\ . \\ . \end{pmatrix} = \begin{pmatrix} x_{11} & x_{21} \\ x_{12} & x_{22} \\ x_{13} & x_{23} \\ . & . \\ . & . \\ . & . \end{pmatrix} \begin{pmatrix} w_1 \\ w_2 \end{pmatrix} + \begin{pmatrix} w_0 \\ w_0 \\ w_0 \\ . \\ . \\ . \end{pmatrix} \tag{2.11}
\end{equation}
}

これをさらにシグモイド関数に代入したものが、n番目のデータがt=1である確率Pnになる。

{
\displaystyle
\begin{equation}
\begin{pmatrix} P_1 \\ P_2 \\ P_3 \\ . \\ . \\ . \end{pmatrix} = \begin{pmatrix} \sigma (f_1) \\ \sigma (f_2) \\ \sigma (f_3) \\ . \\ . \\ . \end{pmatrix} \tag{2.12}
\end{equation}
}

ここまでをTensorFlowのコードで表現する。

#train_setに対応するデータをarrayオブジェクトとして変数train_xとtrain_tに格納する
train_x = train_set[['x1','x2']].as_matrix()
train_t = train_set['t'].as_matrix().reshape([len(train_set), 1])
#
x = tf.placeholder(tf.float32, [None, 2])
w = tf.Variable(tf.zeros([2, 1]))
w0 = tf.Variable(tf.zeros([1]))
#tf.matmul(x,w)とw0は本来足し合わせられないが、下述のブロードキャストルールが適用される。
f = tf.matmul(x, w) + w0
p = tf.sigmoid(f)

TensorFlowのリスト演算における特別なルールで、多次元リストに1要素からなる値を足した場合、リストの各要素に同じ値が足される。

・行列とスカラーの足し算は、各成分に対する足し算になる

{
\displaystyle
\begin{equation}
\begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{pmatrix} + (10) = \begin{pmatrix} 11 & 12 & 13 \\ 14 & 15 & 16 \\ 17 & 18 & 19 \end{pmatrix}
\end{equation}
}

・同じサイズの行列の*演算は、成分ごとの掛け算になる

{
\displaystyle
\begin{equation}
\begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{pmatrix} * \begin{pmatrix} 10 & 100 & 1000 \\ 10 & 100 & 1000 \\ 10 & 100 & 1000 \end{pmatrix} = \begin{pmatrix} 10 & 200 & 3000 \\ 40 & 500 & 6000 \\ 70 & 800 & 9000 \end{pmatrix}
\end{equation}
}

スカラーを受け取る関数を行列に適用すると、各成分に関数が適用される

{
\displaystyle
\begin{equation}
\sigma \begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix} = \begin{pmatrix} \sigma (1) \\ \sigma (2) \\ \sigma (3) \end{pmatrix}
\end{equation}
}

続いて、誤差関数をTensorFlowのコードで表現し、これを最小化するためのトレーニングアルゴリズムを指定する。これは、式(2.9)で与えられており、次のようになる。

t = tf.placeholder(tf.float32, [None, 1])
loss = -tf.reduce_sum(t*tf.log(p) + (1-t)*tf.log(1-p))
train_step = tf.train.AdamOptimizer().minimize(loss)

さらに、正解率を表す計算値を定義する。仮に、n番目のデータに対して、Pn>0.5であればt=1、そうでなければt=0とし、正解率がいくらになるかを計算する。

#(Pn-0.5)と(tn-0.5)の符号を比較し、予測が正解かを判定。signは符号を取り出す関数。
correct_prediction = tf.equal(tf.sign(p-0.5), tf.sign(t-0.5))
#tf.cast関数でbooleanを1,0に変換し、全体の平均値を計算する。
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

実際の最適化に入る。

#セッションを用意し、Variableの値を初期化
sess = tf.Session()
sess.run(tf.initialize_all_variables())
#勾配降下法による最適化を20000回繰り返す。
i = 0
for _ in range(20000):
    i += 1
    sess.run(train_step, feed_dict={x:train_x, t:train_t})
    if i % 2000 == 0:
        loss_val, acc_val = sess.run(
            [loss, accuracy], feed_dict={x:train_x, t:train_t})
        print ('Step: %d, Loss: %f, Accuracy: %f'
               % (i, loss_val, acc_val))

これを行うと、誤差関数lossと正解率accuracyの値が表示される。

Step: 2000, Loss: 15.165894, Accuracy: 0.885714
Step: 4000, Loss: 10.772635, Accuracy: 0.914286
Step: 6000, Loss: 8.197757, Accuracy: 0.971429
Step: 8000, Loss: 6.576121, Accuracy: 0.971429
Step: 10000, Loss: 5.511973, Accuracy: 0.942857
Step: 12000, Loss: 4.798011, Accuracy: 0.942857
Step: 14000, Loss: 4.314180, Accuracy: 0.942857
Step: 16000, Loss: 3.986264, Accuracy: 0.942857
Step: 18000, Loss: 3.766511, Accuracy: 0.942857
Step: 20000, Loss: 3.623064, Accuracy: 0.942857

最適化を打ち切り、この時点でのパラメータの値を取得する。

w0_val, w_val = sess.run([w0, w])
w0_val, w1_val, w2_val = w0_val[0], w_val[0][0], w_val[1][0]
print w0_val, w1_val, w2_val

最後に、取り出した値を用いて、結果をグラフに表示する。

train_set0 = train_set[train_set['t']==0]
train_set1 = train_set[train_set['t']==1]

fig = plt.figure(figsize=(6,6))
subplot = fig.add_subplot(1,1,1)
subplot.set_ylim([0,30])
subplot.set_xlim([0,30])
subplot.scatter(train_set1.x1, train_set1.x2, marker='x')
subplot.scatter(train_set0.x1, train_set0.x2, marker='o')

linex = np.linspace(0,30,10)
liney = - (w1_val*linex/w2_val + w0_val/w2_val)
subplot.plot(linex, liney)

field = [[(1 / (1 + np.exp(-(w0_val + w1_val*x1 + w2_val*x2))))
          for x1 in np.linspace(0,30,100)]
         for x2 in np.linspace(0,30,100)]
subplot.imshow(field, origin='lower', extent=(0,30,0,30),
               cmap=plt.cm.gray_r, alpha=0.5)

f:id:tosh419:20161010181121p:plain

ここでは、グラフ上の色の濃淡が確率P(x1,x2)の値の大きさに対応しており、シグモイド関数が表現されていることが分かる。シグモイド関数

{
\displaystyle
\begin{equation}
\frac{1}{1 + e^{-x}}
\end{equation}
}

ロジスティック関数とも呼ばれており、ここで用いた分析手法はロジスティック回帰と呼ばれる。

2.1.3 テストセットを用いた検証

ここまでで、与えられたデータを正確に予想することを行ってきたが、本来の目的は未知のデータに対して予測の精度を上げることである。特にトレーニングセット(学習用データ)に対する正解率が非常に高いのにも関わらず、未知のデータに対する予測精度はあまり良くない現象を過学習もしくはオーバーフィッティングと呼ぶ。これを避けるためによく行われるのが、あえて一部のデータをテスト用に取り分ける方法だ。例えば、80%のデータで学習を行いながら、残りの20%のデータに対する正解率の変化を見ていくのだ。

そこで、これから今までのコードを修正し、トレーニングセットとテストセットのそれぞれに対する正解率の変化を確認する。

まず、乱数でデータを作成したあと、80%をトレーニングセットのデータ用、20%をテストセットのデータとして取り分ける。

#インポートと乱数シードの設定
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
from numpy.random import multivariate_normal, permutation
import pandas as pd
from pandas import DataFrame, Series

np.random.seed(20160531)

#80%をトレーニング用、20%をテスト用として取り分け
n0, mu0, variance0 = 800, [10, 11], 20
data0 = multivariate_normal(mu0, np.eye(2)*variance0 ,n0)
df0 = DataFrame(data0, columns=['x','y'])
df0['t'] = 0

n1, mu1, variance1 = 600, [18, 20], 22
data1 = multivariate_normal(mu1, np.eye(2)*variance1 ,n1)
df1 = DataFrame(data1, columns=['x','y'])
df1['t'] = 1

df = pd.concat([df0, df1], ignore_index=True)
df = df.reindex(permutation(df.index)).reset_index(drop=True)

num_data = int(len(df)*0.8)
train_set = df[:num_data]
test_set = df[num_data:]

#トレーニングセット用、テスト用の変数に格納
train_x = train_set[['x','y']].as_matrix()
train_t = train_set['t'].as_matrix().reshape([len(train_set), 1])
test_x = test_set[['x','y']].as_matrix()
test_t = test_set['t'].as_matrix().reshape([len(test_set), 1])

#各種計算式定義
x = tf.placeholder(tf.float32, [None, 2])
w = tf.Variable(tf.zeros([2, 1]))
w0 = tf.Variable(tf.zeros([1]))
f = tf.matmul(x, w) + w0
p = tf.sigmoid(f)

t = tf.placeholder(tf.float32, [None, 1])
loss = -tf.reduce_sum(t*tf.log(p) + (1-t)*tf.log(1-p))
train_step = tf.train.AdamOptimizer().minimize(loss)

correct_prediction = tf.equal(tf.sign(p-0.5), tf.sign(t-0.5))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

#セッションを用意
sess = tf.Session()
sess.run(tf.initialize_all_variables())

#勾配降下法を繰り返し、トレーニングセットとテストセットに対する正解率の変化を記録
train_accuracy = []
test_accuracy = []
for _ in range(2500):
    sess.run(train_step, feed_dict={x:train_x, t:train_t})
    acc_val = sess.run(accuracy, feed_dict={x:train_x, t:train_t})
    train_accuracy.append(acc_val)
    acc_val = sess.run(accuracy, feed_dict={x:test_x, t:test_t})
    test_accuracy.append(acc_val)

#結果をグラフに表示する
fig = plt.figure(figsize=(8,6))
subplot = fig.add_subplot(1,1,1)
subplot.plot(range(len(train_accuracy)), train_accuracy,
             linewidth=2, label='Training set')
subplot.plot(range(len(test_accuracy)), test_accuracy,
             linewidth=2, label='Test set')
subplot.legend(loc='upper left')

f:id:tosh419:20161010190227p:plain

上図を見ると、勾配降下法の試行回数に従い正解率が上昇していることが分かるが、トレーニングセットとテストセットで正解率が一致していないことが分かる。オーバーフィッティングが発生した場合、トレーニングセットよりも先に、テストセットに対する正解率が増加しなくなる。

2.2 ソフトマックス関数と多項分類器

2.1ではロジスティック回帰を用いて、平面上のデータを2種類に分類する二項分類器(パーセプトロン)を試した。ここからは、データを3種類以上に分類する多項分類器と分類結果を確率で表現するソフトマックス関数を取り扱う。

2.2.1 線形多項分類器の仕組み

はじめに、(x1,x2)平面を3つの領域に分割することを考える。

2分割のときf(x1,x2)=0なる関数で定義する直線が平面を2分割できた。z軸を加えると、z=0で決まる平面で、(x1,x2)平面が上下に2分割される事がわかる。ここで、次の3つの関数を用意し、それを3次元空間に描くことを考えると、異なる方向に傾いた2平面は1本の直線で交わり、3平面は1点で交わることが分かる。結果、どの平面が一番上になっているかで、(x1,x2)平面を3領域に分割することが可能になる。

{
\displaystyle
\begin{equation}
f_1(x_1,x_2)=w_{01}+w_{11}x_1+w_{21}x_2 \tag{2.13}
\end{equation}
}
{
\displaystyle
\begin{equation}
f_2(x_1,x_2)=w_{02}+w_{12}x_1+w_{22}x_2 \tag{2.14}
\end{equation}
}
{
\displaystyle
\begin{equation}
f_2(x_1,x_2)=w_{03}+w_{13}x_1+w_{23}x_2 \tag{2.15}
\end{equation}
}

3つの平面が交わる点(x1,x2)は

{
\displaystyle
\begin{eqnarray}
  \begin{cases}
    f_1(x_1,x_2)=f_2(x_1,x_2) & \\
    f_2(x_1,x_2)=f_3(x_1,x_2) &
   \tag{2.17}
  \end{cases}
\end{eqnarray}
}

の解となる点で、行列式を用いて、

{
\displaystyle
\begin{equation}
M \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = w \tag{2.18}
\end{equation}
}

ただし、

{
\displaystyle
\begin{equation}
M =  \begin{pmatrix} w_{11} - w_{12} & w_{21} - w_{22}  \\ w_{12} - w_{13} & w_{22} - w_{23} \end{pmatrix}, w = \begin{pmatrix} w_{02} - w_{01} \\ w_{03} - w_{02} \end{pmatrix} \tag{2.19}
\end{equation}
}

したがって、解はMの逆行列を解いて、

{
\displaystyle
\begin{equation}
\begin{pmatrix} x_1 \ x_2 \end{pmatrix} = M^{-1}w \tag{2.20}
\end{equation}
}

となる。以上から、w01,w11,w21,w02,w12,w22,w03,w13,w23を調整することにより、(x1,x2)平面を3つの領域に分割できる事がわかる。このように1次関数を用いて直線的に領域を分割する仕組みを線形多項分類器と呼ぶ。

2.2.2 ソフトマックス関数による確率への変換

2.1.1ではf(x1,x2)の値をシグモイド関数を用いて確率Pに変換していた。一方、ここでは次の3つの確率を割り当てることが目標となる。

  • P1(x1,x2): (x1,x2)が領域1に属する確率
  • P2(x1,x2): (x1,x2)が領域2に属する確率
  • P3(x1,x2): (x1,x2)が領域3に属する確率

これは例えば、手書きの文字が「あ」である確率、「い」である確率、「う」で確率に計算される状況を考えれば良い。 これらの確率は次の3式を満たす必要がある。

{
\displaystyle
\begin{equation}
0 \leq P_i(x_1,x_2) \leq 1 \ (i=1,2,3) \tag{2.21}
\end{equation}
}

{
\displaystyle
\begin{equation}
P_1(x_1,x_2)+P_2(x_1,x_2)+P_3(x_1,x_2)=1 \tag{2.22}
\end{equation}
}

{
\displaystyle
\begin{equation}
f_i(x_1,x_2) > f_j(x_1,x_2) \Rightarrow P_i(x_1,x_2) > P_j(x_1,x_2) \ (i,j=1,2,3) \tag{2.23}
\end{equation}
}

そして、これらを満たす式がソフトマックス関数と呼ばれ、次式で表される。

{
\displaystyle
\begin{equation}
P_i(x_1,x_2)= \frac{e^{f_i(x_1,x_2)}}{e^{f_1(x_1,x_2)}+e^{f_2(x_1,x_2)}+e^{f_3(x_1,x_2)}} \ (i=1,2,3) \tag{2.24}
\end{equation}
}

以上の話をより一般化して書くと、座標(x1,x2,...,xM)を持つM次元空間をK個の領域に分割する場合、まず全部でK個の1次関数を用意する。

{
\displaystyle
\begin{equation}
f_k(x_1,...,x_M)=w_{0k} + w_{1k}x_1+...+w_{Mk}x_M \ (k=1,...,K) \tag{2.25}
\end{equation}
}

そして、点(x1,x2,...,xM)がk番目の領域である確率はソフトマックス関数を用いて、次式で表される。

{
\displaystyle
\begin{equation}
P_k(x_1,...,x_M)= \frac{e^{f_k(x_1,...x_M)}}{\sum_{K'=1}^{K}e^{f_{k'}(x_1,...,x_M)}} \tag{2.26}
\end{equation}
}

2.3 多項分類器による手書き文字の分類

ここからは前節の多項分類器を使って、手書き文字の分類問題を解いていく。

2.3.1 MNISTデータセットの利用方法

MNISTというデータセットを用いる。このデータセットにはトレーニング用の55000個のデータとテスト用の10000個のデータ、検証用の5000個のデータからなる。TensorFlowにはMNISTのデータセットをダウンロードしてNumPyのarrayオブジェクトとして格納するモジュールが予め用意されている。

#モジュールのインポート
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.examples.tutorials.mnist import input_data

#MNISTデータセットのダウンロード
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)

#10個のデータを取り出し、画像データとラベルの変数に格納
images, labels = mnist.train.next_batch(10)

ここまでで、MNISTのデータ10個を変数に格納できた。対応するラベルを次に表示してみよう。

#対応するラベルのデータを表示してみる
print labels[0]
[ 0.  0.  0.  0.  0.  0.  0.  1.  0.  0.]

これを見ると、先頭から7番目の要素が1になっている。これはこの画像が「7」であることを表す。このように機械学習のデータセットではデータを幾つかのグループに分類する際に、k番目の要素のみが1になっているベクトルでk番目のグループであることを示す場合がある。これを1-of-Kベクトルを用いたラベル付けと呼ぶ。

#取り出した10個のデータの画像を表示してみる
fig = plt.figure(figsize=(8,4))
for c, (image, label) in enumerate(zip(images, labels)):
    subplot = fig.add_subplot(2,5,c+1)
    subplot.set_xticks([])
    subplot.set_yticks([])
    subplot.set_title('%d' % np.argmax(label))
    subplot.imshow(image.reshape((28,28)), vmin=0, vmax=1,
                   cmap=plt.cm.gray_r, interpolation="nearest")

表示される画像は以下のようになる。

f:id:tosh419:20161011210000p:plain

2.3.2 画像データの分類アルゴリズム

上の画像データに対して、多項分類器による分類手法を適用していく。 先程の画像は28×28ピクセルの画像だ。これは28×28=784個の数値、784次元空間の1つの点(x1,x2,...,x784)に対応することになる。この時、同じ数字に対応する画像は784次元空間上で互いに近い場所に集まっていると考えられる。そのため、個のデータを784次元空間上でどの領域に属するかによって、どの数字の画像かを予測することが可能となる。

まず784次元空間のデータを0〜9の10種類の領域に分割するので、M=784、K=10としておく。そして、トレーニングセットのデータが全部でN個あるものとして、n番目のデータをxn=(x1n,x2n,...,xMn)と表し、さらにこれらを並べた行列Xを定義する。

{
\displaystyle
\begin{equation}
X=\begin{pmatrix} x_{11} & x_{21} & ... & x_{M1} \\ x_{12} & x_{22} & ... & x_{M2} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ x_{1N} & x_{2N} & ... & x_{MN} \end{pmatrix} \tag{2.27}
\end{equation}
}

次に、(2.25)式の1次関数の係数を並べた行列W、および定数項を並べたベクトルwを次式で定義する。

{
\displaystyle
\begin{equation}
X=\begin{pmatrix} w_{11} & _{12} & ... & w_{1K} \\ w_{21} & w_{22} & ... & w_{2K} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ w_{M1} & w_{M2} & ... & w_{MK} \end{pmatrix}, \begin{pmatrix}w_{01},w_{02},...,w_{0K} \end{pmatrix} \tag{2.28}
\end{equation}
}

これらから(2.25)は

{
\displaystyle
\begin{equation}
F=XW \oplus w \tag{2.29}
\end{equation}
}

とまとめて計算される。

続いて、(2.26)のソフトマトリックス関数を使って、確率の値に変換する。今回は、n番目のデータxnに対して、これがk=1,...,Kのそれぞれに属する確率Pk(xn)を計算する。

{
\displaystyle
\begin{equation}
P_k(x_n) = \frac{e^{f_k(x_n)}}{\sum_{k'=1}^{K}e^{f_{k'}(x_n)}} \tag{2.32}
\end{equation}
}

tensorflowではこれをきちんと行列演算で行ってくれる関数tf.nn.softmaxが用意されていて、

{
\displaystyle
\begin{equation}
P=tf.nn.softmax(F) \tag{2.33}
\end{equation}
}

で求められる。これで、与えられた画像データに対してそれが0から9のいずれかである確率を計算するための数式が用意できた。新しいデータx=(x1,x2,...,xM)に対する確率を計算する際は(2.27)のXを次の1xM行列として用意する。

{
\displaystyle
\begin{equation}
X=(x_1 x_2 ... x_M) \tag{2.35}
\end{equation}
}

これを用いて、(2.29)と(2.33)の計算を行うと、Pは次の1xM行列になることが分かる。

{
\displaystyle
\begin{equation}
X=(P_1(x) P_2(x) ... P_K(x)) \tag{2.36}
\end{equation}
}

tensorflowのコードで言うと、xはPlaceholderに相当する。 次に、誤差関数を用意する。これには最尤推定法を用いる。たとえば、n番目のデータxnの正解がkだった場合、正解を予測する確率はPk(xn)ということになる。ここで、一般にtn=(t1n,t2n,...,tKn)と表すと、n番目のデータに対して、正解を予測する確率Pnは

{
\displaystyle
\begin{equation}
P_n = \prod_{k'=1}^{K} {P_{k'}(x_n)}^{t_{k'n}} \tag{2.38}
\end{equation}
}

また、すべてのデータに対して正解する確率Pは個々のデータに正解する確率の掛け算で決まる、

{
\displaystyle
\begin{equation}
P = \prod_{n=1}^{N} P_n = \prod_{n=1}^{N} \prod_{k'=1}^{K} {P_{k'}(x_n)}^{t_{k'n}} \tag{2.39}
\end{equation}
}

このあとは(2.7)と同じく、誤差関数Eを最小化するために、確率Pを最大化する。

{
\displaystyle
\begin{equation}
E = -\log P \tag{2.40}
\end{equation}
}

これは対数関数の公式より、

{
\displaystyle
\begin{equation}
E=-\sum_{n=1}^{N} \sum_{k'=1}^{K} t_{k'n}\log P_{k'}(x_n) \tag{2.41}
\end{equation}
}

と書き直せる。この誤差関数Eを行列形式で表すためにはブロードキャストルールとTensorFlowのtf.reduce_sum関数を利用する。結局誤差関数Eは

{
\displaystyle
\begin{equation}
E = -tf.reduce_sum(T*\log P) \tag{2.43}
\end{equation}
}

と表せる。いよいよTensorFlowのコードに入っていく。

#MNISTのデータセットを取得するモジュールをインポート
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.examples.tutorials.mnist import input_data

np.random.seed(20160604)

#MNISTのデータセットをダウンロード
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)

#トレーニングセットのデータに対して、領域に属する確率Pk(xn)を計算する数式を定義
#xの要素数784は画像のピクセル数に一致して28x28=784
x = tf.placeholder(tf.float32, [None, 784])
w = tf.Variable(tf.zeros([784, 10]))
w0 = tf.Variable(tf.zeros([10]))
f = tf.matmul(x, w) + w0
p = tf.nn.softmax(f)

#誤差関数Eの定義
t = tf.placeholder(tf.float32, [None, 10])
loss = -tf.reduce_sum(t * tf.log(p))
train_step = tf.train.AdamOptimizer().minimize(loss)

#正解率を表す関係式の定義
#tf.argmaxは複数の要素が並んだリストから最大値を持つ要素のインデックスを返す関数。
#確率Pkのなかでも最大の確率となる文字がラベルで指定された正解の文字と一致するかを確認している
correct_prediction = tf.equal(tf.argmax(p, 1), tf.argmax(t, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

#セッションを準備する
sess = tf.InteractiveSession()
sess.run(tf.initialize_all_variables())

#勾配降下法によるパラメータの最適化を実施する
i = 0
for _ in range(2000):
    i += 1
#トレーニングセットから100個のデータを取り出す
    batch_xs, batch_ts = mnist.train.next_batch(100)
#勾配降下法によってパラメータの修正を行う
    sess.run(train_step, feed_dict={x: batch_xs, t: batch_ts})
    if i % 100 == 0:
        loss_val, acc_val = sess.run([loss, accuracy],
            feed_dict={x:mnist.test.images, t: mnist.test.labels})
        print ('Step: %d, Loss: %f, Accuracy: %f'
               % (i, loss_val, acc_val))

#得られた結果を実際の画像で確認する
images, labels = mnist.test.images, mnist.test.labels
p_val = sess.run(p, feed_dict={x:images, t: labels}) 

fig = plt.figure(figsize=(8,15))
for i in range(10):
    c = 1
    for (image, label, pred) in zip(images, labels, p_val):
        prediction, actual = np.argmax(pred), np.argmax(label)
        if prediction != i:
            continue
        if (c < 4 and i == actual) or (c >= 4 and i != actual):
            subplot = fig.add_subplot(10,6,i*6+c)
            subplot.set_xticks([])
            subplot.set_yticks([])
            subplot.set_title('%d / %d' % (prediction, actual))
            subplot.imshow(image.reshape((28,28)), vmin=0, vmax=1,
                           cmap=plt.cm.gray_r, interpolation="nearest")
            c += 1
            if c > 6:
                break

これを実行すると以下の結果が得られる。

f:id:tosh419:20161015213732p:plain

画像の添字としてついている数字は左が予測と右が正解になる。0/0となっているのは正解で、0/4となっていたら不正解になる。

2.3.4 ミニバッチと確率的勾配降下法

上のコードでも用いているミニバッチによるパラメータ修正について。そもそも確率降下法とはパラメータ(w0,w1,...)の関数として、誤差関数E(w0,w1,...)が与えられた際に、Eの値が減少する方向にパラメータを修正していくという考えだった。 この時、Eの値が減少する方向は次の勾配ベクトルで決まるのだった。

{
\displaystyle
\begin{equation}
\nabla E = \begin{pmatrix} \frac{\partial E}{\partial w_0} \\ \frac{\partial E}{\partial w_1} \\ . \\ . \\ . \end{pmatrix} \tag{2.44}
\end{equation}
}

ここで、誤差関数(2.41)式を見ると、トレーニングセットのそれぞれのデータについて和を取る形になっている。つまり、次のようにn番目のデータに対する誤差Enの和の形に分解することが可能になる。

{
\displaystyle
\begin{equation}
E=\sum_{n=1}^{N} E_n \tag{2.45}
\end{equation}
}

ここで、Enは

{
\displaystyle
\begin{equation}
E_n=-\sum_{k'=1}^{K} t_{k'n} \log P_{k'}(x_n) \tag{2.46}
\end{equation}
}

である。 この時、Placeholder xにトレーニングセットの一部のデータだけを格納したとすると、対応する誤差関数lossはどのようになるだろうか。これは(2.45)式においてxに格納したデータの部分だけEnを足すということになる。この状態でトレーニングをするということは誤差関数Eにおいて、一部のデータからの寄与だけを考えて、データによる誤差を小さくするようにパラメータを修正することになる。本来のE全体の値を小さくするわけではないので、誤差関数の谷を一直線に下るのではなく、少しだけ横にずれた方向に下ることになる。ただし、次の修正処理においては、また違うデータからの寄与を考慮する。これを何度も繰り返すと、誤差関数の谷をジグザグに降りながら、最終的には本来の最小値に近づいていくと考えられる。これがミニバッチの考え方だ。一直線に最小値に向かわず、ランダムに最小値に向かうので、確率的勾配降下法とも呼ばれる。

確率的勾配降下法を用いることの利点として、

  • ミニバッチでは1回あたりのデータ量を減らして、最適化の処理を何度も繰り返すので、1回あたりの計算量を減らせる
  • 最小値と極小値を持つような誤差関数の場合、極小値を避けて、真の最小値に達することができる

というものがある。これ以降、MNISTのデータセットを用いるコードでは、ミニバッチの最適化処理を適用する。