書籍紹介: 企業におけるデータ分析の体系的ガイド

f:id:casualstartup:20190405153606j:plain:right:h480
企業におけるデータ分析の体系的ガイドに出会ったので紹介します。実は約50年前の本ですが、今でも立派に通用する内容です。写真の右から3冊目の本です。

この本は、「データマイニング 失敗」で検索して見つけたブログで紹介されていたものです*1

こんな単語で検索していた背景を説明します。

最近の、機械学習とかデータサイエンスという言葉の流行を見ていて、以下のようなことを考えました。

  • そういえば、ちょっと前には『ビッグデータ』って流行してたな。いや、そのもっと前に『データマイニング』も流行してたな。
  • で、結局、どんなビジネス上の成果があったんだっけ?
  • 『ビールとおむつは一緒に買われることが多い』*2? それで売上が何十倍にもなったんだっけ? 他に、目立った成果ってあったんだっけ?
  • 結局、あれこれデータ分析した挙句、たいした成果が出なくて、ブームが去ったんじゃないの?
  • データを分析すればすごく得するはず、とみんな考えるけど、そもそも分析に着手する前に、その分析課題は経済性があるのか(economically justifiableか)ってチェックしないといけないんじゃないの?

こんな問題意識を持ちながら入力したキーワードが「データマイニング 失敗」です。今にして思えば、「データマイニング 失望」の方が、私が探していたものが伝わるかもしれません。

(2019/4/10追記)
伝わりにくい気がしたので補足します。私自身は「データマイニングが失敗だった」と断定しているわけではありません。失敗だったと断じている記事や、失望された理由と考えられるものを挙げた記事、が読みたくて、検索語を選びました。

そんな検索をしているときに、自分ではそれなりに古いと思っている「データマイニング」という言葉が登場するよりもはるか前に、企業におけるデータ分析について体系的に記述した本が出ていたということで、興味を惹かれました。

当該ブログでは日本語訳が紹介されているのですが、Amazonで1万円以上の値がついていて(今見たら、なんと34,800円…)、気軽に手が出せません。しかし、US Amazonで英語版を探したところ、5ドル程度と手軽だったので買ってみました。送料あわせて20ドルちょっとでした(普通郵便で送られたので、トラッキングできない上、1ヶ月以上かかりましたが)。US Amazonの商品ページはこちら。https://www.amazon.com/dp/028662074X/

商品説明に「図書館で使われていたもの」と記載されていた通りで、貸出期限のスタンプがありました。1974年という日付に歴史を感じたので写真を載せておきます。
f:id:casualstartup:20190405153618j:plain:h480

書籍の概要

目次などは、元のブログ記事が十二分に詳しいので、そちらを見てください。

https://analytics-and-intelligence.net/archives/2992

本書の英語タイトルは、"Marketing Intelligence -- The Management of Marketing Information"で、1968年の出版です。著者はProfessor William T. Kelleyで、MBAに興味のある人なら誰でも知っているであろうウォートン(Wharton)ビジネススクールの、マーケティングの教授です(1982年に引退、2011年に亡くなっているようです*3 )。

250ページ程度とそれほどの厚さはありませんが、内容的には、「アメリカの大学の教科書」です*4。当該分野について、専門家の間でおおむね合意されていることが、一通り書かれている感じです。本書の前書き(Foreword)に、Marketing Intelligenceの授業を担当していた旨が書かれているので、おそらく、ウォートンの授業で使われていただろうと想像していますが、当時のシラバスがネットに転がっているわけがないので確認はしていません。

企業におけるデータ分析と、それにもとづく意志決定について、体系的に記述されています。

「インテリジェンス」という言葉の意味

結論を先に書いておくと、ヘタに日本語訳せず「インテリジェンス」と片仮名で書くのが良いと思います。

この本の第1章"Introduction"冒頭に、marketing researchとmarketing intelligenceの違いが書かれているのですが、リサーチは「開始と終了があるプロジェクト」、インテリジェンスの方は「継続的なデータ取得と改善の取り組み」のように書かれています。

intelligenceを英英辞典で調べると、下記のようになっています(より一般的な「知性」の意味の方は除外)。CIAとかMI6の"I"ですね(それぞれ、Central Intelligence Agency、Military Intelligence section 6の略)。

2. information collected about the secret plans and activities of a foreign government, enemy etc
a. a government organization that collects information about the secret plans and activities of a foreign government, enemy etc

MacMillan Dictionaryよりhttps://www.macmillandictionary.com/dictionary/british/intelligence

「諜報」という訳を当てる場合もありますが、こちらはespionageという別の英単語があります。この本でも、第5章"Competitive Intelligence"冒頭の記述から、下記の2点が読み取れます。

  • 一般には、インテリジェンスといえば、ジェームズ・ボンドのようなスパイ活動と思われていること
  • この本の著者は、スパイ活動はespionageであり、intelligenceとは異なるものであると考えていること

というわけで、「インテリジェンス」とは何か、この本の中でも明確には定義されていません。

インテリジェンスを「データ分析」と読み換えてしまっても良いと思いますが、分析対象がロジスティクスなどのオペレーションであれば、「オペレーションズ・リサーチ」という別の分野名があるので、完全に置き換えはできないと思います。

というわけで、この記事では引き続き「インテリジェンス」と片仮名で書きます*5

データ分析の経済性について

さて、冒頭に書いた私の疑問「分析の前に、分析課題の経済性をチェックする必要があるのでは」ですが、すばり、3章"The Management of Intelligence"の冒頭に書かれていました(この章のタイトルは、片仮名が普及した現代なら「インテリジェンス活動のマネージメント」と訳して良いと思います)。

In essece, the sole criterion for determining whether to engage in intelligence production is usefulness. If the intelligence report is not going to be useful in enabling policy formulators and operating executives to make better decisions -- decisions that will lead to greater profit, better market share and ensure better long-run survival of the firm -- then any time, effort and money spent on the function is not justified.
(要するに、インテリジェンス作成に取り組むかどうかを決定する唯一の条件は、有用性である。インテリジェンス・レポートが、政策策定者や経営層がより良い意志決定 -- すなわち利益の拡大、市場シェアの改善、企業の長期継続性の向上などにつながる意志決定 -- を行なうのに有用でない場合、その活動に費やす、いかなる時間、労力、費用も正当化されない。

私の疑問は、約50年前の本によって、あっさり明確に解決されてしまいました。

その他の興味深いポイント

他に興味深かったポイントをいくつか紹介しておきます。

まず、当時のコンピューター環境について、以下のような記述があります*6

By the beginning of 1965, there were more than 20,000 general purpose computers in operation, a two-thirds increase over 1963,(以下略)
(1965年のはじめまでに、20,000台以上の汎用コンピュータが稼働しており、1963年に対して3分の2の増加である)

本書の中で、この数字の詳細は出てこないのですが、おそらくアメリカ全体での台数です。汎用コンピューターというのは、科学技術計算専用でないという意味ですが、実質的には「ビジネス用途の」と思えばよいでしょう。

要するに、「アメリカ全体で、なんと2万台ものビジネス用コンピューターが稼働するようになってます!」ということです。

通信については、以下の記述があります*7

Du Pont de Nemeurs has one of the first communications networks. It is joining its widespread teletype network of 155 stations, (以下略)
(デュポン社には、世界最初の通信ネットワークの1つがある。それは、155台のテレタイプ網を接続している)

そもそもテレタイプとは、テレな(遠距離で使える)タイプライターです。私も実物を見たことはありませんが、ここでは機械式FAXとでも考えれば良いでしょう。この本の出版時点で最先端の利用事例が、「テレタイプを155台も接続した!」ということです。

もう少し時代背景を補足すると、この時代、まだ、リレーショナルデータベースは発明されていません(Coddの論文発表が1970年 *8 )。

そんな時代でも、"The Crisis in Information"という一節が設けられており、その冒頭は下記のようになっています。

THE CRISIS IN INFORMATION
The result of the foregoing discussion is that management today is faced with more information than it knows what to do with, or can assimilate.
(ここまでの議論の帰結は、今日の経営者は、どう活用して良いか分かる以上、または理解できる以上の情報に直面しているということである)

すでに半世紀前に、経営情報の過剰が言われていたのだなと感慨深い気分になります。

あとは元の紹介記事で挙げられているデータ分析者と経営者のコミュニケーション欠如の問題の他、分析レポートの書き方(目次やその内容、難易度調整などのかなり具体的な内容)も面白いです*9

目次はこうなってます。

  • Title page
  • Summary of findings
  • General Introduction -- statement of the problem
  • Body of the report
  • Final summary and conclusions
  • Appendices

難易度調整については下記のように書かれています。参照するべき難度スコアまで具体的に挙げられています(Flesh ScoreまたはFog Rating)。

Also, attention must be paid to the difficulty level of the prose being used. The report writer should be familiar with readership difficulty scores, such as that devised by Dr. Rudolph Flesh. He should take occasional samples at random of his prose, and work out its Flesh Score or Fog Rating to see whether the score is at a difficulty level consonant with that of the typical reader. If it is over, steps should be taken to reduce the level to more comfortable levels.

半世紀前に、ビジネスにおけるデータ分析組織運営についてこれだけの内容がまとまっていることに、さすが「アメリカの大学教科書」と思うと同時に、インテリジェンスが活用されない理由などの記述を見ていると「人間というものは、あまり変わらないものだな」とも思います。

この本の先に残る疑問

よくまとまっている本なのですが、1つ大きな疑問が残ります。

それは「経済性のある分析課題って、実は、一般に思われるほど多くないのではないか」ということです(特にビジネスにおいて)。

電子化されていてすぐに分析できる状態のデータがあれば、経済性など深く考えずに、探索的に分析してみるのも良いかもしれません。

しかしビジネスの現場では、そんなデータはあまり多くありません。たいていは、そういうデータがどこかの部署にあるはずだが一括保存されてない、項目の意味が部署ごとに微妙に違う、法務チェックが必要、など、分析以前の壁が立ちはだかります。

前処理や、さらにはデータ統合、果てはデータ集めのための部署間調整などのコストまで含めて、経済性が成り立つような分析課題は、実はあまり残っていないのではという気もします。

一方で、そもそもデータ分析とは、学術研究のような「100件試して1件当たればラッキー」という分野である可能性もあります。それなら、多少のコストなど気にせず「大当たり」を狙い続けるのも良いのかもしれません。

この本の後継となるような、「アメリカの大学の教科書」を探せば何か書かれているかもしれませんが、約15分探した程度では適当な教科書が見つかりませんでした。今のところ、これ以上真剣に探すほどの興味はないので、あとはどなたか関心を持った方にお任せしたいところです。

データ分析の「輪廻は巡る」を読んでみたい

結びのあとですが、もう1点。

以前、データモデルの歴史をまとめた論文を紹介しました。この論文は、その分野の長老が、10年周期ぐらいで同じような議論が繰り返されていることへの危惧からまとめたものです。

https://casualstartup.hatenablog.jp/entry/20171022/history_of_datamodel

「マーケティングインテリジェンス」「データマイニング」「ビッグデータ」などの歴史をちょこっとかじると、データ分析とか、もう少し広いMIS(経営情報システム)と呼ばれる分野についても、歴史が繰り返されているような気がしてきます。

このあたりの歴史を総括したレポートを読んでみたいところですが、これまた、今のところ真剣に探す予定はないので、どなたか推薦があれば歓迎です。

*1:https://analytics-and-intelligence.net/archives/2992

*2:https://www.itmedia.co.jp/im/articles/0504/18/news086.html

*3:http://www.upenn.edu/emeritus/memoriam/Kelley.html

*4:アメリカの大学の教科書の良さについては、別記事書きました。https://casualstartup.hatenablog.jp/entry/20190330/american_textbook。なお、著者のメインの勤務校はアメリカですが、この本の出版社は実はイギリスの会社です。https://archiveshub.jisc.ac.uk/search/archives/e3330069-4169-3ee3-9d89-908f9d5154ab

*5:「インテリジェンス 国家・組織は情報をいかに扱うべきか」(小谷賢著)という本でも、「インテリジェンス」で統一されています。

*6:1. Introductionより

*7:1. Introductionより

*8: "A Relational Model of Data for Large Shared Data Banks", E. F. Codd, Communications of the ACM, Vol. 13 / Num. 6, June, 1970

*9:11. The Marketing Intelligence Report