ビッグデータとは - Web用語解説集 - 株式会社パラダイムシフト

１. ビッグデータとは

ビッグデータ( big data )とは「ビジネスに役立つ知見を見出すためのデータ」のことを指す巨大なデータ群のことです。

この言葉には明確な定義があるわけではなく、一般的には企業のマーケティング用語として多用されています。ビッグデータは、ただ単純にデータ量が巨大なものだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データで構成される複雑なもののため、通常のデータベース管理システムなどでは記録や保管、解析が難しいことがあります。具体的な例としては、サーバーのログや売上データ、購入履歴、GPSやRFIDの利用者、SNSのコメント、電子メール、動画などが挙げられます。

従来の技術やハードウェア環境ではビッグデータの処理が難しかったのですが、近年ではストレージ容量の増加やデータ分散処理技術などの実用化に伴い、ビッグデータの活用が可能になりました。そのため、今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まっており、ビッグデータに埋もれている価値を見出し、そこからビジネスチャンスを創出することで成長戦略を描くデータ・ドリブンな企業が市場で高い関心を集めています。

また、ビッグデータは、新規事業やサービス創出などの分野でも注目されており、政府が収集したビッグデータをオープンデータとして公開し、地域経済の活性化などにつなげることを目的するなど、様々な分野でのビッグデータ活用が期待されています。

２. ビッグデータを表す3つのV

このようなビッグデータの性質を表す要素としてよく「3つのV」が挙げられます。

(1) Volume（データの量）

ビジネスのみならず、SNS、センサーなど幅広いソースからデータの収集を行えるようになりました。世界の情報量は年間59％の割合で増加しており、以前はこのような巨大なデータそれを保存することは非常に難易度が高いものでした。

(2) Variety（データの種類）

現在では様々かつ多くのソースからデータを収集するため、データの流通速度は非常に速いものとなりました。古いデータだけでは価値を見出すことができないことも多いため、多量なデータをリアルタイムで処理を行う必要があります。

(3) Velocity（データの発生頻度・更新頻度）

エクセルやワードだけではなく、電子メールや映像、音声、株価、交通量など様々な種類のデータが存在します。そのため、あらゆるフォーマットのデータを取り扱う必要があります。

３. ビッグデータの利用に拍車が掛かったきっかけ

上記のようにビッグデータは「データの量」・「データの種類」・「データの発生頻度・更新頻度」などの理由から処理を行うのに非常に負荷の大きなものでした。

例えば、ソーシャル・ネットワークのFacebookの会員数は8億人以上の多くの会員を抱えているため、1日に10テラバイトのデータを処理していると言われています（1テラバイト＝1,000ギガバイト）。映画1本あたりの平均的な容量は1.2ギガバイトなので、8,000本以上のデータ量がFacebookだけで流通していると考えるとビッグデータの処理が非常に負荷が大きいことが伺えるのではないでしょうか。

従来の環境ではこうした大量のデータを処理することは困難でしたが、Hadoop（ハドゥープ）と呼ばれる技術をきっかけに、大量の情報を低コストで超高速処理を行うことが可能になりました。大量の情報を低コストで分析できるようになりました。

４. データマイニングについて

(1) 概念

ビッグデータを有効に活用する上で、データマイニングという技術は必要不可欠になってきます。データマイニングとは、大量のデータを分析し、単なる検索だけでは発見できない様な隠れた規則や相関関係を導き出す技術です。マイニングは「発掘する」英語であり、ビッグデータに隠された有益な意味や法則を発掘する（マイニング）という意味合いが込められています。

また、データマイニングと似た用語として「統計解析」と言う言葉もありますが、統計解析が仮説ありきでそれを検証することを指すのに対して、データマイニングでは大量のデータを自動で分析し仮説を発見する意味合いが込められています。

(2) データマイニングの解析手法

ビッグデータから有意義な仮説や意味合いを見つけ出すため、どのような切り口でデータを切っていくのかという分析手法は様々な種類があります。当然、求められる結果が異なれば、異なる分析手法が用いられることになります。このページでは代表的な2つの分析手法を紹介します。

ア. バスケット分析

バスケット分析とは、データ同士の関係性を分析するもので、どの商品とどの商品がどのような顧客に同時に購入されたかを分析することができる手法です。例えば、コンビニやスーパのPOSデータの分析などでよく使われます。また、AmazonなどのECサイトで、レコメンド機能に応用することもできます。

バスケット分析は「何と何が一緒に買われているのかを見る」という意味で、いわば買い物カゴを見て分析する手法です。アメリカでの有名な例として、夕刻に紙おむつとビールが同時に購入されるケースが多いとされ、これは家庭と仕事を両立させている人物が夕刻にスーパーに訪れていると解析でき、バスケット分析の仕組みをよく表した例といわれています。

イ. クラスター分析

クラスター分析とは、異なる性質のものが混ざり合った集団から、互いに似た性質を持つものを集め、クラスター（グループ）を作る方法です。対象となるサンプル（人、行）や変数（項目、列）をいくつかのグループに分けていくので、端的に説明すると「似たものを集める」手法とも言い換えることができます。

ビッグデータではノイズと呼ばれる不必要なデータも多い中、いかに消費者にとって有用な情報のみを提示するか、いかに施策のコンバージョンを上げることができるかが最大の関心事ですが、そのためには、顧客を緻密にクラスタリングすることにより、購買を予測し、的確なアクションを打つことが求められます。

５. ビッグデータ分析会社のM＆A事例

イギリスの半導体設計大手会社のアーム（ソフトバンクグループ）は、日本人がアメリカのシリコンバレーで起業したビッグデータ分析会社であるトレジャーデータ社を買収しました。このM＆Aが実現した背景としては、アームが制作しているあらゆる機器から収集したデータを新規事業に活かしたいという思惑がありましたが、そのコアとなる技術がトレジャーデータが強みとしているデータ分析でした。また、トレジャーデータもデバイス分野に関わりたいとの意向を持っており、両社が目指す方向が合致していたため、M＆Aに至りました。

ビッグデータとは - Web用語解説集