INCUDATA Magazine

マーケターのための「機械学習」活用の基礎知識 -

2021年06月23日

データ活用コンサルティングのINCUDATA（インキュデータ） / INCUDATA Magazine / マーケターのための「機械学習」活用の基礎知識

データ活用の形態の一つとして「機械学習」を使うという手法が注目を集め、マーケティングの領域でも顧客の行動・ニーズの先読みや顧客のセグメンテーション、広告の最適化などを実現する技術として使われ始めています。とはいえ、機械学習は理解が難しく、どうすれば活用できるのかも分かりづらい技術です。そこで本稿では、機械学習の基礎的な理解を深めていただくための情報をお届けいたします。

ビジネスとマインドセットをデザインする【シリーズ②】 DX時代を生き抜くマーケティング人材の育成法

資料ダウンロードはこちら

そもそも機械学習とは？

「機械学習」とは、データを使って機械（コンピュータ）に学ばせて、ヒトに近い知的な判断をさせる手法、ないしは技術です。総務省では、機械学習を、ヒトの学習に近い仕組みをコンピュータで実現する仕組みであり、一定の計算方法（アルゴリズム）にもとづいて、入力されたデータからパターンやルールを見出し、そのパターンやルールと新たに入力されたデータとをマッチングすることで、データに関する識別や予測などを可能にする手法であると定義しています。

この機械学習について語られるとき「機械学習はAI（人工知能）なのか」という議論がよく行われますが、そもそもAIとは何かについての明確な回答は存在しません。理由は単純で、ヒトの「叡智」「知」とは何かの決まった定義がないからです。ゆえに「機械学習はAIなのか」の議論にも正解はなく、現状では「機械学習はAIを実現する手法の一つ」というのが世の中のコンセンサスになっています。

AIの飛躍的な進歩をもたらしたとされる「ディープラーニング（深層学習）」は機械学習の一種です。総務省では、ディープラーニングと機械学習、そしてAIの位置関係を図1のように表現しています。

図1：AI、機械学習、ディープラーニングとの関係

出典：総務省『令和元年版情報通信白書』

https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r01/html/nb000000.html

図1にある通り、ディープラーニングとはニューラルネットワークを用いて行う機械学習のことです。この機械学習が“画期的”とされている最大の理由は、データの学習によって、データのパターンやルールを見出すために必要な特異点（正式には「特微量」と呼ばれる）をコンピュータが自動で抽出することです。

例えば「ネコ」を認識するAIを機械学習によって実現しようとした場合、ネコを他から区別するためにどこに注目すべきかの特微量を人間が指定した上で、コンピュータにネコの画像を学習させる必要がありました。それがディープラーニングの場合、ネコの画像を（これはネコであるという情報を付加して）数多く学習させるだけで、コンピュータが自動的に特微量を抽出してネコを認識できるようになるとされています。そのため、ディープラーニングでは、例えば、英日・日英の翻訳を自動化するAIの開発においても、日本語と英訳のペアを大量に学習させるだけで、精度の高い翻訳を行うAIが実現されたり、棋譜の大量の学習によって将棋のプロにも勝利できるようなAIが実現されたりします。

機械学習を活用するための基礎

ディープラーニングも含めて、機械学習の基本はデータをAIの開発に生かすということです。そのデータの使い方を理解する上では、機械学習における学習プロセスがどのようなものであるかを知っておくことが大切です。

総務省の『AIネットワーク社会推進会議AI経済検討会報告書』によると、機械学習のプロセスは大きく二つに分けて捉えることができるといいます。一つは、「学習」のプロセスであり、もう一つは、推論用データをもとに実際の業務・サービスに活用する「推論」のプロセスです（図2）。

図2：機械学習のプロセス

出所：AI ネットワーク社会推進会議AI 経済検討会

https://www.soumu.go.jp/main_content/000622906.pdf

図2にある通り、学習のプロセスは、入力されたデータをもとにコンピュータが識別を行うためのパターンを確立するプロセスです。このプロセスで確立されたパターンは「学習済みモデル」と呼ばれます。また、推論のプロセスは、学習済みモデルに対してデータ（推論用データ）を入力して、実際にそのデータの識別などを行うプロセスです。

ここで留意すべき点は、推論の精度を高める上では、推論用データに近い性質のデータを学習用データとして用意して、コンピュータに学習させたほうが良いという点です。

例えば、ベルトコンベアの上を流れる製品の動画像から、キズのある不良品をリアルタイムに検出するAIを開発するとしましょう。この場合、学習のプロセスでは「キズのある製品」の画像を学習させることになりますが、その画像は「ベルトコンベア上を流れる、キズのある製品」の画像に近いものでないと、学習済みモデルを使った推論の精度はなかなか上げられないことになります。このように、機械学習では、AIに対して実際にどのようなデータをインプットして、どのような結果を得たいかによって、学習用に自社独自のデータを数多く用意しなければならなくなる場合があります。

機械学習の活用を図るうえでは、学習法の違いによって、用途にも違いが出ることも理解しておく必要があります。具体的には、機械学習の方法には大きく「教師あり学習」と「教師なし学習」、そして「強化学習」の3タイプがあり、それぞれに適した用途があります。それを示したのが、図3です。

図3：機械学習法の違いと用途

Magazine_00225_210623_zu3_トリミング.jpeg

資料：総務省「AIネットワーク社会推進会議AI経済検討会報告」などの公的資料をもとに編集部で作成

図3に示す通り、「教師あり学習」においてはラベル付きデータが必要となります。そのデータを作成するにはオリジナルデータに対して、ノイズを除去した上で、ラベル（正解データ）を付与するといった手間がかかります。それに対して「教師なし学習」では、学習用データのノイズ除去は必要とされますが、学習用データに正解データを付与する必要はなく、その分の手間がかかりません。また、教師なし学習で作り上げた学習済みモデルの場合、例えば、ネコを識別するためのモデルであれば、他の動物の画像が推論用データとして入力されたときに、それが何かは判断できません。ただし、他の動物の中からネコを識別することはできます。ゆえに、教師なし学習は、顧客のグループ化やWebサイト上での顧客行動にもとづくレコメンデーションなどの用途に適しているとされています。

一方、「強化学習」は、コンピュータに試行錯誤を行わせ、特定の行動に対して報酬を与えることで「何が良い行動か」を学ばせる学習法です。プロの囲碁棋士に勝利した Google の「AlphaGo」は、この学習法で鍛えられているとされています。また、強化学習の分かりやすいユースケースとして、総務省では「二足歩行ロボットに歩く速度や脚の曲げ方について試行錯誤を行わせ、その過程で長い距離を歩いた場合に報酬を与えるといったプロセスを繰り返し、最終的には倒れずにスムーズな歩行ができるようにする」といった例をよく使用しています。

「機械学習」活用の現実解

前出の図3からも察せられる通り、機械学習の活用にはデータ分析のための専門的な知識が必要とされるほか、プログラミングに関するスキルも要求されます。ゆえに、AIの技術やデータ分析に精通する人材や開発者がいない（ないしは少ない）企業にとっては、機械学習は活用のハードルがきわめて高い技術とされてきました。ただし近年では、 Google やAmazon、Microsoft、IBMといった大手のクラウドプラットフォーマーが、AIを開発するためのフレームワーク（＝機械学習の機能やアルゴリズムをセットにしたライブラリ）やAPI（＝学習済みモデルを使うためのAPI）を、AIの開発・実行基盤とともに提供し、機械学習活用の敷居を下げ始めています（図4）。

図4：主要なクラウドプラットフォーマーの機械学習活用環境

Magazine_00225_210623_zu4_トリミング.jpeg

資料：総務省「AIネットワーク社会推進会議AI経済検討会報告」などの公的資料をもとに編集部で作成

また、フレームワークについては図4に示す4社以外からも、Caffe（UC Berkeley）やCaffe2・Pytorch（FaceBook）、などがオープンソースソフトウェア（OSS）として提供されており、普及が進んでいます。

さらに、機械学習の機能を備えた既製のアプリケーション／サービスを使えば、データ分析やプログラミングに関する専門的で深い知識を持つ人材がいない企業・組織でも、機械学習を活用することが可能になります。

ちなみに今日では、マーケティング部門で使われるCRM（カスタマーリレーションシップマネジメント）やMA（マーケティングオートメーション）、BI（ビジネスインテリジェンス）などのアプリケーションに機械学習の機能が組み込まれているケースが増えています。また、「Treasure Data CDP」のように、機械学習フレームワーク（ライブラリ）が標準の機能として組み込まれているCDP（カスタマーデータプラットフォーム）製品もあります。こうした製品を使うことで、顧客をセグメント化して失注を予測したり、購入確度の高い見込み客を見つけたり、サイト来訪者の興味・関心に応じてレコメンドメッセージを表示したりするための予測モデルを容易に活用できるようになります。

先進事例に見るマーケティングでの機械学習活用の効果

上述したようなかたちでマーケティングにおける機械学習活用の環境が整備されるに従って、実践活用の裾野も広がりつつあります。

例えば、Treasure Data CDPを使う、国内のある情報通信サービス企業では見込み客の行動履歴データを用い、機械学習でホットリード（有望な見込み客のリスト）をより正確に抽出する取り組みを展開、相応の成果をすでに手にしています。具体的には、機械学習を使って抽出したリードをターゲティングしてメールを配信した結果、コンバージョン（メールの開封率やクリック率）が従来比で数倍に伸びたケースもあるといいます。また、CDPのユーザ企業で、不動産情報サイトを運営する会社では、中古マンションの価格予測モデルを機械学習で作り上げ、実サービスで活用しています。さらに、アパレル事業やホテル事業を展開する、ある国内企業では、機械学習プラットフォームと顧客データを使いながら、商品ブランドごとの予測モデルの構築・検証・（予測結果の）可視化までを自動化するシステムの構築に成功しているといいます。

もっとも、マーケティングにおける機械学習の活用で成果を上げている企業は、分析対象のデータが十分に収集・蓄積できているところに限られています。総務省によれば、国内企業でのAＩ（機械学習）活用を阻む大きな障壁は、人材の不足だけではなく、学習に使えるデータが不足している点にあるといいます。実際、同省の調査（［1］）によれば、2019年当時において機械学習のためのデータを十分に整備しているところは上場企業でも全体の1割程度でしかなく、多くがデータはあるものの使える状態になっていなかったり、そもそもデータの収集ができていなかったりしていたようです。ゆえに、機械学習を活用する技術面でのハードルが下がり始めたにもかかわらず、企業の間での機械学習の活用がなかなか進展しなかったと総務省では結論づけています。つまり、機械学習の活用に向けて最も重要なポイントは、学習に使えるデータがしっかりと収集・蓄積できているかどうかにあり、それはマーケティングでの機械学習の活用においても例外ではないということです。

機械学習は、ヒトでは到底分析し切れないような膨大なデータを分析し、活用するための有効な仕組みとされ、それがうまく使えるか否かで、企業の競争力が大きく左右されていくでしょう。そうした技術の活用に向けてマーケティング部門が成すべきことは、活用の戦略とデータの収集・蓄積・管理の方策をセットで考えていくことです。

［1］総務省・情報通信総合研究所(ICR)・日本経済研究センター(JCER)「AI・IoTの取組みに関する調査」

より深い分析、洞察のためのデータ活用ヒント集