代表理事の本田です。
最近、OpenAIの人工知能モデル、ChatGPTで「Code Interpreter」というオプションが使えるようになり、データファイルのアップロードなどもできるようになりましたので、それを用いて顧客データの分析を試みました。
私自身はこれまで、データ分析をいろいろとやってきた経験がありますが、世の中にはにはデータ分析に詳しくない方もいらっしゃることと思います。そんな方々でもAIを使用することで、手軽に深い洞察を得ることができることに驚きました。このような洞察は、企業経営の意思決定など、様々な場面で役立ちそうです。
今回はサンプルデータとして、SB Creativeさんのサイトからデータを使わせていただきました。
https://www.sbcr.jp/support/4815610039/
データのロードと初期観察
まず始めに、分析対象のデータをロードします。
今回使用するデータ(5-05_02.xlsx)は4つの列を持っています(顧客No、顧客種別、地域、年齢)。
これらの初期観察から、各顧客の識別情報、カテゴリ、地理的位置、年齢が含まれていることがわかりますが、取り敢えず、こちらからはファイルをUPして、ChatGPTに対して
「今からUPするデータを分析してわかることをおしえてください」
と伝えるだけです。
すると、ChatGPTからは、以下のような回答が返ってきました。
このデータセットには以下の4つの列が含まれています:
顧客No: これは各顧客の一意の識別子を表しているようです。
顧客種別: これは顧客のカテゴリまたはタイプを表すようです(例:ゴールド)。
地域: これは顧客の地理的位置を示していると思われます。
年齢: これは顧客の年齢を表しています。次にどのような分析を行いますか? 一部の基本的な統計(例:年齢の平均、地域別の顧客数など)を提供したり、特定の質問に答えるための分析を行うことが可能です。あなたが探している特定の情報があれば教えてください。
年代別の顧客種別のクロス集計
次に、年代別に顧客種別をクロス集計します。
私からは以下のようにChatGPTに話しかけます。
「顧客の年代別に集計し、顧客カテゴリとのクロス集計表を作ってみてください」
するとあっという間にクロス集計表を作ってくれて、以下のような分析をしてくれました。
以下に年代別の顧客種別のクロス集計表を示します。
年代 ゴールド プレミアム ホワイト 10-20 0 0 62 20-30 42 0 585 30-40 136 35 509 40-50 115 35 521 50-60 85 14 545 60-70 18 20 278 この表から、以下の観察が可能です:
年齢層10-20の顧客はすべて’ホワイト’カテゴリーに所属しているようです。ゴールドやプレミアムの顧客は見られません。
年齢層20-30でも、ほとんどの顧客が’ホワイト’カテゴリーに所属しています。この年齢層のゴールド顧客は少ないです。
年齢層30-40と40-50では、ゴールド顧客が最も多く、次にホワイト顧客、最後にプレミアム顧客となっています。
年齢層50-60では、ホワイト顧客が最も多く、次にゴールド顧客、最後にプレミアム顧客となっています。
年齢層60-70では、ホワイト顧客が最も多く、ゴールドとプレミアム顧客が同じくらいの数となっています。
この分析からは、年齢層と顧客種別の間に明確な関係があることがわかります。若い顧客ほどホワイト顧客が多く、中高年の顧客ではゴールドやプレミアムの顧客が増えてきます。
都道府県別の顧客種別のクロス集計
今度は、
「それでは次に都道府県別にカテゴリーを集計してみてください。」
と話しかけると、同様に、都道府県別に顧客種別をクロス集計してくれます。
ChatGPTからは以下の回答が出てきました。
以下に都道府県別の顧客種別のクロス集計表を示します。
都道府県 ゴールド プレミアム ホワイト 兵庫県 32 8 200 北海道 40 10 250 千葉県 27 5 160 埼玉県 48 10 290 大阪府 40 14 270 愛知県 25 8 165 東京都 104 29 665 神奈川県 32 8 200 福岡県 48 12 300 この表から、以下の観察が可能です:
東京都には他の都道府県と比べて明らかに多くの顧客がいるようです。各顧客種別(ゴールド、プレミアム、ホワイト)でも最も多くの顧客が東京都にいます。
兵庫県、神奈川県、愛知県ではゴールド、プレミアム、ホワイトの顧客の数が非常に似ています。これらの都道府県では顧客種別の分布が均等である可能性があります。
福岡県、埼玉県、北海道ではホワイト顧客が最も多く、次にゴールド顧客、最後にプレミアム顧客となっています。
これらの観察から、都道府県と顧客種別の間にも関係がある可能性があります。具体的には、都市部(特に東京)にはより多くの顧客が存在し、その中でもホワイト顧客が最も多いようです。
都道府県別の顧客種別割合のグラフ作成
最後に、都道府県ごとの顧客種別の割合を視覚的に理解するために、棒グラフを作成します。
私からはChatGPTに以下のように話しかけます。
「各都道府県別に各カテゴリの割合を計算し、プレミアム、ゴールド、ホワイトの順に並べて、グラフを表示してください」
すると、ChatGPTは顧客種別の都道府県別分布を一目で把握することができるようにグラフを作ってくれます。
ここで気をつけなければならないのが、まだグラフ自体は日本語に対応していないようで、こちらからは、「日本語表記を英語表記にしてグラフにしてください」
と話しかけます。
ChatGPTからの返事は以下のとおりです。
このグラフから、各都道府県における顧客種別の割合を視覚的に理解することができます。全体的に見ると、すべての都道府県でホワイト顧客が最も多いことが確認できます。一方で、都道府県によってはプレミアム顧客とゴールド顧客の割合が多少異なることも確認できます。具体的には、大阪府や福岡県ではプレミアム顧客の割合が他の都道府県と比べてやや高いようです。
以上のことから、ChatGPTは顧客データの洞察を得るための強力なツールであることがわかります。これは単なる一例であり簡単な例ではありますが、他にも様々な種類のデータに対する分析をChatGPTで実施することが可能なのではないかと思います。
今回、実験したことによって人工知能の進化がもたらす可能性がまた少しわかった気がします。
ChatGPTのようなツールは、データ分析が得意でない人でも洞察を得る手段を提供します。その一方で、AIの力がこれほどまでに増大していることは、少し怖く感じてしまうところもあります。
これからのAIの進化が私たちの生活や仕事にどのように影響を与えていくのか、非常に楽しみです。