Kaggleで公開されている小売店の売上時系列データを対象に、Multi-Sigma®を活用してニューラルネットワークモデルを構築し、各部門の20週間先までの売上予測および要因分析を行った事例をご紹介します。
1. 解析対象としたデータ
公開データセットには45店舗における各販売部門のデータが含まれていますが、説明を簡単にするため、店舗番号1のみを対象にし、その中の特定の部門に絞って分析を行いました。 2010年から2012年までの全データのうち最後の20週分をテストデータとし、それ以前を学習データとしてモデルを構築して予測精度評価および要因分析を実施しています。
2. Multi-Sigma®を用いた将来売上げ予測
時系列データの予測モデルを構築する際には、単に収集したデータをそのまま用いても、高い予測精度を得ることは容易ではありません。そこで本分析では、さまざまな特徴量エンジニアリングを実施しました。例えば、日付情報に対しては、年・月をワンホットエンコーディングによってダミー変数に変換しています。週情報については、周期性を考慮し、sin/cos変換を適用しました。また、前週に実施されたディスカウントキャンペーンが当該週の売上に影響を及ぼすと想定し、前週の各種ディスカウント情報も特徴量として追加しています。さらに、過去4週間分の週ごとの売上データとそれらの合計値も補足的な特徴量として加えました。このほかにも、細かな特徴量エンジニアリングを多数施しています。加えて、時系列データの分析において重要な点としてモデル学習時に情報漏洩を防ぐ適切なトレーニング手法を用いることが挙げられます。Multi-Sigma®では、このようなトレーニング手法も容易に実現でき、本分析でもこのアプローチを採用しています。

3. Multi-Sigma®を用いた将来売上げ予測
Multi-Sigma®の要因分析機能により、店舗番号1の特定の部門における売上げ予測に影響の大きい変数が明らかになりました。この部門においては、年間の経過週数をcosine関数に変換したものが売上にポジティブな影響を持っていました。また、前週の売上げや値引き施策4が大きいほど当該週の売上げも大きくなる傾向が見られます。さらに10月に売上げを伸ばす事がわかります。
一方で、2週間前・4週間前の売上げが大きくなると当該週の売上げは減少する傾向が見られました。加えて、値引き施策1・5の実施が売上げの減少に繋がることがわかります。
なお、これら要因分析の結果は、店舗・部門によって変わります。

(データ) Kaggle:Retail Data Analytics (https://www.kaggle.com/datasets/manjeetsingh/retaildataset)