プロジェクト

全般

プロフィール

ToDo #796

【データ基盤】売上速報 店別日割予算データ 読み込み不良

武田 遼河 さんが約2ヶ月前に追加. 約1ヶ月前に更新.

ステータス:
完了
優先度:
急いで
担当者:
開始日:
2024/12/04
期日:
2024/12/13
進捗率:

0%

予定工数:

説明

【事象概要・経緯】

1.2024/12/2 村上さん定期チェックでのご報告

今朝はそれとは別のエラーが久々に出ていたので原因を調査していたのですが、VEの000203の20241201分の予算レコードがアップロードされている予算ファイルに存在していないことが原因でした。

Flash Sales Reportsの生成ロジックを予算基軸にしたことで予算レコードがないとおかしな挙動をしてしまうようになっていたのですが、1店舗分がないことで全店舗分のレコードが生成されないことも問題だろうから、今朝修正して存在するレコードだけで生成可能(今朝の例だとVE日本橋店以外の店舗は正常に表示するよう)にしております(以後も同様の問題が起こってもエラーで全店処理がされないという事象は起こりません)。

予算のファイルを見直して頂き、リカバリー頂いてもよろしいでしょうか?

2.武田確認結果

本件につきまして、日割り予算データの取込フォーマットについて確認させてください。

本日ご指摘いただいた日割り予算について、s3にアップロードしたファイル自体にはレコードが存在するようでした。
→該当ファイルはヘッダー行なし、該当データは1行目でした。

現在の日割り予算データの取込フォーマット仕様について、失念してしまいまして・・・
大変恐れ入りますが、現行のフォーマット仕様について改めてご教示いただいてもよろしいでしょうか?
(S3に上がっているファイルの内、「~.csv」の形式が正 等での大丈夫です。)

3.村上さん再調査結果

確かにCSVにはレコードが存在していますね。
s3://data-platform-prd-dwh/forecast_tbl/202412-202503_VE.csv

フォーマットは以下の通りなのですが、アップロード頂いているもので間違いもなさそうです。
• mst_shop_shop_cd varchar(20),
• date varchar(10),
• sales_budget varchar(20),
• customer_budget varchar(20),
• labor_hours_budget varchar(20)
1点気になるのは、Redshiftの仕様が最近変わったようで、External schema(外部参照テーブル)の挙動が先週くらいから違っているのです。アイコンも内部テーブルと同じになっていて、テーブル名をクリックすると「サーチパスがない」みたいなエラーが表示され、テーブル一覧画面下部に表示するカラムリストが表示されなくなっています(でもそれ以外は従来通り普通に使えます)。AWSのニュースサイト等も見てみたのですが、該当する記事も今のところ見つかっておりません。

サービスの仕様変更が本件の原因なのか?も不明なのですが、とりあえず試してみたいこととして「アップロードするファイルにヘッダーを入れてみる」というのがあります。余計なゴミデータになるからカラムタイトルであるヘッダー行は使わずにいたのですが、1行目をヘッダーとして扱っている?(詳細不明)かもしれないので、入れてみてどうなるか(Redshiftのクエリで表示されるようになるか?)を確認してみたいです。

【対応方針】
・CU側でデータ欠損が発生しないフォーマットを調査(島貫)
・アップロード後flash_sales_reportの影響度確認(武田)


ファイル

202412-202503_VE.csv (638 KB) 202412-202503_VE.csv 武田 遼河, 2024/12/11 13:52
#1

武田 遼河 さんが約1ヶ月前に更新

添付のフォーマットにて再アップしたところ正常に認識されるようになりました。
該当店舗の売上リカバリまで完了しております。

他の形式にエクスポート: Atom PDF