構築中。

名古屋のITインフラお守り係です。ITイベントへの参加記録などを残していきます。

JAWS-UG 名古屋 5 月会①「データ利活用研究会」LT 参加(5/9)

データ利活用分野は素人なので当初は一般参加枠で参加登録していましたが、LT 枠の参加者が「7/8」で止まっているのを見て LT 枠に移動して参加しました。

jawsug-nagoya.connpass.com

LT 枠参加…で登録したものの

まずい。

なるほど…でもまだはっきりしてない。

というわけで、先日の発表の内容をベースにネタを資料を作り始めて、なんとか形にしました。

(その後 connpass にタイトルが発表されたので、それに合わせて軌道修正)

そして当日

LT 枠に移動しておいてよかった!

開始!

「プラガバ」と言われると「プラガブルな何かかな?」と思ってしまいますがプライバシーガバナンスですね。

SageMaker でテストデータ生成用のモデルを作って、そのモデルでテストデータを生成!

その場でデモをすると失敗する法則があるので動画に事前収録しておいて正解!


dev.classmethod.jp

この後も遠方勢の登壇者が多かったですね。

データの分析にしろ連携にしろ「繋ぎ方」は鬼門になりがちですね。

推論だとどうしても取りこぼしというか確定できなくて除外してしまう列が発生するようです。

気になる点。

集計して分析する以上集計範囲のデータが全てスキャンの対象になるのは仕方ないとして、必要範囲外のレコードがスキャン対象になったり同じレコードが何度もスキャンされたりするのは避けたいところ。


speakerdeck.com

Security Hub の「見せ方」に不満があるのわかる。

内容が古くなって…というパターンもあるけど「最初から書いてある手順だけでは完成しない」パターンもありますね。

(今回は(最初は)問題なく完成した話)

最初は良かったけどデータが増えたときに性能&料金問題が発生するの、データストアあるあるですね。

決め手がないのは辛い。


前フリ?

基本形態。

スキャン範囲が増える罠。

ただし時系列のパーティションは新しい期間のデータが増えるごとに新しいパーティションができる→都度 ALTER TABLE するのが面倒、ということでパーティション射影を使うと良いよ、という話でした。


普段なかなか見ないテーマの話なのでみなさん興味津々です。

…と言いつつ「実はインフルエンサーの勧めに従ってモノを買うことって少なくない?」という話が後の懇親会の場で出ていました。

「実務で出てくる問題点」っていう感じで興味深いです。

このあたり、評価にベクトル(検索)を活用するのも面白そうかな?と思いました(懇親会でもそのあたりの話題を少しだけ)。

勢いがすごい!


www.docswell.com

これらの軸で組み合わせると、

SQLite は Cloudflare の D1 のような分散環境での使い方で注目を集めていますが、DuckDB はある程度小さめの容量のデータに対する分析を「隙間」みたいな場所で実行できるのでかなり話題になっていますね。

実験!

結果が 0 件になるクエリを投げたのはご愛嬌(?)。


そしてわたしのネタ、

www.docswell.com

JAWS-UG で扱って良いのかちょっと悩むネタですがそのまま突き進みました。

性能比較に使ったのが「Aurora の半額くらいのインスタンス」ですね(それでも 10 倍以上は速くなる、という話)。

です。


「短時間では説明しきれない」ということで、

ここだけ押さえといて、みたいなお話でした。

AWS はビルディングブロック」と言いながらも「ブロックの中に別のブロックを取り込む」みたいなことを繰り返した結果「デカくて複雑なブロック」ができあがることも…。

懇親会

懇親会は当初参加する予定がなかったのですが、当日キャンセルで枠が空いてしまったとのことで最初の 1 時間ちょっとぐらい参加しました。

いやー、しばらく参加していないと顔ぶれが結構変わっていたりして浦島太郎化しますね。

残念ながらわたしはこの場面に立ち会う前に帰ってしまいました。

帰りはそこそこの強い雨でしたが、皆さん無事に帰り着けたでしょうか?

(わたしが家に帰った後、一段階雨の降り方が強まった気がします…翌朝、倒竹で名鉄の一部路線が止まってましたし)