週末 JAWS FESTA で札幌に行く予定だったので、勉強会のみの参加でした。
この分野は素人なので(注:決して釣りや煽りではありません)、今回は聴衆に徹することに。でもいつも通り実況してたので、こちらでもそれを流用…。
Amazon RedshiftとTableauでやってみるデータ分析(プロトコーポレーション 香椎さん)
データ基盤としては誰でも簡単に使えるRedshiftを活用。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
違う、PostgreSQL 8.0.2ベースっぽい。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
Redshiftは時間課金、BigQueryはクエリ課金。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
データ活用のためにTableau。
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
今回はメインではないので詳細は割愛。#jawsug_nagoya
TableauはRedshift以外にAthenaとかAuroraとかにもつながる。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
クエリをミスると無意味な数億レコードが飛んでくる世界😱#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
- 実際に使おうとしたときに「サービス多すぎてどれを選択したらよいかわからない」となりそうなので、この手の話はありがたいです。
時系列予測サービス「Amazon Forecast」の初学レポート(Akihiro Horikawa さん)
時系列予測について。時系列データの分析には分類、回帰、クラスタリング等があるけど、Forecastでは回帰のみ対応。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
時系列分析は面倒だし、実務で時系列回帰は結構多いので回帰だけでも便利(なはず)。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
#jawsug_nagoya pic.twitter.com/I4rQjbq47v
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
データセットのフィールド名、AWS予約済みの名前が結構あるので注意。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
アルゴリズムは5手法から選択するか、AutoMLに任せて選んでもらう。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
実務では、高めに予測したい場合、低めに予測したい場合がある。
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
→対応してるけど、マイナス値があり得ないものにマイナス値が出たり等ちょっと「?」な部分も。#jawsug_nagoya
簡単といえど最低限の知識は必要。
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
データが◯ソだと結果も◯ソになるので学習データ大事。#jawsug_nagoya
- 「知識がない人が使えるほどには簡単ではないけれど、そこそこ便利に使えそう」なことはわかりました。
分析ではない話(分析する人たちのためにデータを集めてたり、監視したり)(cloudpack 内木さん)
最初はビッグデータの話。3つのV。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
ビッグデータ領域のAWSサービスの大まかな説明。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
Datadog Sparkの話。
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
Datadog、Dashboardによる可視化がしやすいのが良いところ。#jawsug_nagoya
ログ監視も得意。
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
(うちはまだ使ってないな…。)#jawsug_nagoya
- Datadog、活用が足りてないのでもうちょっと研究せねば。
Athena破産の回避対策を試しました(Masaru Kachi さん)
Athenaはクエリに対する従量課金。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
無限ループスキャン死。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
パーティション分割をして検索。
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
→データスキャン量が減った。#jawsug_nagoya
デフォルトではCREATE時にパーティションの記述がないので追記が必要(記述しておかないとADD PARTITIONできない)。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
ワークグループも使ってみたら、と会場内から提案が。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
- Athena、無邪気にログ解析で試したりしてたので、もっと気を付けて試そう…。
初心者は黙ってAmazon Athena(JAWS-UG 名古屋 山口さん)
Athenaは様々なファイル形式・圧縮形式に対応。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
とりあえず頻繁に使わないデータはS3に入れてAthenaで処理。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
パーティションとLIMIT句とワークグループでコストを節約。#jawsug_nagoya
— hmatsu47(まつ) (@hmatsu47) October 28, 2019
- 1 つ前の話と被ったのでつぶやき少なめでしたが「1 つ前の話の復習+強化版」という感じで良かったです。
次回は初心者向けハンズオンのようなので、EC2 & S3 初心者の方のために席を空けておきます(これを書いている時点で残 4 なので、社内の人に伝える前に埋まる可能性高そう…)。