awscasual2に行ってきた - smallpalace's blog

こんにちわ。行ってきたので書いときます。

ハッシュタグ #awscasual

Togetterまとめ

http://togetter.com/li/656484

------

クラウドトレイルのはなし。クックパッドの@kani_bさん

ログとれーるだそうで。

heartbleedの話が。。早速脱線w。

まあ知ってる内容でした。

AWSでログが欲しい。どうロギングしたものか。

ReInbent2013で発表されてたcloudTrail。

アカウント内での操作ログをS3に吐く。ログ形式はJSON。

アカウントIDとかリージョンとかエージェントなど色々。

パースは自己責任。他のサービスに任せても。

HTTPproxyのようなクライアント縛りがなくAWSがわでとってくれる。

まだアメリカのみ。IAMとかリージョン関係ないやつはログとれる。

変更とか失敗の履歴が取れちゃう。

GAMEDAYの対戦でログとれるかと思ったらcloudTrailを切れるユーザーを渡す感じなのでとりあえず切られる。

実運用にあたりログ集約のアカウントにまとめるとか。

GAMEDAYのログの紹介。挨拶がわりにインスタンスがterminateされてるようすなど。

APIリクエストをまるっとロギングしてくれる。

IAMの履歴を管理するiwasのご紹介。

github.com/kanny/iwas

------

DetaStreamProcessing and analysis 分析ぽいタイトル。@suzu_v

http://www.slideshare.net/suzuken/data-stream-processing-and-analysis-on-aws-awscasual

ログの解析基盤とkinesisの話。

kinesisはストリームをながしこんで受け取るための基盤。

シャードで処理しストレージにおく。

パーティションkey(useridとか)で分割して処理。

リアルタイムランキングとかを作る。

設計の話をしたい。

広告ログを分析するための基盤。

複数サービス、過去ログも快適に分析したい。ベストエフォート。

2年前はmongoDBだったけどwriteの負荷ほかで夜中泣きついてくる感じ。

次はdynamoDBに。自動スケーリング便利。

fluentが便利すぎて使いすぎて先が詰まると死ぬ話。

erasticsearchのstopTHEworld問題。

kinesisに書き込むproducer、1レコードずつ書き込む。

1シャード1000putリクエスト制限を解除しないといけない。

失敗のハンドリングが必要。

consumerはアプリケーション側。dynamoDBに書き込む。

早く東京リージョンにきてほしい。

------

クックパッドの青木さん redshiftのはなし

並列RDBMSです。

分散処理ができる。

リーダーノードとコンピュートノードがある。

処理はノード単位。

パフォチューの話。

処理の種類とかかる時間の話。

OLTPは無理。

リクエストの並列度が超高いのは無理。高頻度も無理。秒間2桁の処理は無理。

tacticalquery、sortkeyに当てる、テーブルサイズを小さくする、事前joinはあんま効かない

strategic、batch、ここから本題。

頻出問題外パターン、全行selectして外で処理する。データを移動したら負け。

10億行くらいで普通のテーブル、100億でヤバイ、1000億だとマジヤバイ

http://Instagram.com/p/m7dm8KMjaV/

最も詰まりやすいのはノード間をつなぐNW。

NWはディスクより遅いdw1.xlaegeの場合実測３０ＭＢ。

データの再分散を避ける。どういうときに再分散がおきるか、joinとgroupby

joinキーがdistkeyなら再分散は起こらない。

groupbyキーがdistkeyなら再分散は起こらない。

再分散が起こってない目安はEXPLAINでDS_DIST_NONEをみる。

それでも重いならノード買えという話。

hadoopは分散キーがないからキライ。

データを移動したら負け。入れたら出さない。

並列RDBではネットワークが最も重要。

つづきは、

http://amazon.co.jp/dp/4774163651/

で。

------

荒木さんのお話。@ar1

VPC、ELB、CloudFront、route53

http://www.slideshare.net/ar_maniacs/20140418-awscasualnetwork

ネットワーク系の新サービス

拡張機能、

VPCpeering

以下3つはすぐに試す価値有り。

ELBのlogging、PFS

CloudFrontのSNI

ロギング機能はどこで時間かかってるかわかる。

ELBのTCPモード？ヘッダーがいじれない。

request、backend、processingtimeがとれる。

バックエンドを外しても処理中のリクエストを300秒待ってくれるようになった。connectionDraining機能。

ＥＣＤＨＥとserverOrderPreference(SOP)サポート

PFSは、ELBsecurityporicy2014-1を適用すればオッケー。

鍵を盗まれると昔の通信も複合化されてしまう。

ブラウザが利用する暗号を確認のこと。

CloudFront(serverNameIdentification)

SNI

RFC

HTTPredirect

HTTPからHTTPSにリダイレクト設定可能に。

CloudFront、EDNSーclientーsubnet

サポートするDNSリゾルバを使っていれば、より正確に最も近いエッジを選択してくれる。

route53

ヘルスチェック機能の拡充

フェイルオーバー実行閾値の制御

フェイルオーバーにかかる時間=TTL+(間隔*閾値)

レスポンス文字列の指定もできる。

UPSERT、UPDATEとINSERTの造語。

インスタンス起動時に自分をついかするのに有効

VPCピアリング

最大50いけるがリージョン間はできない。

ピアリングにはinnviteが必要。経由はできない。常に直接はる必要がある。

もちろんアドレス重複は通信できない。/16のデフォルトサブネットもだめ。

つなぎそうな相手とは重複しないように。。。

------

@yamakatuさん。

hadoopが苦手とするもの

繰り返し処理、前回の処理結果をさらに処理するとか。

sparkはそれと比較して早いベンチマーク図。

機会学習ライブラリが色々。

MLLib、簡単。

hadoopとspark+MLLib速度比較100倍。低DISK I/O。

ec2に自動でspark環境立てれるスクリプトがある。

http://gihyo.jp/dev/serial/01/mahout

------

5分でできるebfly 本多さん@hakobera

erasticbeanstalkの話。

作ったプロダクトの話。

herokuっぽいbeanstalk用の手軽なデプロイツールみたい。

http://qiita.com/hakobera/items/ff670c947ff5041ce067

------

Windowsserverでもログ分析したいグラニの人。c#の人。

ソーシャルゲームの規模は秒間最大1000万リクエスト、デイリー100億リクエスト

進撃のヴァルハラゲートだそうで。

Windowsでログ転送したい。

ETWというWindowsのロギング機能

直接操作しづらいので、SLABを使う。S3に投げてる。

------

mikedaさん

elasticsearchを使ってみた話。

http://www.slideshare.net/baguzy/aws-casual2-lt

高速でメモれず。

副業OKになったので仕事くださいと言ってました。

------

カジュアルとは

http://twitpic.com/e1fwa4

私には荒木さんの話が一番役立ちそうでした。

見て頂いてありがとうございました。