読者です 読者をやめる 読者になる 読者になる

smallpalace's blog

鯖缶主婦の日々の記録です

awscasual2に行ってきた

こんにちわ。行ってきたので書いときます。

Togetterまとめ

------
クラウドトレイルのはなし。クックパッドの@kani_bさん
ログとれーるだそうで。

heartbleedの話が。。早速脱線w。
まあ知ってる内容でした。

AWSでログが欲しい。どうロギングしたものか。
ReInbent2013で発表されてたcloudTrail。
アカウント内での操作ログをS3に吐く。ログ形式はJSON
アカウントIDとかリージョンとかエージェントなど色々。
パースは自己責任。他のサービスに任せても。
HTTPproxyのようなクライアント縛りがなくAWSがわでとってくれる。
まだアメリカのみ。IAMとかリージョン関係ないやつはログとれる。
変更とか失敗の履歴が取れちゃう。
GAMEDAYの対戦でログとれるかと思ったらcloudTrailを切れるユーザーを渡す感じなのでとりあえず切られる。
実運用にあたりログ集約のアカウントにまとめるとか。
GAMEDAYのログの紹介。挨拶がわりにインスタンスがterminateされてるようすなど。
APIリクエストをまるっとロギングしてくれる。
IAMの履歴を管理するiwasのご紹介。
github.com/kanny/iwas
------
DetaStreamProcessing and analysis 分析ぽいタイトル。@suzu_v
ログの解析基盤とkinesisの話。
kinesisはストリームをながしこんで受け取るための基盤。
シャードで処理しストレージにおく。
パーティションkey(useridとか)で分割して処理。
リアルタイムランキングとかを作る。
設計の話をしたい。
広告ログを分析するための基盤。
複数サービス、過去ログも快適に分析したい。ベストエフォート。

2年前はmongoDBだったけどwriteの負荷ほかで夜中泣きついてくる感じ。
次はdynamoDBに。自動スケーリング便利。
fluentが便利すぎて使いすぎて先が詰まると死ぬ話。
erasticsearchのstopTHEworld問題。
kinesisに書き込むproducer、1レコードずつ書き込む。
1シャード1000putリクエスト制限を解除しないといけない。
失敗のハンドリングが必要。
consumerはアプリケーション側。dynamoDBに書き込む。
早く東京リージョンにきてほしい。
------
クックパッドの青木さん redshiftのはなし

並列RDBMSです。
分散処理ができる。
リーダーノードとコンピュートノードがある。
処理はノード単位。
パフォチューの話。
処理の種類とかかる時間の話。
OLTPは無理。
リクエストの並列度が超高いのは無理。高頻度も無理。秒間2桁の処理は無理。
tacticalquery、sortkeyに当てる、テーブルサイズを小さくする、事前joinはあんま効かない
strategic、batch、ここから本題。
頻出問題外パターン、全行selectして外で処理する。データを移動したら負け。
10億行くらいで普通のテーブル、100億でヤバイ、1000億だとマジヤバイ
最も詰まりやすいのはノード間をつなぐNW。
NWはディスクより遅いdw1.xlaegeの場合実測30MB。
データの再分散を避ける。どういうときに再分散がおきるか、joinとgroupby
joinキーがdistkeyなら再分散は起こらない。
groupbyキーがdistkeyなら再分散は起こらない。
再分散が起こってない目安はEXPLAINでDS_DIST_NONEをみる。
それでも重いならノード買えという話。
hadoopは分散キーがないからキライ。
データを移動したら負け。入れたら出さない。
並列RDBではネットワークが最も重要。
つづきは、
で。
------
荒木さんのお話。@ar1
VPC、ELB、CloudFront、route53
ネットワーク系の新サービス
VPCpeering
以下3つはすぐに試す価値有り。
ELBのlogging、PFS
CloudFrontのSNI

ロギング機能はどこで時間かかってるかわかる。
ELBのTCPモード?ヘッダーがいじれない。
request、backend、processingtimeがとれる。
バックエンドを外しても処理中のリクエストを300秒待ってくれるようになった。connectionDraining機能。
ECDHEとserverOrderPreference(SOP)サポート
PFSは、ELBsecurityporicy2014-1を適用すればオッケー。
鍵を盗まれると昔の通信も複合化されてしまう。
ブラウザが利用する暗号を確認のこと。

CloudFront(serverNameIdentification)
SNI

HTTPredirect
HTTPからHTTPSにリダイレクト設定可能に。

CloudFront、EDNSーclientーsubnet
サポートするDNSリゾルバを使っていれば、より正確に最も近いエッジを選択してくれる。

route53
ヘルスチェック機能の拡充
フェイルオーバー実行閾値の制御
フェイルオーバーにかかる時間=TTL+(間隔*閾値)
レスポンス文字列の指定もできる。
UPSERT、UPDATEとINSERTの造語。
インスタンス起動時に自分をついかするのに有効

VPCピアリング
最大50いけるがリージョン間はできない。
ピアリングにはinnviteが必要。経由はできない。常に直接はる必要がある。
もちろんアドレス重複は通信できない。/16のデフォルトサブネットもだめ。
つなぎそうな相手とは重複しないように。。。

------
@yamakatuさん。
hadoopが苦手とするもの
繰り返し処理、前回の処理結果をさらに処理するとか。
sparkはそれと比較して早いベンチマーク図。
機会学習ライブラリが色々。
MLLib、簡単。
hadoopとspark+MLLib速度比較100倍。低DISK I/O
ec2に自動でspark環境立てれるスクリプトがある。
------
5分でできるebfly 本多さん@hakobera
erasticbeanstalkの話。
作ったプロダクトの話。
herokuっぽいbeanstalk用の手軽なデプロイツールみたい。
------
Windowsserverでもログ分析したい グラニの人。c#の人。
ソーシャルゲームの規模は秒間最大1000万リクエスト、デイリー100億リクエスト
進撃のヴァルハラゲートだそうで。
Windowsでログ転送したい。
ETWというWindowsのロギング機能
直接操作しづらいので、SLABを使う。S3に投げてる。

------
mikedaさん
elasticsearchを使ってみた話。
高速でメモれず。
副業OKになったので仕事くださいと言ってました。

------
カジュアルとは

私には荒木さんの話が一番役立ちそうでした。

見て頂いてありがとうございました。