読者です 読者をやめる 読者になる 読者になる

Learn to Live and Live to Learn

ITに関する記事を読んで,考えて,使ってみたことをまとめる場.読書が好きでnoteに感想を書いています(宣伝)→https://note.mu/a_01

Hadoop Conference Japan 2014

Hadoop

行ってきました。黄色いゾウと会える会。

講演の動画や資料は
Hadoop Conference Japan 2014 Tickets - Eventbrite
からご覧いただけます。

全体の印象としては、YARNやHadoopを活用した事例の紹介が多かったです。
Hadoop Summitに行った先輩方が
YARNとTezの話が主だったと言っていた気がするのですが
こちらはTezの話はあまりなかったです。
午前中はキーノート(Hadoopの未来や、Hadoopを取り巻く環境を俯瞰したお話)
午後はさまざまな発表やライトニングトーク。
Clouderaなど企業のブースもありました。

こういう技術系のイベントに参加することは少ないのですが
所謂意識の高い人がたくさんいて、モチベーションが上がりました!


最後に自分のメモ。

  • Databricksのデモすごい。
  • Hadoopの利用には集める→保存→取得→利活用のフェーズがあるので、どこに位置するのか意識することが大事。
  • セキュリティには①認証 Kerberosと②認可 (a)HDFS ACL(Access Control List) (b)Apache Sentry 行/列からデータベース単位までアクセス制御可能がある。Apache SentryはParse→Build→PlanのBuildとPlanの間に入ってCheckする。
  • リクルートの事例 ①キャリアアドバイザーを擬似的に再現。教師あり学習。(社内外) ②Push ③HBase リアルタイムレコメンド
  • スペースコーディング 特徴量
  • Skip-Gram 単語をベクトル表現
  • グラフ Titan
  • Prestoのロゴが好き。
  • Mahoutによるアルツハイマー診断支援 by 新日鉄 モダリティは医療機器。①判別分析 ②クラスタリング ③レコメンド ④その他がMahoutにはある。Random Forestは決定木を組み合わせたもの。 上位に頻出するものは重要。 複数モダリティのRF ①データ合成 ②次元圧縮 データの数を合わせる。 → モデル合成
  • LT。Shib yarn.app.mapreduce.am.resource.mb(デフォルトは16G)が足りないとYARNは起動もしない。MLib Sparkで用意されている機械学習のライブラリ。fluentd Flume データを集めて保存。Big Query
  • Treasure Data on YARN by Treasure 今までのJobTrackerがResourceManager、TaskTrackerがNodeManagerに。
  • 実践機械学習 by MAPR ほしいのは例外的な共起。共起マトリクス アイテム×アイテム。共起バイナリマトリクス LLRLucene 検索→(ラッパー)Solr アイテム=ドキュメント このインジケータに一緒に買われたものをセット。マルチモーダルレコメンデーション 複数の行動ログを使って。結果の一ページ目しか見ない。更新されないとお客さんはおもしろくない。機械も学習しない→ディザリング レコメンド+ランダム。ランクの対数ガウス分布を加えたものをスコアに。