Apache Spark
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
-[[Apache Spark - Lightning-Fast Cluster Computing:http:/...
-[[ユースケースで徹底検証! Sparkのビッグデータ処理機能を...
-[[Apache Spark で分散処理入門:http://qiita.com/Hiroki11x...
-[[Apache Spark を使ったシステム構築のための Tips:http://...
-[[Pythonで入門するApache Spark at PyCon2016 - SlideShare...
-[[Amazon EMRで構築するApache Spark超入門:http://www.atma...
-[[MLlib Apache Sparkで人工知能 機械学習:https://matome....
-[[Apache Sparkに注力するIBM、目指すは「データ分析のOS」:...
----
-Apache Sparkは巨大なデータに対して高速に分散処理を行うオ...
-JavaやScala、Pythonなどいろいろなプログラミング言語のAPI...
-Sparkは分散処理のややこしい部分をうまく抽象化してくれて...
-クラスタ上のデータをSQLで処理できる「Spark SQL」や、機械...
*[[Spark Streaming:http://spark.apache.org/streaming/]] [...
-[[Spark Streamingの概要と検証シナリオ:https://thinkit.co...
-[[Spark Streamingを使ってみた ~Twitterリアルタイムトレン...
-[[ビッグじゃなくても使えるSpark Streaming:https://www.sl...
-[[Spark Streamingによるリアルタイムユーザ属性推定:https:...
-[[AWS Kinesis Streams + Spark Streamingでストリーム処理...
-[[Spark StreamingからAmazon Kinesis Analyticsへ移行する...
-[[Benchmarking Streaming Computation Engines at Yahoo!:h...
--[[Yahoo!がApache Flink, Spark, Stormのベンチマークを実...
-[[ストリーム処理とは何か?+2016年の出来事:http://qiita....
-マイクロバッチ方式によるストリームデータ処理機能を提供
--数百ミリ秒から数秒ほどの短い時間に流れて来たデータに対...
--バッチ処理の間隔を短くしてできる限りレイテンシを小さく...
*MLlib [#vdc941a3]
-[[Machine Learning Library (MLlib) Guide:http://spark.ap...
-[[MLlib: メイン ガイド - Spark 2.0.0 ドキュメント 日本語...
-[[まだRDDしか使ってない人へ、DataFrame, Pipelineの要点紹...
-RDDベースのAPIは今後なくなる予定
-MLlibは一般的な機械学習アルゴリズムとユーティリティから...
**主な機能 [#t011f5a5]
***基本的な統計 [#pebdf896]
-相関関係
-階層化されたサンプリング
-仮説テスト
-ランダムデータ生成
-カーネル密度推定
***分類と回帰 [#gd2d2b60]
-2値分類
--線形SVM
--ロジスティック回帰
--決定木
--ランダムフォレスト
--勾配ブースト木
--ナイーブベイズ
-多クラス分類
--ロジスティック回帰
--決定木、
--ランダムフォレスト
--ナイーブベイズ
-回帰
--線形最小二乗
--ラッソ
--リッジ回帰
--決定木
--ランダムフォレスト
--勾配ブースト木
--アイソトニック回帰
***協調フィルタリング [#pfd54190]
-交互最小二乗法 (ALS) アルゴリズムを使用
***クラスタリング [#ba5e5d65]
-K-平均法
-混合ガウス
-べき乗クラスタリング (PIC)
-潜在的ディレクレ配分法 (LDA)
-二値k平均法
-ストリーミング k-平均法
***次元削減 [#l8bd1ab0]
-特異値分解 (SVD)
-主成分分析 (PCA)
***特徴量抽出および変形 [#w9e5224a]
-TF-IDF
-Word2Vec
-StandardScaler
-平均器
-ChiSqSelector
-ElementwiseProduct
-PCA
***頻出パターンマイニング [#m39e054a]
-FP-growth
-相関ルール
-PrefixSpan
***評価マトリックス [#e7d13e75]
-分類モデルの評価
-二値分類
-多クラス分類
-多ラベル分類
-ランキング システム
-回帰モデルの評価
***PMML モデル抽出 [#c1781267]
-Predictive Model Markup Language (PMML)へのモデルのエク...
***最適化 [#v55ae40a]
-勾配降下法
-確率的勾配降下法 (SGD : Stochastic Gradient Descent)
-L-BFGS(Limited-memory Broyden–Fletcher–Goldfarb–Shanno)
*[[GraphX:http://spark.apache.org/graphx/]] [#s9540be0]
-[[GraphX - Spark 2.1.1 Documentation - Apache Spark:http...
--[[GraphX - Spark 2.0.0 ドキュメント 日本語訳 - FC2:http...
-[[Scalaを使用したApache Spark GraphX入門:https://communi...
-[[Spark GraphX で始めるグラフ解析 - SlideShare:https://w...
-[[Spark GraphXを使ったグラフ分析: サッカーチームのパフォ...
-[[Spark GraphXのページランク アルゴリズムを使用しラブラ...
*[[Apache PredictionIO:http://predictionio.incubator.apac...
-[[Apache Prediction IO 事始めと Heroku へのデプロイ:http...
-[[Scala製の機械学習サーバApache PredictionIOを使ってみよ...
-[[PredictionIOを使ってAmazonのような関連商品のレコメンド...
-Apache Software Foundationの元で開発されている、Sparkを...
-以下の機能を提供
--学習データや学習モデルを格納するためのストレージ
--機械学習を使用したエンジンを定型化するためのフレームワ...
--開発したエンジンをWebサービスとしてデプロイする機能
-機械学習はSparkのMLlibで行われる。
--学習データの投入は基本は CLI ツールから行うが、REST API...
--学習データは RDBMS か HBase 上に保存。学習データ以外に...
-機械学習されたモデルを使って予測が出来る。
--予測サービスは REST API で呼び出せる。計算済みのモデル...
*Kafka [#yc79a746]
-[[Kafka+Spark Streaming+Elasticserachによるシステム構築...
-[[ストリーム処理を支えるキューイングシステムの選び方:htt...
-メッセージキュー
*[[Apache Flink:https://flink.apache.org]] [#g8021d27]
-[[Apache Flink とは?:http://qiita.com/takanorig/items/e...
-[[Apache Flinkでリアルタイムストリーム処理を実装してみる...
-[[IoT時代におけるストリームデータ処理と急成長の Apache F...
-[[Apache Flink とは:http://x1.inkenkun.com/archives/5406]]
-[[Apache Flinkを試している:http://ogibayashi.github.io/b...
-[[分散ストリーム処理エンジンあれこれ:http://qiita.com/ta...
-Spark Streaming と同類の、分散ストリーム処理プラットフォ...
-特長
--高パフォーマンス&低レイテンシ(真のストリーム処理が可...
--耐障害性に優れる(自動でイベント処理継続)
---各処理をステートフルで扱っており、障害が発生した際には...
--ストリーム処理、バッチ処理の両方をサポートし、高レベル...
終了行:
-[[Apache Spark - Lightning-Fast Cluster Computing:http:/...
-[[ユースケースで徹底検証! Sparkのビッグデータ処理機能を...
-[[Apache Spark で分散処理入門:http://qiita.com/Hiroki11x...
-[[Apache Spark を使ったシステム構築のための Tips:http://...
-[[Pythonで入門するApache Spark at PyCon2016 - SlideShare...
-[[Amazon EMRで構築するApache Spark超入門:http://www.atma...
-[[MLlib Apache Sparkで人工知能 機械学習:https://matome....
-[[Apache Sparkに注力するIBM、目指すは「データ分析のOS」:...
----
-Apache Sparkは巨大なデータに対して高速に分散処理を行うオ...
-JavaやScala、Pythonなどいろいろなプログラミング言語のAPI...
-Sparkは分散処理のややこしい部分をうまく抽象化してくれて...
-クラスタ上のデータをSQLで処理できる「Spark SQL」や、機械...
*[[Spark Streaming:http://spark.apache.org/streaming/]] [...
-[[Spark Streamingの概要と検証シナリオ:https://thinkit.co...
-[[Spark Streamingを使ってみた ~Twitterリアルタイムトレン...
-[[ビッグじゃなくても使えるSpark Streaming:https://www.sl...
-[[Spark Streamingによるリアルタイムユーザ属性推定:https:...
-[[AWS Kinesis Streams + Spark Streamingでストリーム処理...
-[[Spark StreamingからAmazon Kinesis Analyticsへ移行する...
-[[Benchmarking Streaming Computation Engines at Yahoo!:h...
--[[Yahoo!がApache Flink, Spark, Stormのベンチマークを実...
-[[ストリーム処理とは何か?+2016年の出来事:http://qiita....
-マイクロバッチ方式によるストリームデータ処理機能を提供
--数百ミリ秒から数秒ほどの短い時間に流れて来たデータに対...
--バッチ処理の間隔を短くしてできる限りレイテンシを小さく...
*MLlib [#vdc941a3]
-[[Machine Learning Library (MLlib) Guide:http://spark.ap...
-[[MLlib: メイン ガイド - Spark 2.0.0 ドキュメント 日本語...
-[[まだRDDしか使ってない人へ、DataFrame, Pipelineの要点紹...
-RDDベースのAPIは今後なくなる予定
-MLlibは一般的な機械学習アルゴリズムとユーティリティから...
**主な機能 [#t011f5a5]
***基本的な統計 [#pebdf896]
-相関関係
-階層化されたサンプリング
-仮説テスト
-ランダムデータ生成
-カーネル密度推定
***分類と回帰 [#gd2d2b60]
-2値分類
--線形SVM
--ロジスティック回帰
--決定木
--ランダムフォレスト
--勾配ブースト木
--ナイーブベイズ
-多クラス分類
--ロジスティック回帰
--決定木、
--ランダムフォレスト
--ナイーブベイズ
-回帰
--線形最小二乗
--ラッソ
--リッジ回帰
--決定木
--ランダムフォレスト
--勾配ブースト木
--アイソトニック回帰
***協調フィルタリング [#pfd54190]
-交互最小二乗法 (ALS) アルゴリズムを使用
***クラスタリング [#ba5e5d65]
-K-平均法
-混合ガウス
-べき乗クラスタリング (PIC)
-潜在的ディレクレ配分法 (LDA)
-二値k平均法
-ストリーミング k-平均法
***次元削減 [#l8bd1ab0]
-特異値分解 (SVD)
-主成分分析 (PCA)
***特徴量抽出および変形 [#w9e5224a]
-TF-IDF
-Word2Vec
-StandardScaler
-平均器
-ChiSqSelector
-ElementwiseProduct
-PCA
***頻出パターンマイニング [#m39e054a]
-FP-growth
-相関ルール
-PrefixSpan
***評価マトリックス [#e7d13e75]
-分類モデルの評価
-二値分類
-多クラス分類
-多ラベル分類
-ランキング システム
-回帰モデルの評価
***PMML モデル抽出 [#c1781267]
-Predictive Model Markup Language (PMML)へのモデルのエク...
***最適化 [#v55ae40a]
-勾配降下法
-確率的勾配降下法 (SGD : Stochastic Gradient Descent)
-L-BFGS(Limited-memory Broyden–Fletcher–Goldfarb–Shanno)
*[[GraphX:http://spark.apache.org/graphx/]] [#s9540be0]
-[[GraphX - Spark 2.1.1 Documentation - Apache Spark:http...
--[[GraphX - Spark 2.0.0 ドキュメント 日本語訳 - FC2:http...
-[[Scalaを使用したApache Spark GraphX入門:https://communi...
-[[Spark GraphX で始めるグラフ解析 - SlideShare:https://w...
-[[Spark GraphXを使ったグラフ分析: サッカーチームのパフォ...
-[[Spark GraphXのページランク アルゴリズムを使用しラブラ...
*[[Apache PredictionIO:http://predictionio.incubator.apac...
-[[Apache Prediction IO 事始めと Heroku へのデプロイ:http...
-[[Scala製の機械学習サーバApache PredictionIOを使ってみよ...
-[[PredictionIOを使ってAmazonのような関連商品のレコメンド...
-Apache Software Foundationの元で開発されている、Sparkを...
-以下の機能を提供
--学習データや学習モデルを格納するためのストレージ
--機械学習を使用したエンジンを定型化するためのフレームワ...
--開発したエンジンをWebサービスとしてデプロイする機能
-機械学習はSparkのMLlibで行われる。
--学習データの投入は基本は CLI ツールから行うが、REST API...
--学習データは RDBMS か HBase 上に保存。学習データ以外に...
-機械学習されたモデルを使って予測が出来る。
--予測サービスは REST API で呼び出せる。計算済みのモデル...
*Kafka [#yc79a746]
-[[Kafka+Spark Streaming+Elasticserachによるシステム構築...
-[[ストリーム処理を支えるキューイングシステムの選び方:htt...
-メッセージキュー
*[[Apache Flink:https://flink.apache.org]] [#g8021d27]
-[[Apache Flink とは?:http://qiita.com/takanorig/items/e...
-[[Apache Flinkでリアルタイムストリーム処理を実装してみる...
-[[IoT時代におけるストリームデータ処理と急成長の Apache F...
-[[Apache Flink とは:http://x1.inkenkun.com/archives/5406]]
-[[Apache Flinkを試している:http://ogibayashi.github.io/b...
-[[分散ストリーム処理エンジンあれこれ:http://qiita.com/ta...
-Spark Streaming と同類の、分散ストリーム処理プラットフォ...
-特長
--高パフォーマンス&低レイテンシ(真のストリーム処理が可...
--耐障害性に優れる(自動でイベント処理継続)
---各処理をステートフルで扱っており、障害が発生した際には...
--ストリーム処理、バッチ処理の両方をサポートし、高レベル...
ページ名: