インストール

  • pyenv をインストール
  • Python3 をアクティブ設定
  • Tensorflow をインストール
    $ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/mac/cpu/tensorflow-1.1.0-py3-none-any.whl
    $ pip install --upgrade $TF_BINARY_URL

TensorBoard?

関連ライブラリ

数値計算

形態素解析

文章の類似度

Word2Vec

  • Word2Vecとは、2013年にGoogle研究所が複数の論文を発表して以来、世界中の自然言語研究者・開発者の間で流行したアルゴリズムである。
  • 「同じ文脈で利用される単語は、同じ意味を持つ」という仮説に基づき、「単語」の特徴をベクトルで表現する技術となっている。この仮説に基づくため、単語の特徴や意味構造を含めてベクトル化することができ、意味的に近い単語は、空間上で近くに存在するベクトルとして表現されることから、類義語の抽出に用いられている。

Gensim

n-gram

  • テキストで「隣り合ったN文字」のこと
  • n-gramを総当たりで比較すれば、文節の順番が異なっていても、出現する単語の種類や頻度を比較することができる

レーベンシュタイン距離

  • 2つの文字列がどの程度異なっているかを示すもの、編集距離(Edit Distance)とも呼ばれている
  • スペルミスの修正や類似語句の検索などに用いられる
  • バイオインフォマティクス分野やDNA配列同士の類似性を判断する際にも利用される

文書生成アルゴリズム

マルコフ連鎖

  • マルコフ連鎖とは、確率過程の一種
  • マルコフ性(Markov property)とは、次の状態が過去の状態に依存せず、現在の状態にのみによって決まる性質のこと

RNN(Recurrent Neural Network)

  • ニューラルネットワークを再帰的に扱えるようにして、時系列モデルの解析ができるようにしたもの

LSTM(Long Short Term-Memory)

  • RNNを改良したもの
  • RNNが多階層になりすぎると過去の依存関係を覚えきれないので、RNNに長期的に情報を記憶するためにブロックを採用したもの

画像分析

Average Hash

  • 画像を比較可能なハッシュ値で表す
  • ハッシュ関数 MD5 や SHA256 などを使うと、様々なデータの値を要約したハッシュ値を得ることができ、これらのハッシュ値は同一データを検出するのに役立つ
  • 画像(の内容)が同一かどうかを検出するのに、MD5やSHA256などのハッシュ関数を利用することはできない
  • Average Hash の方法
    • 画像のサイズを 8x8 に縮小
    • 色をグレースケールに変換
    • 画像の各ピクセルの平均値を計算
    • 各ピクセルの濃淡が平均より大きければ1、平均以下なら0とする

画像データセット

用語

  • Tensor(テンソル)
    • n次元の多次元配列
  • データフローグラフ
    • データの流れ(フロー)を定義したグラフ
  • プレースホルダ
    • テンプレートに値を当てはめるための仕組み

Tips


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-05-17 (水) 15:33:08 (2536d)