インストール †
TensorBoard? †
関連ライブラリ †
数値計算 †
形態素解析 †
文章の類似度 †
Word2Vec †
- Word2Vecとは、2013年にGoogle研究所が複数の論文を発表して以来、世界中の自然言語研究者・開発者の間で流行したアルゴリズムである。
- 「同じ文脈で利用される単語は、同じ意味を持つ」という仮説に基づき、「単語」の特徴をベクトルで表現する技術となっている。この仮説に基づくため、単語の特徴や意味構造を含めてベクトル化することができ、意味的に近い単語は、空間上で近くに存在するベクトルとして表現されることから、類義語の抽出に用いられている。
Gensim †
n-gram †
- テキストで「隣り合ったN文字」のこと
- n-gramを総当たりで比較すれば、文節の順番が異なっていても、出現する単語の種類や頻度を比較することができる
レーベンシュタイン距離 †
- 2つの文字列がどの程度異なっているかを示すもの、編集距離(Edit Distance)とも呼ばれている
- スペルミスの修正や類似語句の検索などに用いられる
- バイオインフォマティクス分野やDNA配列同士の類似性を判断する際にも利用される
文書生成アルゴリズム †
マルコフ連鎖 †
- マルコフ連鎖とは、確率過程の一種
- マルコフ性(Markov property)とは、次の状態が過去の状態に依存せず、現在の状態にのみによって決まる性質のこと
RNN(Recurrent Neural Network) †
- ニューラルネットワークを再帰的に扱えるようにして、時系列モデルの解析ができるようにしたもの
LSTM(Long Short Term-Memory) †
- RNNを改良したもの
- RNNが多階層になりすぎると過去の依存関係を覚えきれないので、RNNに長期的に情報を記憶するためにブロックを採用したもの
画像分析 †
Average Hash †
- 画像を比較可能なハッシュ値で表す
- ハッシュ関数 MD5 や SHA256 などを使うと、様々なデータの値を要約したハッシュ値を得ることができ、これらのハッシュ値は同一データを検出するのに役立つ
- 画像(の内容)が同一かどうかを検出するのに、MD5やSHA256などのハッシュ関数を利用することはできない
- Average Hash の方法
- 画像のサイズを 8x8 に縮小
- 色をグレースケールに変換
- 画像の各ピクセルの平均値を計算
- 各ピクセルの濃淡が平均より大きければ1、平均以下なら0とする
画像データセット †
用語 †
- Tensor(テンソル)
- データフローグラフ
- プレースホルダ
Tips †
- TensorFlow の "AttributeError: 'module' object has no attribute 'xxxx'" エラーでつまづいてしまう人のための移行ガイド
- tf.audio_summary -> `tf.summary.audio
- tf.contrib.deprecated.histogram_summary -> tf.summary.histogram
- tf.contrib.deprecated.scalar_summary -> `tf.summary.scalar
- tf.histogram_summary -> tf.summary.histogram
- tf.image_summary -> tf.summary.image
- tf.merge_all_summaries -> tf.summary.merge_all
- tf.merge_summary -> tf.summary.merge
- tf.scalar_summary -> tf.summary.scalar
- tf.train.SummaryWriter? -> tf.summary.FileWriter?
|