廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

R

変分ベイズによる近似事後分布は相当おおざっぱかもしれない

R

以下のポアソン回帰モデルを考えます。 () はダミー変数で 0 か 1 の値を取るとします。平均場近似による の近似事後分布はガンマ分布です。 です。導出の詳細は省略しますが、気が向いたら追記するかもしれません。ギブスサンプリングのための条件付き分布…

正規分布で事後分布を近似する変分推論のアルゴリズム

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『ベイズ推論による機械学習入門』で…

R と Stan で Factorization Machines

Factorization Machines の解説はこの記事がわかりやすかった:一歩Matrix Factorization、二歩Factorization Machines、三歩Field-aware Factorization Machines…『分解、三段突き!!』 - F@N Ad-Tech BlogFactorization Machines は傾向線に以下の式を仮…

ニューラルネット風ポアソン回帰でクリック数の多そうな検索クエリを見つける

ニューラルネット風ポアソン回帰でしつこく遊んでいる。 ニューラルネット風ポアソン回帰 - 廿TT ニューラルネット風ポアソン回帰でセッション数の推定 - 廿TT 検索クエリのスペースで区切られたひとかたまりの文字列をキーワードとよぶことにする。検索クエ…

ニューラルネット風ポアソン回帰でセッション数の推定

ニューラルネット風ポアソン回帰(ニューラルネット風ポアソン回帰 - 廿TT)でもうちょっと遊んでみる。前回は活性化関数をハイパボリックタンジェントにしたけどロジスティック関数でもいいみたいだ。モデルはこう。 シミュレーション 前回と同じシミュレー…

ニューラルネット風ポアソン回帰

ニューラルネットはこんな感じの図で説明されることが多い。この図は2次元の入力(2列の共変量)にウェイト(2行4列の行列)をかけてなんらかの関数のなかに入れ、またウェイト(4行のベクトル)をかけて1列にして、なんらかの関数の中に入れたものを出力と…

GaPモデルによるブラウザと流入経路の分析

行列の知識ゼロからはじめてトピックモデル(GaP)の結果だけ理解する - 廿TT の続きです。GaPモデルはカウントデータの行列であればなんにでも使えます。例えばこんな形の行列が与えられていたとします。ブラウザごとの当ブログへの流入経路をセッション数…

ggplot2で検索クエリのワードクラウド

ただパッケージ動かしてみたってだけなんですけど。はい。ぼくは原則的にはワードクラウドを使う必要ない(棒グラフのほうが優れている)と思っているんですけど、最近軟弱になってきてる。 library(searchConsoleR) library(ggwordcloud) scr_auth() sc_web…

ggplot2 で内訳を左から右に詳細化していく棒グラフ (2)

以前にこんなのを書いたんだが、 ggplot2 で内訳を左から右に詳細化していく棒グラフ - 廿TT 新しいgeomを作るまでもないことに気がついた。 library(tidyverse) make_drilldown <- function(data,dimensions,metrics){ len <- length(dimensions) out <- ve…

t分布の隠れマルコフモデル

R

Rで隠れマルコフモデルをやるにはHMMpaというパッケージがあるけど、t分布は実装されていないようです。t分布、裾が重いので外れ値に対して割と剛健です。これが原系列です。色分けしてるのが未観測の状態です。正規分布で推定した場合はこう。分散の大きい…

EMアルゴリズムによる混合t分布のパラメータ推定

R

論文です: https://people.smp.uq.edu.au/GeoffMcLachlan/pm_sc00.pdf R のコードです: dst <- function(x,mu,lambda,nu,log=FALSE){ delta <- lambda*(x-mu)^2 logdet <- log(lambda)/2 out <- lgamma((nu+1)/2)+logdet-(log(nu*pi)/2+lgamma(nu/2)+((nu+…

EMアルゴリズムによるt分布のパラメータ推定

R

正規分布にしては極端な値が出やすいときに使う。正規分布の当てはまりが悪い論文です。http://www.inference.org.uk/cs482/publications/scheffler2008derivation.pdfR のコードです。 set.seed(123) eta <- rgamma(10000,4/2,4/2) y <- rnorm(10000,1,1/sq…

混合正規分布の変分ベイズ学習をRで

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『ベイズ推論による機械学習入門』の…

「まちがったモデル」で最尤推定すること

この文章は『In ALL Likelihood』(p.370) を参考にしました。In All Likelihood: Statistical Modelling And Inference Using Likelihood作者: Yudi Pawitan出版社/メーカー: Oxford University Press, Usa発売日: 2013/03/01メディア: ペーパーバックこの商…

共起関係とCTRに基づく検索キーワードのクラスタリング

去年の大晦日に公開された論文で提案されたモデルについて書きます。 A latent allocation model for the analysis of microbial composition and disease | BMC Bioinformatics | Full Textもともとは各個人が持っている腸内細菌の組み合わせによって病気に…

WBICで混合多項分布のクラスタ数を決めてみる(ギブスサンプリング)

Stan を使って WBIC を計算する例は、 WAICとWBICを事後分布から計算する - StatModeling MemorandumStan を使えばWBICの計算は簡単なのですが、場合によってはギブスサンプリングなどのアルゴリズムを自分で導出したいこともあると思います。WBIC の計算に…

ネットスラングの流行と衰退を追う微分方程式

これは orz というネットスラングのグーグルトレンドです。 trends.embed.renderExploreWidget("TIMESERIES", {"comparisonItem":[{"keyword":"orz","geo":"JP","time":"2004-01-01 2019-01-03"}],"category":0,"property":""}, {"exploreQuery":"date=all&g…

CTRによる検索クエリのクラスタリング

R SEO

クラスタ l のある日 k のCTR(クリックスルーレート)を として混合二項分布でモデルベースのクラスタリングを試した。希望としては年末にかけて盛り上がっていくワードとそうでないワードがわかれてほしかったんだけど、なんかCTRの高低でわかれただけみた…

ラプラス近似による非共役モデルの変分推論

R

[1209.4360] Variational Inference in Nonconjugate Models に出ている例題をやります。変分推論は便利ですが、モデルが複雑になってくると近似事後分布が解析的に求まらない場合が多いです。上記の論文、Wang & Blei (2013) では解析的に求まる部分は解析…

検索キーワードの分散表現(RとKeras版)

検索キーワードの分散表現(単語埋め込み) - 廿TT でやったのとほぼ同じことを R の keras パッケージでもやってみました。でもあんまりうまくいかなかった。2次元に落としたはずがほとんど1次元。正則化のせいなのかなあ。よくわからない。あとエクセルの…

ロジスティック回帰の変分ベイズ学習をRで

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『ベイズ推論による機械学習入門』の…

検索キーワードの分散表現(単語埋め込み)

目標 ゆくゆくは 収集したキーワードをグループ化する | 検索連動型広告を成功に導くSEM戦略 | Web担当者Forum の逆問題みたいなことをやりたい。 今回やったこと word2vec のまねをして検索クエリの中のキーワードを数字のベクトルと表現するモデルを考えた…

ニューラルネットワークの変分ベイズ学習をRで

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『ベイズ推論による機械学習入門』の…

ポアソン2状態隠れマルコフモデルの変分推論をRで

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『 ベイズ推論による機械学習入門』…

流行の変化を可視化するディリクレ多項分布モデル

R

モデル K カテゴリの商品があり、時点 t でのそれぞれの販売数量を とする。t 時点目の販売数量 はパラメータ の多項分布に従うとする。 はパラメータ のディリクレ分布に従うとする。 は精度(precision)パラメータで前の時点の流行からどれくらい変化しな…

ディリクレ多項分布のパラメータ推定をRで

R

Minka (2000) https://tminka.github.io/papers/dirichlet/minka-dirichlet.pdf を参照した。 set.seed(123456) alpha <-c(10,11,20,30,50) p <- gtools::rdirichlet(100,alpha) W <- t(apply(p,1,function(p)rmultinom(1,100,p))) est_alpha <- function(W)…

崩壊型ギブスサンプリングによるポアソン混合分布の学習をRで

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『ベイズ推論による機械学習入門』の…

RcppNumerical の optim_lbfgsで最尤推定がしたい(ポアソン回帰)

RcppNumerical パッケージには例題的にロジスティック回帰(RcppNumerical/fastLR.cpp at master · yixuan/RcppNumerical · GitHub)が実装されているので、ちょっとだけかえてポアソン回帰のコードを書いてみました。 C++ のコード: // [[Rcpp::depends(Rc…

ggplot2とpatchworkでヒートマップの周辺度数をプロット

パッチワークパッケージ(GitHub - thomasp85/patchwork: The Composer of ggplots)は便利ですね。 library(tidyverse) library(patchwork) data("author",package = "ca") author_t <- as_data_frame(author) %>% mutate(title=rownames(author)) %>% gath…

詩のリフレインを可視化するベイズモデル (rstan)

中原中也のサーカスという詩をたぶんあなたはすでにご存知だろう。 幾時代かがありまして 茶色い戦争ありました幾時代かがありまして 冬は疾風(しっぷう)吹きました幾時代かがありまして 今夜此処(ここ)での一(ひ)と殷盛(さか)り 今夜此処での一と殷…