廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

「まちがったモデル」で最尤推定すること

R

この文章は『In ALL Likelihood』(p.370) を参考にしました。In All Likelihood: Statistical Modelling And Inference Using Likelihood作者: Yudi Pawitan出版社/メーカー: Oxford University Press, Usa発売日: 2013/03/01メディア: ペーパーバックこの商…

倉橋由美子『スミヤキストQの冒険』が面白かった

倉橋由美子『スミヤキストQの冒険』が面白かった。変な小説なので、変な小説がすきな人にはおすすめです。スミヤキストQの冒険 (講談社文芸文庫)作者: 倉橋由美子出版社/メーカー: 講談社発売日: 1988/01/27メディア: 文庫購入: 3人 クリック: 9回この商品を…

共起関係とCTRに基づく検索キーワードのクラスタリング

去年の大晦日に公開された論文で提案されたモデルについて書きます。 A latent allocation model for the analysis of microbial composition and disease | BMC Bioinformatics | Full Textもともとは各個人が持っている腸内細菌の組み合わせによって病気に…

WBICで混合多項分布のクラスタ数を決めてみる(ギブスサンプリング)

Stan を使って WBIC を計算する例は、 WAICとWBICを事後分布から計算する - StatModeling MemorandumStan を使えばWBICの計算は簡単なのですが、場合によってはギブスサンプリングなどのアルゴリズムを自分で導出したいこともあると思います。WBIC の計算に…

AICとBICの違い:「ベイズ統計の理論と方法」第1章についての走り書き

ベイズ統計の理論と方法作者: 渡辺澄夫出版社/メーカー: コロナ社発売日: 2012/03/01メディア: 単行本購入: 1人 クリック: 4回この商品を含むブログ (8件) を見る カルバック・ライブラ情報量は分布の「近さ」を測る指標. ふたつの確率(密度)関数 , に対し…

クラロワ進捗

久しぶりに修羅の道まで行きました。 使っているデッキはこれです。

ネットスラングの流行と衰退を追う微分方程式

これは orz というネットスラングのグーグルトレンドです。 trends.embed.renderExploreWidget("TIMESERIES", {"comparisonItem":[{"keyword":"orz","geo":"JP","time":"2004-01-01 2019-01-03"}],"category":0,"property":""}, {"exploreQuery":"date=all&g…

Juliaで最尤推定:ポアソン回帰を例に

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 2012/05/19メディア: 単行本購入: 16人 クリック: 163回この商品を含むブログ (29件) を見る『データ…

CTRによる検索クエリのクラスタリング

R SEO

クラスタ l のある日 k のCTR(クリックスルーレート)を として混合二項分布でモデルベースのクラスタリングを試した。希望としては年末にかけて盛り上がっていくワードとそうでないワードがわかれてほしかったんだけど、なんかCTRの高低でわかれただけみた…

ラプラス近似による非共役モデルの変分推論

R

[1209.4360] Variational Inference in Nonconjugate Models に出ている例題をやります。変分推論は便利ですが、モデルが複雑になってくると近似事後分布が解析的に求まらない場合が多いです。上記の論文、Wang & Blei (2013) では解析的に求まる部分は解析…

Julia で SIR モデル(非定常ポアソン過程)

TensorFlowでSIRモデル(非定常ポアソン過程) - 廿TT のJulia版です。

TensorFlowでSIRモデル(非定常ポアソン過程)

TensorFlowで統計モデリング - StatModeling Memorandum に感化されて、SIR モデルと非定常ポアソン過程 - 廿TT と同じようなことをTensorFlowでもやってみました。TensorFlowには常微分方程式を解く関数もあるようです。こんな感じです。SIRのRを非定常ポア…

検索キーワードの分散表現(RとKeras版)

検索キーワードの分散表現(単語埋め込み) - 廿TT でやったのとほぼ同じことを R の keras パッケージでもやってみました。でもあんまりうまくいかなかった。2次元に落としたはずがほとんど1次元。正則化のせいなのかなあ。よくわからない。あとエクセルの…

ロジスティック回帰の変分ベイズ学習をRで

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『ベイズ推論による機械学習入門』の…

検索キーワードの分散表現(単語埋め込み)

目標 ゆくゆくは 収集したキーワードをグループ化する | 検索連動型広告を成功に導くSEM戦略 | Web担当者Forum の逆問題みたいなことをやりたい。 今回やったこと word2vec のまねをして検索クエリの中のキーワードを数字のベクトルと表現するモデルを考えた…

ニューラルネットワークの変分ベイズ学習をRで

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『ベイズ推論による機械学習入門』の…

ポアソン2状態隠れマルコフモデルの変分推論をRで

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『 ベイズ推論による機械学習入門』…

流行の変化を可視化するディリクレ多項分布モデル

R

モデル K カテゴリの商品があり、時点 t でのそれぞれの販売数量を とする。t 時点目の販売数量 はパラメータ の多項分布に従うとする。 はパラメータ のディリクレ分布に従うとする。 は精度(precision)パラメータで前の時点の流行からどれくらい変化しな…

ディリクレ多項分布のパラメータ推定をRで

R

Minka (2000) https://tminka.github.io/papers/dirichlet/minka-dirichlet.pdf を参照した。 set.seed(123456) alpha <-c(10,11,20,30,50) p <- gtools::rdirichlet(100,alpha) W <- t(apply(p,1,function(p)rmultinom(1,100,p))) est_alpha <- function(W)…

崩壊型ギブスサンプリングによるポアソン混合分布の学習をRで

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『ベイズ推論による機械学習入門』の…

RcppNumerical の optim_lbfgsで最尤推定がしたい(ポアソン回帰)

RcppNumerical パッケージには例題的にロジスティック回帰(RcppNumerical/fastLR.cpp at master · yixuan/RcppNumerical · GitHub)が実装されているので、ちょっとだけかえてポアソン回帰のコードを書いてみました。 C++ のコード: // [[Rcpp::depends(Rc…

ggplot2とpatchworkでヒートマップの周辺度数をプロット

パッチワークパッケージ(GitHub - thomasp85/patchwork: The Composer of ggplots)は便利ですね。 library(tidyverse) library(patchwork) data("author",package = "ca") author_t <- as_data_frame(author) %>% mutate(title=rownames(author)) %>% gath…

詩のリフレインを可視化するベイズモデル (rstan)

中原中也のサーカスという詩をたぶんあなたはすでにご存知だろう。 幾時代かがありまして 茶色い戦争ありました幾時代かがありまして 冬は疾風(しっぷう)吹きました幾時代かがありまして 今夜此処(ここ)での一(ひ)と殷盛(さか)り 今夜此処での一と殷…

EMアルゴリズム:ランダムな欠測があるデータから多変量正規分布のパラメータ推定

R

http://ebsa.ism.ac.jp/ebooks/sites/default/files/ebook/1881/pdf/vol3_ch9.pdf ↑アルゴリズムはこれに出ています。R のコードだけ貼ります。 library(mvtnorm) EM_mGauss <- function(y,muini,sigmaini) { for(j in 1:1000){ z <- y m <-is.na(y) N<-nrow…

R: 確率的勾配降下法で混合ポアソン分布のパラメータの最尤推定

abrahamcow.hatenablog.comコードだけ貼ります。log_softmax関数の微分が難しかった。 SGDmixPois<-function(y, L, theta, lern_rate, num_iters, batch_size){ ll<-function(y,theta){ phi <- c(0,theta[1:(L-1)]) lam <- theta[-c(1:(L-1))] lp <- numeric…

R: 確率的勾配降下法でポアソン分布のパラメータの最尤推定

これはたぶん確率的勾配降下法のもっとも簡単な例題です。モチベーション:でっかいデータで最尤推定したいときがあって、ふつうに準ニュートン法とか使うと遅すぎていやなので、なんか機械学習の人たちがやってる確率的勾配降下法とかいうやつ使えばいいん…

二項分布を用いたABテストのサンプルサイズ計算

ABテストがらみの話は完全に私怨からはじめたものですが、単純なようでなかなか奥が深いんです。検定いらずの AB テスト:φ 係数を用いたサンプルサイズ設計 - 廿TT で考えた方法はちょっと気に入ってるけど、たいして話題にならず、議論にも発展しなかった…

クラロワ進捗

修羅の道Ⅰに行きました。 使っているデッキは相変わらずこれです。

変分法を使わずに変分ベイズの導出をする

変分下限 2つのパラメータ と を持つ確率モデル を考える。いま事後分布 をうまく近似する を求めたい。を対数周辺尤度と呼ぶ。対数周辺尤度を以下のように変形する。イエンセンの不等式により、対数周辺尤度に対して以下が成り立つ。右辺を変分下限と呼ぶ。…

マジョレ(Marjolet):2人用トリックテイキングゲーム

べジークやピノークルに近いフランスのゲームだそうです。ブラックバイスクル出版社/メーカー: マツイゲーミングマシン(Matsui Gaming Machine)メディア: スポーツ用品購入: 4人 クリック: 33回この商品を含むブログ (6件) を見る カード 2から6を除く32枚の…