廿TT

譬如水怙牛過窓櫺 頭角四蹄都過了 因甚麼尾巴過不得

崩壊型ギブスサンプリングによるトピックモデル(Dirichlet-Multinomial)のパラメータ推定

[math/0604410] Discrete Component Analysis を元に実装しています。論文では Dirichlet-Multinomial Model と呼ばれていますがやってることはLDAと変わりません。 Rao-Balckwellised Gibbs Sampling と呼ばれていますがやってることは崩壊型ギブスサンプリ…

Rcpp を使った最適化ができるパッケージ roptim の簡単な例題

roptim (GitHub - ypan1988/roptim: General Purpose Optimization in R using C++) の使い方をメモ。インストールはCRANからいけます。 install.packages("roptim") 線形回帰をやります。二乗誤差を最小化。reg.cpp というファイルを作る。 // [[Rcpp::plug…

0-1データのNMF(非負値行列因子分解)

R

モデル パラメータ はトピック×項目の成功確率パラメータ、パラメータ はサンプルごとのトピックの構成割合。潜在変数 を が示すトピックのインデックスを表すインジケータ変数とすると、 変分推論 未知パラメータ と をまとめて と置くと、 対数尤度関数は…

Hawkes 過程を Web サイトへの訪問時刻に当てはめてみる

点過程の時系列解析 (統計学One Point)作者: 近江崇宏,野村俊一出版社/メーカー: 共立出版発売日: 2019/06/08メディア: 単行本この商品を含むブログを見る『点過程の時系列解析』の例題です。『点過程の時系列解析』はこれまでなかった本です。統計的推定と…

『ガウス過程と機械学習』図3.20 (b) を R で再現する (p.91)

ガウスカーネルのハイパーパラメータを最適化して2標準偏差の予測区間をプロットするところ。コードだけ貼ります。解説はしませんので、アマゾンアフィリエイト経由で本を買ってください。ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)作者: …

ポアソン・ガンマモデルによる渋滞のシミュレーションと予測

モチベーション https://www.jcca.or.jp/kaishi/268/268_toku1.pdf に渋滞の伝播を表した図が乗っています。 https://www.jcca.or.jp/kaishi/268/268_toku1.pdf よりLWRモデルを線形にしたやつ dlm による LWR モデルのパラメータ推定(渋滞の予測) - 廿TT …

変分ベイズを使って変化点検知をしてみる(ポアソン過程版)

記法 イベントの発生時刻を として、 とする。ぜんぶで 回のイベントが観測されたとする。また最初のイベントの生起をポアソン過程がはじまった時刻として とする。 モデル ポアソン過程ではイベントが生起してから次のイベントまでの待ち時間は指数分布に従…

Dirichlet Process Mixtures の変分推論(混合二項分布)

R

Blei & Jordan (2004) http://www.cs.columbia.edu/~blei/papers/BleiJordan2004.pdf をもとに実装してます。Rです。あってるか自信ない。混合数3で乱数を作って、二項分布のパラメータを推定してます。最大で20のクラスタがあるように設定していますが、全…

周辺尤度を重点サンプリングで計算するときの提案分布に変分事後分布を使う

R

といいんじゃないかなーと思った。 (計算統計学の方法 p.199)ここでは分布 g のことを「提案分布」と呼ぶことにしました。以下、R のコードです。混合二項分布のパラメータを平均場近似による変分ベイズ法で推定してます。事前分布はベータ分布とディリク…

ガンマ分布の近似的な最尤推定量を用いた PELT アルゴリズムで変化点の検出

Closed-Form Estimators for the Gamma Distribution Derived From Likelihood Equationsという論文があります。 https://minerva.it.manchester.ac.uk/~saralees/gammapaper.pdfガンマ分布のパラメータの新しい推定量を提案しています。その推定量は閉じた…

ggbrick: histogram like dot plot based on ggplot2

Hello everyone. I introduce an R package ggbrick. github.comMy English is poor. If you don't understand my writing, please use comment field (コメントを書く).ggbrick provides the function geom_brick which is a fun alternative to geom_violi…

ggplot2でヒストグラムを箱ひげ図風に並べてプロットするパッケージggbrickを書いた

English version: abrahamcow.hatenablog.comgithub.comggtetrisって名前にしようかと思ったんだけど、もうある(GitHub - EmilHvitfeldt/ggtetris: Create Tetris Chart Visualizations in R)みたいなので、ggbrickにしました。brickはレンガっていう意味…

[ggplot2]ヒストグラムを箱ひげ図風に並べるプロット(3)

追記:パッケージ化したのでこちらを参照してください→ggplot2でヒストグラムを箱ひげ図風に並べてプロットするパッケージggbrickを書いた - 廿TT 進捗です。 [ggplot2]ヒストグラムを箱ひげ図風に並べるプロット - 廿TT [ggplot2]ヒストグラムを箱ひげ…

[ggplot2]ヒストグラムを箱ひげ図風に並べるプロット(2)

追記:パッケージ化したのでこちらを参照してください→ggplot2でヒストグラムを箱ひげ図風に並べてプロットするパッケージggbrickを書いた - 廿TT [ggplot2]ヒストグラムを箱ひげ図風に並べるプロット - 廿TT をちょっと修正しました。こんな感じです。 so…

[ggplot2]ヒストグラムを箱ひげ図風に並べるプロット

追記:パッケージ化したのでこちらを参照してください→ggplot2でヒストグラムを箱ひげ図風に並べてプロットするパッケージggbrickを書いた - 廿TT geom_dotplot(ggplot2/geom-dotplot.r at master · tidyverse/ggplot2 · GitHub)をちょっといじりました。…

変分ベイズによるトピックモデル(Dirichlet-multinomial Model)のパラメータ推定の高速化

R

変分ベイズによるトピックモデル(GaP; Gamma-Poisson Model)のパラメータ推定の高速化 - 廿TT とまったく同じ議論により、 [math/0604410] Discrete Component Analysis の Dirichlet-multinomial モデルの変分推論もより簡単にすることができる。Dirichle…

変分ベイズによるトピックモデル(GaP; Gamma-Poisson Model)のパラメータ推定の高速化

R

行列の分解がトピックモデルの一種として解釈できることは以下に書いた: 行列の知識ゼロからはじめてトピックモデル(GaP)の結果だけ理解する - 廿TTここでは [math/0604410] Discrete Component Analysis の Gamma-Poisson モデル(GaP)の変分推論がちょ…

変分ベイズによる近似事後分布は相当おおざっぱかもしれない

R

以下のポアソン回帰モデルを考えます。 () はダミー変数で 0 か 1 の値を取るとします。平均場近似による の近似事後分布はガンマ分布です。 です。導出の詳細は省略しますが、気が向いたら追記するかもしれません。ギブスサンプリングのための条件付き分布…

Campanella の PEASTA をいまさら聞いた

Campanella の PEASTA をいまさら聞いた。いい。すげーラップしにくそうなトラックなのに載せ方が自然だし。で、すごくいいんだけど、だれかをはげまそうとか、現代社会の闇をあぶり出すとか、そういうのがないただただかっこいいだけのラップなのでその良さ…

正規分布で事後分布を近似する変分推論のアルゴリズム

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る『ベイズ推論による機械学習入門』で…

ベイズ推測とベイズの定理の関係

(追記)以下の話は事前分布が「真の」事前分布と一致しているときにしか成り立たないですね。これを書いたときの私は寝ぼけていたようです。すみません。この記事は見なかったことにしてください。ベイズ推測とベイズの定理の関係がよくわからなくなってき…

カルバック・ライブラ情報量の直感的な意味

状態 がそれぞれ の確率で生起する分布と、状態 がそれぞれ の確率で生起する分布を考えます。この2つの分布間のカルバック・ライブラ情報量は、と定義されます。この量は「母集団分布が のとき経験分布がほぼ となる確率の対数のサンプルサイズ分の 1 の符…

R と Stan で Factorization Machines

Factorization Machines の解説はこの記事がわかりやすかった:一歩Matrix Factorization、二歩Factorization Machines、三歩Field-aware Factorization Machines…『分解、三段突き!!』 - F@N Ad-Tech BlogFactorization Machines は傾向線に以下の式を仮…

ニューラルネット風ポアソン回帰でクリック数の多そうな検索クエリを見つける

ニューラルネット風ポアソン回帰でしつこく遊んでいる。 ニューラルネット風ポアソン回帰 - 廿TT ニューラルネット風ポアソン回帰でセッション数の推定 - 廿TT 検索クエリのスペースで区切られたひとかたまりの文字列をキーワードとよぶことにする。検索クエ…

殺人事件の最近の傾向(平成19年から28年)

「殺人事件が年々増えているというのはメディアが作った嘘で実際は減少している」みたいな言説を最近よく聞く気がします。ぼくはテレビ見ないし新聞も読まないので(見たほうがいいのはわかってるけど)メディアがどういう報道をしてるのかは知らない。そこ…

ニューラルネット風ポアソン回帰でセッション数の推定

ニューラルネット風ポアソン回帰(ニューラルネット風ポアソン回帰 - 廿TT)でもうちょっと遊んでみる。前回は活性化関数をハイパボリックタンジェントにしたけどロジスティック関数でもいいみたいだ。モデルはこう。 シミュレーション 前回と同じシミュレー…

ニューラルネット風ポアソン回帰

ニューラルネットはこんな感じの図で説明されることが多い。この図は2次元の入力(2列の共変量)にウェイト(2行4列の行列)をかけてなんらかの関数のなかに入れ、またウェイト(4行のベクトル)をかけて1列にして、なんらかの関数の中に入れたものを出力と…

GaPモデルによるブラウザと流入経路の分析

行列の知識ゼロからはじめてトピックモデル(GaP)の結果だけ理解する - 廿TT の続きです。GaPモデルはカウントデータの行列であればなんにでも使えます。例えばこんな形の行列が与えられていたとします。ブラウザごとの当ブログへの流入経路をセッション数…

行列の知識ゼロからはじめてトピックモデル(GaP)の結果だけ理解する

トピックモデルと総称されるモデルの中には様々なものがありますが、ここでは [math/0604410] Discrete Component Analysis の Gamma-Poisson モデル(GaP)を紹介します。トピックモデルはカウントデータ(なにかの数を数えたデータ)の行列が与えられたと…

ggplot2で検索クエリのワードクラウド

ただパッケージ動かしてみたってだけなんですけど。はい。ぼくは原則的にはワードクラウドを使う必要ない(棒グラフのほうが優れている)と思っているんですけど、最近軟弱になってきてる。 library(searchConsoleR) library(ggwordcloud) scr_auth() sc_web…