声帯の数値シミュレーションによる音声生成
初音ミク嬢を筆頭として音声サンプルの編集による音声合成は随分栄華を誇っていますが、力学モデルのシミュレーションによる音声合成はどうも人気が無い様ですね。私が世情に疎いだけかも知れませんけれど。
実用程度*1ならそうした経験的帰納的な手法も使えるでしょうが、完璧を求めるならば、整然とした理論モデルによる演繹的アプローチが必要不可欠だと私は思っています。そしてそれは声以外でも。
モデル
で、何をしたかというと、石坂とFlanaganによる声帯の二質量モデル*2を実装してみました。簡単に言うと、声帯を発条で振動する二つの壁の組み合わせとしてモデル化したものです。
もっと発展した研究の論文*3を参考にしたので、元の論文よりはLsを無視してたり声道をもっと細かくしたりしています。それと声道のパラメタの式が納得いかなかったので修正したところも。
あと電気的等価回路については、これ(pdf)を見るとちょっと分かるかもですね。
声道断面積関数については色々ネットでデータを探して、MRIによる計測データ*4があったのでこれを使いました。
実装
んで微分方程式をプログラムに解かせる訳です。最初は連立一階常微分方程式を表すラムダ式とパラメタによって解を求めていくクラスを作ったんですが、声道の各要素に対応するラムダ式を簡単に書けず、Boost.Preprocessor などという黒魔法にも手を出してみましたがどうもきもちよくないので結局 GSL のを使いました。そしたら全ての変数を纏めて扱う ℝⁿ→ℝⁿ 函数みたいな設計になってて、なんかもうあっはいって感じですね。
兎に角そうして実装したのがこのコード(Gist)です。パラメタまで色々ハードコードしてるのは気にしないで下さい。C++ よく分かんないので適当に const つけまくったりしてますが意味あるんでしょうかね。なんか速くなったりしませんか?
論文に"The time derivative of the mouth volume velocity (i.e., through the radiation load) is good approximation to the radiated sound pressure."(p.1248)とあるので、dydt の最後の要素の値である dUO/dt が最終的な音声波形出力(放射音圧)と看做せます。
途中に書いてありますが、y の中身は { H1: 質量1の変位, V1: 質量1の速度, H2: 質量2の変位, V2: 質量2の変位, Ug: 声門内で平均した体積速度, U1, ..., Un: 声道の各要素での体積速度, P1, ..., Pn: 声道の各要素での圧力, Uo: 口での体積速度 } となっています。U1,V1,U2,V2,...にした方がいい気もしますが面倒な割に御利益が無い気もしますね。
本当はパラメタとか最初に全部出力してますが省略。
さて実装で何が困ったって、普通に計算させると発散するんですよね。変位が小さくなると体積速度が上がる、体積速度が上がると変位速度が上がる、という感じの循環が起きてるってことだと思うんですが。
でどうしたかって、まぁ現実に照らし合わせれば数μmの隙間を物凄い勢いで風が通る訳がないので、変位に下限値(コード中の Hmin)を設定してやりました。何ともびみょーですがまず動かなくては仕様がありません。
論文に全然書いてないからもしかしたら私の実装した式が間違ってるかも知れないんですが……。
出力
g++ ならば最低限 -std=gnu++0x -lgsl -lgslcblas -lm あたりのコンパイラオプションつければ大丈夫だと思います。あとは最適化とか。
声道に/a/を選んで(上のコードは/o/ですが)、引数(初期値)を 0.018 0 0.018 0 0 にして実行すると以下の波形を得ます。上から二つの声門面積、声門内の平均体積速度、放射音圧です。
面積が負の方に行き過ぎだったり(質量が剛体として"衝突"するモデルではないので負になるの自体はいいのですが)体積速度がギザギザし過ぎだったりする気もしますが大体は再現できていますね。
それで波形が出来たのはいいのですが、テキストファイルだから .wav か何かにしないと聴けませんので、適当な変換プログラム(Gist)を書きました。本当に適当なので多少サンプリングレートが狂いますがまぁ聴いても分からないでしょう。最大値くらいは自動で計算すべきかも。
斯くして漸く出来たのがこれ(TwitSound)。結構「あ」っぽいと思いますがどうでしょう? 「あいうえお」全部繋げてみるとこんな感じ(TwitSound)になって「い」「え」とかはもっと不自然だったりするので、この辺りは声道面積の値次第なのかどうなのかという感じですね。スペクトルとかを観察すると「不自然さ」が定量できるのでしょうか。
跋
取り敢えずこれで音声を生成する為のフレームワーク的なものは出来た訳ですので、これをどう自然な声に近づけるかというところが次の問題になります。
筋肉の緊張度を入力パラメータとして声道断面積を制御する事で波形を自然な声に制限したり発声を学習したり逆に音声認識の為の符号化で使えないか……など色々あるのですが、なかなかどれも大変そう。まぁまず声がどんなものかを知らねばなりませんかね。
それから計算速度が遅いのも困りものです。どうにか1秒を1秒以下で計算して欲しいところですが、これより時間刻みを大きくしても発散したりしてどうしたものか。
それとここまで頑張ったところでアレですが、「本質を簡潔に」モデル化するという観点からすると声道をバラバラにしてシミュレートしているのはちょっと泥臭過ぎる嫌いもあります。そうした考えを貫くならば、声道を音響フィルタと看做す「音響フィルタ理論」などを使った方が良いのかも知れません。複雑なモデルほど実装も操作も難しいので。
*1:「程度」なんて言うと色々な人に殺されそうですね
*2:Ishizaka, K.; Flanagan, J. L. "Synthesis of Voiced Sounds From a Two-Mass Model of the Vocal Cords". Bell System Tech. J. 1972, Vol. 51, No. 6, p. 1233-1268. [pdf]
*3:古賀博之; 中川匡弘. "カオス音声生成モデル". 電子情報通信学会技術研究報告. NLP, 非線形問題. 1998, Vol. 98, No. 343, p. 25-32. [CiNii]
*4:Story, Brad H.; Titze, Ingo R. "Vocal tract area functions from magnetic resonance imaging". J. Acoust. Soc. Am. 1996, Vol. 100, No. 1, p. 537-554. [ResearchGate]
Cross compiling a program with PortAudio for Windows by MinGW on Linux
最近は VirtualBox 上の ubuntu で開発することで Windows の呪縛から解き放たれていたんですが(まあ Windows がホストOSではありますけど)、どうもマイク入力が VirtualBox ではサポートされていない様子。USB マイクなら大丈夫とか聞くんですが。
開発環境は他のプログラムとも合わせて Linux にしておきたいので、プログラムを Windows 向けにクロスコンパイルしようと思い立ちました。
環境や使用した(された)バージョンは以下です:
- Microsoft Windows 8 [Version 6.2.9200]
- VirtualBox 4.2.12
- ubuntu 12.04 LTS
- Microsoft Visual Studio Professional 2012 [Version 11.0.50727.1]
- PortAudio V19 (2011-11-21)
- MingGW 4.2.1
PortAudio のコンパイル
公式のチュートリアル(http://portaudio.com/docs/v19-doxydocs/compile_windows.html)に従えば大体大丈夫でしょう。
preprocessor definitions の設定は以下のようにしました:
PA_USE_ASIO=1 PA_USE_DS=1 PA_USE_WMME=1 PA_USE_WASAP=1 PA_USE_WDMKS=1 PA_USE_SKELETON=1 PA_WDMKS_NO_KSGUID_LIB
最後のは「エラー 38 error LNK1104: ファイル 'ksguid.lib' を開くことができません。」なるエラーを回避する為です(http://music.columbia.edu/pipermail/portaudio/2011-August/012848.html)。
これで運が良ければ Win32/Release や、構成マネージャを弄れば x64/Release にライブラリファイルが生成されているでしょう。
共感能力に欠く人間の弁明
〈この物語は事実を基にしたフィクションです。〉
的な注意書きを見かける事がある。『月光の夏』だとか『電車男』だとか。
というのは恐らく、ノンフィクションと銘打ちながら脚色があったりすると「騙された!」だのと騒ぐ人が居るからなのだろうけれど、では「フィクションに対する感動」と「ノンフィクションに対する感動」は果たして別物なのだろうか、と私は思う。
「物語に於ける死」とは「現実に於ける死」よりも軽いのだろうか? 両者は異質でありその境は侵されざるべきものなのであろうか? 私にとってその答は全き否である。
仮令物語の中であろうと人が傷付き悲しめばその分心は暗く沈む。時には本を読んで一週間くらい鬱々としたり。
寧ろ逆に、「現実」の情報の方こそ無感動に受け取ってしまう。地球の裏側での大災害。へぇそうか。知らない土地の知らない人々が苦しむ姿、それにどれ程の実感がある? 国内だろうと変わりはしない。報道の映像はまるで映画の一場面の様だ。それは「本当にあった事」なのか?
私にとって「知らない土地」なんていうのは物語の舞台と何ら変わりはない。この目で見、この手で触れる事だけが存在証明となる。だがそれは、作家の精神活動と何ら違わないのではないだろうか。彼等は彼等の中の世界を見、触れて物語と成すのだ。決して創造主としてではなく、一人の語り部として。そして物語が共有された時、その世界は「実在」せずして何だと謂うのか。
私にとっての「現実」とは、つまりその程度のものなのだ。この手が届く小さな世界。あなたはそこにいますか?
杞人多重世界を憂うや否や
偶には自分の妄言でも話しましょう。
極微の世界を扱う物理学として今日量子力学が確立されている訳ですが、量子力学ではその根幹に於いて当代あらゆる物理学者を悩ませる不可思議な言明を含んでいるのであります。
即ち、電子等々の粒子が微小世界で織り成す非古典的な振る舞いを波として見事に記述したのが先駆者シュレーディンガーの功績だったのですが、実験によれはこの「波動」というのは人間が観測したその瞬間まるで粒子に転じたかの様に「収束」してしまう挙動を示すのです。
古の人間原理を掘り起こしてしまったかと思わんばかりの奇妙な話ですが、これ以上の巧い理論も出てこないので仕方ありません……と思いきやエヴェレットにより「多世界解釈」と呼ばれる考え方が提出されます。
これは詰まるところ「世界は全事象の確率1を分け合っている」という様な話で、例えばある粒子が半分ずつの確率で崩壊した状態と崩壊していない状態の重ね合わせとなっていれば、それを観測した人も半分ずつに分かれて「崩壊したのを観測した人」と「崩壊していないのを観測した人」に分かれると謂います。何だか重ね合わせ状態が「伝染」する様にも思われます。
何れが真やら知れぬ話ですが、兎角この解釈に従えば天地開闢の初め以来今いる世界というのは途方もない数分岐した末だという事になります。否この私は、というべきなのでしょうか。まあどちらであれ現在進行形で単調減少中の低確率人生を送っていると言えましょうが、であればしてこの確率というのがその内0になってしまわないかという事を考えたりするのです。
妙な事をと思われるかもしれませんが、それほど無根拠という訳でもありません。
例えば、ゼノンの逆理という有名な話の現代物理学的な教訓は「時空は無限に分割し得ない」という事ですが、ならば時間にも長さにも最小単位がある訳でプランク時間やプランク長さというのが正しくそれです。別にこれらは時空自体が離散的と主張するのではありませんが、しかし物理学からしてもよく分からなくなる閾値が存在するという事です。
人間はやはり恒久不滅の世界を願うものでありましょう。物理学の歴史を数十年縮めたと謳われる彼のアインシュタインですら膨張し収縮する、始まり終わる宇宙を忌避し、後に自ら「人生最大の過ち」と語るところの宇宙項を己が名を冠する方程式へ書き込んでしまうのであります。
そう、長々と書いたのではありますがこんなよく分からない話をせずとも我々の愛し憎むべき宇宙は「熱的死」やら「ビッグリップ」やらに脅かされている訳で、先行き不透明な科学世紀は未だ未だ続く趨勢と見えます。想うは易く得るは難き永遠。
嗚呼、知恵の実が生命の樹を生む日はいつならん!
様相論理の可能世界意味論のイメージ
調べた内容の私的な解釈を書いた感じなので用心されたい。
命題について、述語論理が「どんな対象について成り立つか」を扱う様に、様相論理は「どの程度成り立つか」を扱う。様相論理は世界(解釈とその上で成り立つ論理式の集まり)自体を記述し、命題に対する評価を考える。
論理式αに対して
- □α ≡ ¬◇¬α
- ◇α ≡ ¬□¬α
を定義し、□(box)と◇(diamond)を様相演算子と呼ぶ。
□αは「αは必然的である」、◇αは「αは可能である」という概念を形式化したものと捉えられる。実際 ¬□¬α ⇔ ◇α は「αでない事は必然ではない」=「必ずαでない訳ではない」=「αは可能である」と考える事ができる。
必然的を「全ての世界で成り立つ」、可能を「成り立つ世界がある」と捉えれば世界に対する量化とも言える。しかし、□α や ◇α という論理式自体も一つの世界に立つ存在なので、「全ての世界で成り立つ」という様に俯瞰的に世界達へ言及する事はできないのである。
そこで、「全ての世界」を「自分の世界から見える(到達可能な)世界全て」と修正する。到達可能性の範囲によって色々な公理系が考えられる。
(飽く迄公理系というのは意味論とは独立に、構文論上で定義できるが、概念を把握するには「到達可能な世界がどう規定されるか」という意味論的なところを同時に考えた方が分かり易いと思い以下の様に構成した。こうした(到達)可能世界意味論は様相論理の意味論の一つでしかないという事は十分に強調されなくてはならない。)
K (Kripkeによる体系)
命題論理に
- 必然化規則「αが定理である時、□αも定理である」
- 分配公理 □(φ→ψ)→(□φ→□ψ)
という規則・公理を加えた体系。
定理とは「妥当な論理式」=「全ての解釈で真な論理式」であり、αが定理かどうかは論理体系にのみ依存するので、必然化規則は「全ての世界」で論理体系は同一である事の帰結である。
到達可能世界は全ての世界の部分集合であるから、到達可能性が以下の公理でどう拡張されようともこれは成り立つだろう。
必然化規則は決して α→□α ではない。この論理式が表すのは「この世界でαが真ならば全到達可能世界でも真」という乱暴な一般化である。
分配公理は「□(φ→ψ)∧□φ ならば □ψ」という世界全体についての modus ponens と考えられ、到達可能世界の範囲がそれぞれの論理式で同一である事を表す。
T (Gödelによる)
Kに次の公理を加える。
- □α→α
これは到達可能な世界に自分自身を含める。
到達可能の関係を⇝で表せば、これは W⇝W (反射律)が常に成り立つ事を言う。
{ W₁, W₂, W₃ }という3つの世界があるとすれば、
という到達可能性が最低限存在するという事である。
この様な世界の集合、その間の到達可能性、そして各世界で成り立つ命題を合わせたものをKripke構造と呼ぶ。
B (Brouwerによる)
Tに次の公理を加える。
- α→□◇α
これは全到達可能世界から自分が到達可能である事を表す。
W₁⇝W₂ ならば W₂⇝W₁ (対称律)を言う。
(*)
という到達可能性があれば、実は
となっているという事である。
S4 (Lewisによる)
Tに次の公理を加える。
- □α→□□α
これは「到達可能な世界から到達可能な世界」が到達可能である事を示す。
W₁⇝W₂ かつ W₂⇝W₃ ならば W₁⇝W₃ (推移律)を言う。
(*)の図の場合に
となっているという事である。
S5 (Lewisによる)
S4に次の公理を加える。
- ◇α→□◇α
これは「自分の到達可能な世界」が「自分の到達可能世界からの到達可能な世界」と同じである事を示す。
W₁⇝W₂ かつ W₁⇝W₃ ならば W₂⇝W₃ を言う。
S4の図について実際は
となっているという事である。
跋
平尾始氏及び上村芳郎氏の頁を参考にした。
また図はCarl Burch氏のAutomaton Simulatorによる出力を加工し用いた。
電王戦のコンピュータ将棋のスペック及び「人間の敗北」だと?
第2回将棋 電王戦というのがありまして、プロ棋士とコンピュータ将棋がガチバトルした訳です。それでコンピュータ側は3勝1敗1分の大殊勲だったと。
人間側完敗などと悲観的? に受け取る向きもある様ですが*1、私としては「よくもまぁコンピュータのゴリ押しでここまで戦えたなぁ」という感じです。もっと丸い表現で言えば「人間はここまでコンピュータに対抗できるのか」とでも言いましょうか。
コンピュータ将棋どころか将棋にも詳しくないのでアレですが、Wikipedia大先生によるとコンピュータ将棋の基本アルゴリズムは「評価関数の学習」と「局面の探索」に集約されるみたいです。
評価関数はその名の如く局面の有利さを評価する手段ですが、じゃあ「学習」って何だというと、要するに人間の思考をブラックボックス化してプログラムがその振舞いを模倣する様にパラメータを調節するんですね。それはもう厖大な棋譜を自動で処理して。
「探索」ってのは手当たり次第で次にあり得る局面を並び立てて、評価関数の値が高い、有利っぽい手を探す事です。
となると結局「中身は分からないが人間っぽい振る舞いをするプログラム」を作ってる訳で、そりゃ将棋には勝てるかも知れないけど、自然科学としては全き「敗北宣言」ではないかと私は思うのです。「どうしてその手を打つのか」は結局分からないのですから。
何とか人間に対抗し得るプログラムが現れ始めた事は勿論大きな一歩でしょうが、そういう訳で私は「コンピュータが人間に勝利した」というのに違和感を覚えてしまいます。
もっと人間の思考を追究し、明解なアルゴリズムによって本当に「考える」コンピュータが現れれば、電王戦に使われた様な化物級のマシンでなくとも人間が敗北を喫す日が来るであろう――というのが私の淡い期待です。
それには現在の論理ガチガチなコンピュータ・アーキテクチャでは望み薄という感じもしますが。今や細密化し過ぎたCPUはトンネル効果により回路間で漏電が起こって困ってるそうですが、寧ろそんなノイズバリバリの回路を有効活用したりとかどうかな(適当)。
兎に角その「化物級」スペックなんだよ、という主張をする為にデータを集めてたというかデータの前振りのつもりで何となく書いてたんですが完全にそっちが主題です本当にありがとうございました。以下スペック情報の引用。3GHzのCPUとか天から降ってこないかな。
*1:こうゆう所でさりげなく大嘘を吐く人とかもいるので、普通に「へーそうなんだ」と思った人は注意した方がいいですよ。
二重階乗の一般化
その昔、Eulerは階乗の一般化として積分を見出し、後にGaußがと書き直した訳ですが、では二重階乗なんかはどうなるのという話。
因みに現代ではというややこしい定義のガンマ函数が罷り通っていますが、ここでは使いません。その方が綺麗なので。
さて取り敢えずの場合を考えてみる。
なので、nが偶数の場合(甲)が成り立つ。
この右辺は奇数の場合にも使えないだろうか? という訳でとしてみる。
ここでとなるのはガンマ函数界では有名な話なので、nが奇数の場合(乙)が成り立つ。
さて甲乙2式を比べると、奇数の場合のみ因子が掛かっているので、を満たす解析函数fが欲しい。
実軸上で実数値函数とすれば、三角函数が正にそれである。とすればでこの因子が記述できる。
以上より
となり、右辺は負の偶数を除く実数全体で定義される。
Maximaでチェック&プロット。
(%i1) f(n):=(2^n*(2/%pi)^(sin(%pi*n/2))^2)^(1/2)*gamma(n/2+1); (%i2) makelist(f(n), n, 10); (%o2) [1,2,3,8,15,48,105,384,945,3840] (%i3) makelist(n!!, n, 10); (%o3) [1,2,3,8,15,48,105,384,945,3840] (%i4) plot2d( f(x), [x, -7, 7], [y, -100, 100] ); (%i5) plot2d( log(f(x)), [x, 0, 20] );
普通に描いたのがこれ。
sinの影響でうねうねしてますね。あと発散点を巧く処理できてなくて途中で切れてます。
対数はこれ。
そしたら三重階乗とかも考えたいところですが、同じ様にを使うと
となるので、これを自然に書くのは無理があると思いますねぇ。