歌ってみた動画の仕組み　AIでミュージックビデオの生成

歌ってみた動画を作る

　歌ってみた動画はお金をかけている人は、アニメーションを依頼やミキシングや伴奏もいらしているのが見つかる。youtubeの収益化するうえで再生数を稼ぐのと権利処理もあるのだろうが、いかにも金がかかりそうだな。

自分で演奏して、ミキシングして、映像も作って、動画編集をすれば安くできるのだろう。自分の人件費を計算に入れていないだけだが。得意な部分と不得意な部分があるので、全部を自分で作ると一番技能が低いところで粗が目立つ。なので、オフボーカル音源で伴奏、生成AIでカットイラストしてお手軽に作ってどこを改善すべきかを考える。

使用したカラオケ音源 www.youtube.com

ChatGPTを使う

ChatGPTにタイトル名と「MVのイラストカットを作って」をすると1日に5枚ほど生成してくれる、それ以上は有料。画像生成に特化したAIであればもっと美麗なイラストを生成してくれるのだろう。あまりお手軽な感じはしないので簡単なだけ。sunoやdomoなど生成しているのも見つかる。ローカル生成では必要なスペックが足りないので無理そうなのもある。なら自分で絵をかけってところだが、一月かけて一つ作るのは登録者あまりいないのにどうなんだろうか。

伴奏をスピーカーで流して、歌いながらマイクで録音という形にすればミキシングの工程が省けると考えてやってみた。

スピーカーの性能に応じた音になる
環境音がそのまま入る
ノイズを除去しにくい

www.youtube.com

やってみて感じた問題点

声と楽器の音の音量が歌っていると気づきにくい。イントロとメロディーとサビで音量が変わる場合に同じように歌っていると声が楽器の音にかき消される。

モニタリング機能付きのマイクであれば、マイクについているイヤホンプラグにイヤホンを刺すとマイクの音が直接イヤホンで聞ける。

ミキシングのやり方を見ているとパートごとに分けて録音して合わせて確認しながら編集するのが多かったので、時間かかるし手間が多いな。通して歌って音量調整してミキシングぐらいが楽そうなんだけど。

著作権者申し立てがあった、正当じゃないところからもあったのでどう処理されるのだろうかと疑問に思った。歌ってみた動画のライセンスの仕組みが少し見れたのが興味深かった。 note.com

youtubeで高音質でアップロードするには

高音質でアップロードについて気になったので調べてみた。youtubeでは48kHzと24bitを推奨していたので、音声はflacで24bit 48kHzのエンコードを選んだ。もともとの録音は24bit96kHzでした。マイクは192Hzまで対応しているが、ファイルサイズが大きくなるのでやめている。16bitで録音するとノイズゲートやノーマライゼーションをすると音が悪くなる気がする。今までは16bitAACを使っていた。どうせアップロードしたら圧縮音源になるのだから高音質アップロードはどこまで意味があるのだろうか。

support.google.com