NEUTRINOへようこそ

NEUTRINOへようこそ

NEUTRINOをダウンロードいただきありがとうございます。
この記事ではインストール方法や使い方などを説明します。

About

NEUTRINOはニューラルネットワークを用いた歌声シンセサイザーです。
本ソフトウェアはフリーウェアです。
楽譜から発声タイミング・音の高さ・声質・声のかすれ具合などをニューラルネットワークで推定します。上記の推定されたパラメータを元にvocoderで音声を合成します。
本ソフトの名称はまだ聞いたことのないような楽曲・ジャンルを開拓してほしいという思いを込めて名付けました。あなたの創作・発見の一助になれれば幸いです。

2021年7月現在、1名の歌声ライブラリ(東北きりたん)が同梱されています。
その他の歌声ライブラリに関しては、 別途歌声ライブラリフォルダよりダウンロード・解凍・コピーを行ってください。
制作した音声ファイルについては、各歌声ライブラリの利用規約の範囲でご利用ください。詳細はmodelフォルダ以下の各歌声ライブラリ付属のLICENSEファイルをご覧ください。

より詳細な内容、テクニック、エディタの情報など、こちらに分かりやすくまとまっております。もしよろしければご覧ください。
AI歌声合成ソフト「NEUTRINO」の使い方 2020秋
AIシンガー調声アイデア NEUTRINOで使えるテクニック
NEUTRINO用Editorが来た! マジ最強なので使い方解説する

インストール

任意のフォルダにダウンロードしたファイルを解凍してください。
Run.bat(またはRun.sh)をダブルクリックで実行後、サンプルの音声ファイル(sample1_syn.wav)がoutputフォルダ以下に出力されていれば正常に動作しています。
アンインストールの際はフォルダ毎削除してください。

オンライン版のセットアップ手順はこちらの記事をご覧ください。
Linuxでのセットアップ手順はこちらの記事をご覧ください。

下記のリンクより過去バージョンを含む全てのバージョンをダウンロードできます。
NEUTRINO 各Version置き場

各モジュールについて

musicXML_to_label

Input  : score/musicxml/*.musicxml
Output : label/full/*.lab
       : label/mono/*.lab

MusicXMLをニューラルネットワークの入力に用いるlabel形式に変換します。
楽譜作成にはMuseScoreを推奨しています。 [ファイル]->[エクスポート]でファイルの種類を非圧縮MusicXMLファイルにすることでMusicXML形式のファイルを出力できます。
他のソフトでは出力が”*.xml”になるので、Run.batのSUFFIXをxmlに変更してください。

NEUTRINO

# predict timing 
Input  : label/full/*.lab
       : model/KIRITAN/*.bin
Output : label/timing/*.lab

# predict acoustic feature 
Input  : label/full/*.lab
       : label/timing/*.lab
       : model/KIRITAN/*.bin
Output : output/*.f0, *.mgc, *.bap

labelから発声タイミングと音の高さ・声質・声のかすれ具合を推定します。
ModelDirで音源を変更することができます。
NumThreadsで使用するプロセッサ数を変更できます。

# 変更前
set ModelDir=KIRITAN
set NumThreads=3
↓
# 変更後
set ModelDir=YOKO
set NumThreads=4 

WORLD

Input  : output/*.f0, *.mgc, *.bap
Output : output/*.wav

音の高さ・声質・声のかすれ具合から音声波形をボコーダー(WORLD)で合成します。
NumThreadsで使用するプロセッサ数を変更できます。
PitchShiftで音高を変えられます。
FormantShiftで声質を変えられます。上げると子供っぽく、下げると大人っぽくなります。(0.85-1.15辺りがお勧めです。)

# 変更前
set PitchShift=1.0
set FormantShift=1.0
set NumThreads=3
↓
# 変更後
set PitchShift=0.944
set FormantShift=1.05
set NumThreads=4  

Pitch Shift早見表

Key-6-5-4-3-2-1±0+1+2+3+4+5+6
Pitch shift0.7070.7490.7940.8410.8910.9441.0001.0591.1221.1891.2601.3351.414

NSF_IO(Windows / オンライン版のみ)

Input  : label/full/*.lab
	 label/timing/*.lab
	 output/*.f0, *.mgc, *.bap
	 model/KIRITAN/NSF.jsn
Output : output/*.wav

音の高さ・声質・声のかすれ具合から音声波形をニューラルネット(NSF)で合成します。
NSFはニューラルネットワークを用いて肉声に近い高品質な音声波形を高速に生成する手法の一つです。低音の詰まった感じ(over-smoothing)が無く、クリアでアタック感がある音声です。適正音域であれば、音質的な外れがほぼ無く品質も安定して高いです。

一方でWORLDはピッチシフト・フォルマントシフトなどの加工に強く、適正音域から大きく外れた音声にも強いです。 どちらも一長一短ありますので、適宜使い分けていただければ幸いです。

使い方(Windows版)

  1. 楽譜(MusicXML)の作成
    MuseScoreなどの楽譜作成ソフトでxxx.musicxmlを作成
    score/musicxml以下に配置
  2. 設定の編集
    Run.batをメモ帳で開く
    BASENAMEを作成したmusicxmlの名前に変更
  3. コマンドプロンプトを現在のフォルダで起動
    エクスプローラのアドレスバーに「cmd」と入力してEnter
    ※参考リンク
    『コマンドプロンプトを素早く起動する方法』(『現在開いているフォルダから直接開く方法』の項目をご参照ください)
  4. Run.batを実行
    コマンドプロンプト上で”Run.bat”と入力
    output以下に音声ファイルが出力されます。
    logを出力する場合は、”Run.bat > log.txt”などと入力してください。

推奨動作環境

動作環境Windows 10
MacOS (Apple M1対応済)
オンライン
Linux(Ubuntu)
CPUIntel Core i5
AMD RYZEN 5
Apple M1
GPU(オプション)NVIDIA製のGPU(3GB以上のGPUメモリを推奨)
メモリ8GB 以上
ディスク空き容量10GB 以上の空き容量

備考

Windows版の一部機能(GPUによる高速レンダリング、NSFによる合成)をご利用いただくには【NVIDIA製のGPU(3GB以上のGPUメモリを推奨)】が必要です。ご利用の前にNVIDIAのドライバーを最新のものへアップデートをしてください。
※参考:アップデート方法はこちら
PCゲーム・グラフィックス用途など普通のGPUとしても問題無くご利用いただけますのでご安心ください。

オンライン版ではNEUTRINOの全機能をご利用いただけます。ウェブブラウザ上で動作が完結するため、 NVIDIA製のGPUも不要でスマートフォンからでも動作します。
オンライン版のセットアップ手順はこちらの記事をご覧ください。

ロゴ・アイコンについて

ロゴは設定資料のページよりダウンロードできます。
基本的にはブラックまたはホワイトの複製でご利用ください。カラーの背景や画像、イラストにロゴをのせることは可能です。複雑な背景にロゴを入れる場合、ロゴ全体がはっきりと読めるようにしてください。

お願い

感想や要望、バグなどございましたらメールまたはTwitterからお願いいたします。

ご支援

もしよろしければこちらからご支援よろしくお願いいたします。
いただいた支援金は、活動費・機器購入費・収録関連費に充てさせていただきます。
PIXIV FANBOX : https://shachi-neutrino.fanbox.cc/

謝辞

本ソフトウェアの制作にあたり、素晴らしいソフトウェア・データベースをご提供いただきました方々に感謝します。そして、テストやデザインなどご協力ご助言いただきました皆様に心から感謝します。本当にありがとうございました。