Version.0.200アップデート

Version.0.200アップデート

下記のリンクより最新版がダウンロードできます。
NEUTRINO 最新Version置き場

オンライン版のセットアップ手順はこちらの記事をご覧ください。
Linuxでのセットアップ手順はこちらの記事をご覧ください。

Version.0.200概要

肉声に近い高品質な音声波形を高速に生成する手法の一つであるNSFに対応したバージョンになります。
WORLDと比較してもワンランク音質が上で、最高品質クラスの手法(WaveNet)で生成された音声と同等の品質であると言われています。
(参考:国立情報学研究所ニュースリリース:自然な音声を高速に合成可能な新手法を開発

Windows版でNSFで合成するには【NVIDIA製のGPU(3GB以上のGPUメモリを推奨)】が必要です。
ご利用の前にNVIDIAのドライバーを最新のものへアップデートをしてください。
※参考:アップデート方法はこちら

GTX 1050ti /1060 / 970が推奨スペックを満たしつつ、中古で10,000円前後なのでオススメです。
また、PCゲーム・グラフィックス用途など普通のGPUとしても問題無く使えますのでご安心ください。

もしNVIDIA製のGPUをお持ちでない場合でも、オンライン版でNSFを誰でも動かすことができます。
ウェブブラウザ上で動作が完結するため、GPUも不要でスマートフォンからでも動作します。
この機会にぜひお試しください。
オンライン版のセットアップ手順はこちらの記事をご覧ください。

備考

  • NSF(NNベースのボコーダー全般)は48kHzの音声を直接推定するのが非常に困難なため、24kHzでの出力となっております。
  • 「VCRUNTIME140_1.dllが見つからないため…」というようなエラーが発生する場合はこちらからVisual Studioランタイムをインストールしてください。ページ下部の「その他のツールとフレームワーク」→「 Visual Studio 2019 の Microsoft Visual C++ 再頒布可能パッケージ 」→「x64を選択しダウンロード」
  • NSFを使わない場合は、Run.batのNSFの行をコメントアウト(”:”を先頭に付ける)してください。 NVIDIA製のGPUが無い場合も同様にNSFの行をコメントアウトしてください。
  • 複数のGPUが刺さっている場合は、NSF/Run.bat内の”set CURRENNT_CUDA_DEVICE=0″を変えることでGPUを選択できます。 お使いのGPUの番号に合わせて設定してください。
  • NSFではピッチシフト・フォルマントシフトによる品質劣化が大きいため現在は無効にしてあります。 NSFの使い方が浸透してきたら有効にする予定です。
  • GPUのメモリ使用量は、楽譜中のフレーズの長さに依存します。 休符またはブレス記号で囲まれた区間が1フレーズで、1秒辺り100MBほど使用します。 例えば15秒のフレーズがあると1.5GBほど使用する計算となり、GPUメモリが2GBだと動作しない可能性がありますのでご注意ください。

macOS版のNSFについて

macOS版のNSF移植は保留とさせていただきます。
Mojave以降はNVIDIAのGPUが使えないことと、macOS専用にMetal APIコードを移植・保守し続けるのが個人開発では困難なためです。
macOSでNSFを使う場合はオンライン版をご利用ください。
ローカルPCでWORLDまで動作させた後にNSFのみオンライン版で合成するとスムーズかと思います。

Version.0.200アップデート内容(2020/04/17)

  • NSFの初回起動時の高速化・GPUに合わせた最適化を行いました。
  • NSFの実行に失敗した際に無音ファイルが生成されていた問題を修正しました。
  • Windows版のNSFで不足していたVisualStudio関連のライブラリを追加しました。
  • フォルダ名にスペースが含まれている場合にNSFが動作しなかった問題を修正しました。
  • (2020/4/20追記) macOS版をVersion.0.200にアップデートいたしました。

Version.0.200βアップデート内容(2020/04/10)

  • Windows版の合成方式にNSFを追加しました。
  • 歌声ライブラリ(謡子)がNSFに対応いたしました。
  • NSFの入出力を他のモジュールと同じ形式に変更しました。
  • オンライン版をローカルで動かしたときにライブラリのパスが通っていなかった不具合を修正しました。

Version.0.200αアップデート内容(2020/03/20)

  • (2020/03/22追記) オンライン版を公開しました。
  • オンライン版の合成方式にNSFを追加しました。
  • タイミング推定ミス(音素飛ばしなど)を緩和しました。
  • version.0.103以降で発生していたブレス音のノイズを緩和しました。
  • NEUTRINOにランダム生成オプション(-r)を追加しました。
  • オンライン版の公開に伴いLinux版をオンライン版に統合しました。
  • 歌声ライブラリ(東北きりたん)がNSFに対応いたしました。
  • 謡子のモデルを再学習しました。

追伸

配布方法をGoogleDrive経由に変更しました。
試験的に運用してみて問題が無ければVectorから移行予定です。

不具合・バグをご報告いただきました方々に感謝いたします。
引き続きご支援、ご助力頂けますよう心よりお願い申し上げます。

26件の返信

  1. katubusi より:

    お世話になっております。
    NSFではピッチ、フォルマントの設定はできないのでしょうか?
    Colabでピッチの数値を変更しても、WORLDでは反映するのに対し、NSF出力は変化がありませんでした。
    お忙しいところ恐縮ですが、ご確認いただけると幸いです。

    • SHACHI より:

      ご利用いただきありがとうございます。

      NSFでピッチシフト・フォルマントシフトを行った場合、WORLDと比較して劣化が大きいです。
      NSF自体が新機能ということもあり、初期の混乱を防ぐために現状はOFFにしてあります。
      ある程度NSFの利用方法が浸透してきたら実装したいと考えております。

      どうぞよろしくお願いいたします。

      SHACHI@NEUTRINO
      HP: https://n3utrino.work/
      Twitter: https://twitter.com/SHACHI_KRTN

  2. おいしい より:

    お世話になっております。
    driveからなかなかダウンロードできないです。。(´;ω;`)

  3. でし! より:

    音声別でNEUTRINO単体でのダウンロードもできるようにしてほしいでし。

    • SHACHI より:

      ご利用いただきありがとうございます。

      以前はNEUTRINO単体でのダウンロードも可能にしておりましたが、歌声ライブラリを入れていない際に出るエラーの問い合わせが非常に多かったため同梱版のみの提供とさせていただいております。
      ご了承いただければ幸いです。

      どうぞよろしくお願いいたします。

      SHACHI@NEUTRINO
      HP: https://n3utrino.work/
      Twitter: https://twitter.com/SHACHI_KRTN

      • でし! より:

        お返事ありがとうでし!

        それは残念。。
        アップデートのたびこの容量ダウンロードするのは少し億劫になる・・・けど仕方ないでし。ご了承したでし!

  4. yosi より:

    僕は『差分ファイル配布を再開する』あるいは『配布形態を本体・モデル・合成器を別々にする』ことを強く望みます。
    なぜなら、1.1ギビバイトの圧縮ファイルをダウンロードするのは時間がかかるからです。
    お願いですから、1人でも多くそのような「回線の細い人たち(自身もそのような人のうちの1人です)」にも最新の歌声合成技術に触れられるようにしてもらいたいです。

    よろしくお願いします。

  5. Billy Bob Joe Bubson より:

    この素晴らしいプログラムを作ってくれてありがとう。 プログラムはオープンソースですか? そうでない場合、ソースコードをリリースする予定はありますか?

    繰り返しますが、どうもありがとうございます。

    このコメントは、Google Translate™の機能によって提供されます

    • knoike より:

      私も,オープンソース化されるのかどうかに興味があります.
      もし,オープンソース化されると,たとえば,

      1.
      Red Hat 系(CentOS など)の Linux 上でもネイティブ動作させられるようになる

      2.
      もし,GPU 処理をしている部分が本質的には NVIDIA の GPU である必要がなかった場合,たとえば OpenCL などを利用することで多様な GPU 環境で動作させられるようにできる

      などの可能性が拡がります.
      (2 に着手する余裕がいまの私にはありませんが,とりあえず 1 は試したいな… .)

      ご検討くださるよう,よろしくお願いいたします.

      • Billy Bob Joe Bubson より:

        私はこのトピックをよく知りません。ただし、プログラムをオープンソースにすると、他の声や言語でトレーニングすることもできると思います。

      • SHACHI より:

        knoike様

        ご利用いただきありがとうございます。

        オープンソース化の予定はありません。
        GUI作成補助も兼ねて、API / SDKとしては公開するかもしれません。

        2番に関しては、NSFのコアエンジンであるCURRENNTでは下記のソースコードを用いております。
        https://github.com/nii-yamagishilab/project-CURRENNT-public
        CUDAベースで書かれており、別の言語(OpenCLなど)に移植する場合は、ディープラーニングのフレームワークを丸ごと一つ書き換える程度の作業量が必要になるかと思います。

        ディープラーニングの分野自体が非常に移り変わりが速い分野であり、半年前の手法は陳腐化していることが多く、適切に素早く手法を切り換えていく必要があります。
        また使用される言語もCUDA一強の状態のため、提供されるオープンソースのコードもCUDAであることがほとんどです。
        NII-CURRENNTの更新も1~2週間毎に行われており、移植ソースコードを変更・保持していくのには相当なコストがかかるため、現状では保留しています。

        (ちなみにOpenCLも既にMacOSでは非推奨となっており、将来的にはCUDAと同じような形になるかと思われます。)
        (https://pc.watch.impress.co.jp/docs/news/1125772.html)

        なおNEUTRINO.exe以外の部分に関しては、そもそもオープンソースのものを使っておりますのでそちらをご覧ください。
        ・Sinsy
        http://www.sinsy.jp/
        http://sinsy.sourceforge.net/

        ・WORLD
        https://github.com/mmorise/World

        ・NII-CURRENNT
        https://github.com/nii-yamagishilab/project-CURRENNT-public

        ・NSF
        https://github.com/nii-yamagishilab/project-CURRENNT-scripts

        ・東北きりたんDB
        https://zunko.jp/kiridev/login.php

        どうぞよろしくお願いいたします。

        SHACHI@NEUTRINO
        HP: https://n3utrino.work/
        Twitter: https://twitter.com/SHACHI_KRTN
        返信

        • knoike より:

          すみません,最初にリリースされた NEUTRINO セット以降の状況をほとんど追えていないのですが,

          1.
          山岸先生のところの NSF を使っている部分以外では GPU は使っていない,という理解でよいですか?

          2.
          すみません,認識間違いでしたらお教えください.
          NVIDIA は,今後は macOS 向けのドライバや CUDA Toolkit を提供しなくなる可能性が非常に高いと私は理解しているのですが,認識が間違っていましたでしょうか?

          > 別の言語(OpenCLなど)に移植する場合は、ディープラーニングのフレームワークを丸ごと一つ書き換える程度の作業量が必要になるかと思います。

          承知していますが,フレームワークごと書き換える必要はないと理解していて,他のフレームワークとのブリッジ処理を書ければよいのではないかと,甘くゆるく考えています.
          つまり,特定のフレームワークにべったり依存したコードをやめられるようなやめたほうがよいと思っています.
          そういう実装をしないと,状況の変化に対応することが非常に大変になると思っています.
          それができるのかどうかは,どんな処理を GPU にまかせているのか把握できていませんので,なんとも判断ができません.

          なお,OpenCL は「たとえば」ということでわかりやすい枯れた例を挙げましたが,状況に応じて利用可能なものを使えればよいと考えています.
          AMD や Vulkan の人たち,あるいは,TensorFlow/Magenta の人たちがどう活動するかによるとは思います.

          機械学習モノの現状が CUDA 一強の状態なのかどうか,いまも私には判断がつかないのですが,その話とは別に,ノート PC に載っている非力な GPU や,非 NVIDIA GPU でもある程度は動くといいなぁ,と思っています.
          そこを WORLD を使うことで妥協するのはひとつの方法ではありますが,今の時代となっては,何か別の手が打てるような気がしています.

          • SHACHI より:

            knoike様

            > 1. 山岸先生のところの NSF を使っている部分以外では GPU は使っていない,という理解でよいですか?
            v0.200時点ではNSFのみGPUを利用する設定になっております。

            > 2. NVIDIA は,今後は macOS 向けのドライバや CUDA Toolkit を提供しなくなる可能性が非常に高いと私は理解しているのですが,認識が間違っていましたでしょうか?
            2019/11月リリースのCUDA10.2が最後のアップデートになります。
            個人的にはAppleとNVIDIAが和解することを望んでいます。
            https://applech2.com/archives/20191124-nvidia-last-release-to-support-macos-for-cuda.html

            フレームワークの話に関しましては、公式側でNSFがTensorflow / PyTorch辺りに移植された後に、そこからCoreML / Metal向けにモデルをコンバートする流れが順当かと思います。
            https://canplay-music.com/2019/06/10/mac-ml/
            NSF(ニューラルソースフィルタ)の研究に関してはGoogleからも助成金が出ていますので、Tensolflowに移植される可能性も高いかと思います。
            https://japan.googleblog.com/2019/07/googleaiforjapan.html

            また、オフラインで動かすことに拘らなければ、現状でもオンライン版(Google Colab)でNSFで合成することができます。
            さらにVersion.0.300で音響特徴量推定部(NEUTRINO.exe)がGPUに対応した場合、非GPUのローカル環境で動かすよりもオンライン版で動かした方が遥かに高速に処理ができるようになります。
            様子を見てまた考えていきたいと思います。

            > Red Hat 系の Linux でネイティブ動作させることについては,どうお考えですか?
            Red Hat系OSでDTMする層がほぼいないことと、私のDeep Learning環境とGoogle ColabがUbuntu環境であるため、Red Hat系での動作は考えておりません。
            また現状でも、各OS(Windows / macOS / Linux / オンライン)のリリース前のテスト・チェックにそれぞれ1~2時間程度掛かっております。
            ご了承いただければ幸いです。

            どうぞよろしくお願いいたします。

            SHACHI@NEUTRINO
            HP: https://n3utrino.work/
            Twitter: https://twitter.com/SHACHI_KRTN

          • knoike より:

            > v0.200時点ではNSFのみGPUを利用する設定になっております。

            そういうことでしたか,了解しました.

            > 2019/11月リリースのCUDA10.2が最後のアップデートになります。
            > 個人的にはAppleとNVIDIAが和解することを望んでいます。

            私と同じように状況を認識している,ということですね.了解しました.

            > また、オフラインで動かすことに拘らなければ、現状でもオンライン版(Google Colab)でNSFで合成することができます。

            そのオンライン版は,API なりスクリプトなりでローカル環境からシームレスに使えるような仕掛けをすでに作ってありますか?
            ざっとブログやそこへのコメントを読んだ限りでは,いちいちブラウザ越しに操作しなければならないように見えます.
            (Google Colab をローカル環境から API やスクリプトで不特定多数がアクセスしていいものかどうかはわかりませんが… .)

            オフラインで動かすことにこだわっているのではなくて,
            使い勝手の悪い今の状況は,あなたの望む状況なのかどうかが気になるところです.

            「Webアプリ化するのでなければ,すべてローカルで動いたほうがよい.
            (デスクトップアプリであれば,すべてローカルで動くか,ローカルで動いているかのように,シームレスであったほうがよい)」
            と考えています.

            また,背景として,
            最近の音楽制作者の多くはノートPC で作業している,という印象を私は持っています.
            そうだとすると,GPU の追加や変更は簡単ではありません.
            (eGPU を導入してください,というのも違う気がしますし.)
            そこが私の気になるところでした.

            > さらにVersion.0.300で音響特徴量推定部(NEUTRINO.exe)がGPUに対応した場合、非GPUのローカル環境で動かすよりもオンライン版で動かした方が遥かに高速に処理ができるようになります。

            「(NVIDIA の)GPU があれば速く処理が終わるよ,なくても時間がかかるだけで品質は変わらないよ.」ということですね.
            それがよいと思います.

            > 様子を見てまた考えていきたいと思います。

            了解いたしました.

          • knoike より:

            > Red Hat系OSでDTMする層がほぼいないことと

            そんなことはありません.想定しているユーザー層,あるいは,想定している使われ方が違うのだろうなぁとは思っていました.

            もし,ソースを公開しないまま多様な Linux 環境で自分のソフトウェアが使われることを望むのであれば,
            AppImage形式での提供を考えるとよいのではないかと思います.
            ただ,AppImage 越しに GPU を使えるかどうかの確認は私はできていません.たぶん,問題なく使えるだろうとは思っています.
            Flatpak でも動くかもしれません.

            > また現状でも、各OS(Windows / macOS / Linux / オンライン)のリリース前のテスト・チェックにそれぞれ1~2時間程度掛かっております。

            オープンソース開発していない場合のデメリットのひとつですね.
            ただ,ソースを公開したく気持ちはわかります.私も,自分が書いたコードの大部分は非公開にしています.

            ソースや開発状況を公開しないままで事前チェックへのコストを下げたいのでしたら,
            非公開時のテスターを増やす,
            動く保証のない日々のバイナリを Nightly build などの形で公開してしまう
            (不具合報告は受け付けるけれども,基本的にはお返事しないよ,という方針で),

            などの手法がよい場合があります.

          • knoike より:

            本題からはそれるのですが,このサイトで稼働させている WordPress のコメントのネスト数は,もう少し増やしたほうがよいのではないかと思います.

        • knoike より:

          Red Hat 系の Linux でネイティブ動作させることについては,どうお考えですか?
          別の表現でいえば,Debian 系の Linux 以外の環境でネイティブ動作させる,ということになります.
          「日本では Ubuntu が普及しているようなので,Ubuntu 環境だけを想定しています」ということであれば,それはそれでサポートの手間の面でメリットがあるので結構だとは思いますが,なんだか惜しいような気がしてしまいます.

          • knoike より:

            あ,あと,どこかのコメントにありましたが,WSL は仮想環境ではありません.
            サブシステムなので,ほとんどネイティブ環境です.
            あの方がなぜ動作させられないのかはわかりませんが… .

          • knoike より:

            すみません,WSL は,1 と 2 とで動作の仕組みがかなり変わっていて,2 のほうは仮想環境でした.1 のほうはサブシステムです.
            2 のほうは,Windows10 の一般ユーザー向けとしては,5月の大型アップデートで配布されるようです.
            つまり,今後の WSL から使う場合は,他の仮想環境と同様に,仮想環境内から GPU が見えるようにドライバを追加してあげる必要があります.

    • SHACHI より:

      Billy Bob Joe Bubson様

      ご利用いただきありがとうございます。

      オープンソース化の予定はありません。
      API / SDKとしては公開するかもしれません。

      なおNEUTRINO.exe以外の部分に関しては、そもそもオープンソースのものを使っておりますのでそちらをご覧ください。
      ・Sinsy
      http://www.sinsy.jp/
      http://sinsy.sourceforge.net/

      ・WORLD
      https://github.com/mmorise/World

      ・NII-CURRENNT
      https://github.com/nii-yamagishilab/project-CURRENNT-public

      ・NSF
      https://github.com/nii-yamagishilab/project-CURRENNT-scripts

      ・東北きりたんDB(音声データ): https://zunko.jp/kiridev/login.php
      ・東北きりたんDB(ラベルデータ)https://github.com/mmorise/kiritan_singing

      どうぞよろしくお願いいたします。

      SHACHI@NEUTRINO
      HP: https://n3utrino.work/
      Twitter: https://twitter.com/SHACHI_KRTN
      返信

  6. なな より:

    あのーファイルのダウンロードは出来ましたがどうやって起動すればいいですか?やり方教えてください。

  7. Adam より:

    Is there any plans for an English voice library? I really love Neutrino, but my Japanese is very limited.

  8. Billy Bob Joe Bubson より:

    新しいバージョンをありがとう。

    ただし、NSFには問題があります。 NSFログファイルには、「FAILED in GPU initialization: CUDA driver version is insufficient for CUDA runtime version」と書かれています。

    他の誰かがこの問題を抱えていましたか? どうやら、これはNVIDIAドライバーのバージョンとCUDAのバージョンが一致しない場合に発生しますが、私のNVIDIAドライバーのバージョン(419.67)とCUDAのバージョン(10.1)は互換性があるはずです。

    前もって感謝します。

    • Billy Bob Joe Bubson より:

      言及するのを忘れました-1050tiを使用しています。

    • SHACHI より:

      In order to compose with NSF on the Windows version, an NVIDIA GPU (GPU memory of 3GB or more is recommended) is required.
      Please update your NVIDIA drivers to the latest version before using.
      Please update to the driver that supports CUDA10.2.

コメントは受け付けていません。