この記事は、RevComm Advent Calender 1日目の記事です。
今日から RevComm もアドベントカレンダーをはじめます。12/1~12/25の間、技術や研究、開発組織について毎日記事を投稿していきます。お楽しみに。
今年のアドベントカレンダーの初日の記事では、RevComm のリサーチディレクターの橋本がスタートアップ企業における研究開発(Research & Development)の意義について書いていきます。
RevComm が提供するサービス
まずは、RevComm はどんな企業なのか、どんなサービスを提供しているのか紹介します。私たちは、インサイドセールスやオンライン会議でのコミュニケーションを支援するSaaSサービス「MiiTel」と「MiiTel for Zoom」を提供しています。
MiiTel
MiiTel はクラウド型の IP 電話サービスで、デスクトップアプリ、スマートフォンアプリ、ブラウザから電話をかけることができます。
特徴的なのは、
- 通話内容が音声データとしてクラウド上に保存される
- 音声認識による文字起こし
- コミュニケーションスキルの可視化
などができることです。電話で話した内容を本人もしくはチーム内のメンバーが簡単に情報共有できるようにすること、電話営業を解析して可視化、定量化することで情報共有の効率化、新人教育やセルフコーチングに活用することができます。
MiiTel for Zoom
MiiTel for Zoom はオンライン会議サービスZoomで行った会議に対して解析を行うサービスです。会議の録画、議事録の作成、会議の中でのトピックの抽出などができます。多くの技術は、MiiTel から転用しています。
なぜ研究開発をする必要があるのか?
RevComm のように事業を主体としたスタートアップ企業においては、短期的な製品やサービスの成長が最重要課題であり、中長期的にしか成果が得られない研究開発(特に基礎研究)に力を入れるべきではないと考えている方も多いと思います。しかし、私はディープラーニングを主体とした機械学習およびAI技術をコアとした事業であるならば、積極的に基礎的な研究開発に力を注ぐ方が良いと考えています。その理由は3つあります。
先進技術のキャッチアップ
1つ目の理由は、新技術による破壊的イノベーションを素早く発明するために、先進的な技術の動向に常日頃からアンテナを張っている必要があるためです。新技術や新アルゴリズムは論文やテクニカルレポートとして公開されることが多いです。そのような論文からの情報収集を片手間な活動とするのではなく、きちんと日常的な業務として自然と情報が集まることが重要です。そのためには、研究者やエンジニアが基礎的な研究調査に時間を使うことは意味があります。ただし、ある特定の技術分野やタスクにのみ注力してしまわないように注意することも大事で、研究分野を横断するような幅広い視野を持って情報を得るように努力することを推奨します。なぜならば、どの分野で新技術が突如発表されるかわからないからです。
もう一つの重要なポイントは、アルゴリズムの詳細を理解し、そのアルゴリズムの本質を見極めることです。論文で発表されたばかりの技術やアルゴリズムは、まだ多くの問題を抱えています。真の革新的技術かどうかを判断するためには、基礎的な研究に対する理解と見極めるスキルを持った人を育てる必要があります。
新技術の素早いビジネス化
2つ目の理由は、新技術を素早くビジネス化して既存事業を拡大するためです。今年の大きな破壊的イノベーションの一つとして「画像生成AI」があります。年初の OpenAI の「DALL·E 2」に始まり、Googleの「Imagen」、Midjourneyの「Midjourney」、Stability AIの「Stable Diffusion」など様々なサービスやツールが発表されて注目を浴びました。特に Stable Diffusion が8月に公開された後、数週間で世界中でいろいろなサービスやビジネスが生まれており、まさに変革の年だったと思います。これらの画像生成は、2006年に発表された「Denoising Diffusion Probabilistic Models」がコア技術ではあるのですが、サービス化に寄与したアルゴリズムのほとんどは1年以内に発表されています。もちろん、OpenAIが9月に公開した多言語音声認識器「Whisper」にも注目しています。
20年ぐらい前であれば、研究結果が実用化されるのは、発表後10年20年後という感覚でした。しかし、2017年の「Transformer」、2018年「BERT」、2020年「GPT-3」を振り返ってみると、新技術が発表後1年以内にサービス化されるということが理解できると思います。特に、スタートアップ企業は新技術をどんどん取り込んで、より魅力的な製品やサービスをユーザに届けることが重要です。こういったスピード感を持ってビジネスを推進するためには、基礎研究も重要な状況にあると思います。
人材ネットワークの拡充
最後の理由は、人材獲得のためのネットワークの拡充のためです。スタートアップ創業期でも成長期でも、とにかく優秀な人が必要です。先の理由のとおり基礎研究はスタートアップにとっても重要なので、基礎研究ができる優秀な人材を常に採用していく必要があります。
それでは、研究ができる優秀な人材とどこで出会えるかというと、研究が活発な大学の研究室や学術会議(特に国際会議)で出会うことができます。大学教員や大学生・大学院生の視野は意外と狭く、いかにビジネスやスタートアップ界隈で有名になっている企業でも知られていないことが多いです。そんな人たちに興味を持ってもらう、一緒に仕事をしてもらうためには、彼らが注目する学会で活躍するしかありません。そのためには、研究してその成果を学会で発表するということは効果的です。そうすることで、日本中、世界中の研究者の目に止まり、ネットワークを拡大していくことができます。
RevComm が取り組む研究分野
RevComm は、人と人とのコミュニケーションを効率化するAI技術を開発するにあたって、以下のような分野の研究を進めています。
音声信号処理
- 音声認識
- 音声感情認識
- 話者分離・話者認識
- 保留音・留守番電話判定
- 音声合成
- 声質変換
自然言語処理
- 対話要約
- トピック抽出
- 固有表現抽出・個人情報マスキング
マルチモーダル
- 音声からの顔画像生成
- 自動応対エージェント
2022年の研究実績
RevComm では、自社での研究開発に加えて、筑波大学、京都大学、九州工業大学との共同研究を行っています。2022年の研究実績としては、国内外の学術会議に7本、国際学術ジャーナルに1本の論文を発表することができました。
- 情報処理学会 第84回全国大会 2022 春
- 会話音声から句読点付きテキストの End-to-End 認識
- 野崎樹文(京都大)、石塚賢吉、橋本泰一(RevComm)、河原達也(京都大)
- 音響学会 2022年春季研究発表会
- Neutral/Emotional Speech Classification using Autoencoder and Output of Intermediate Layer in Emotion Recognizer
- Santoso Jennifer、Yamada Takeshi(Univ. of Tsukuba)、Ishizuka Kenkichi、Hashimoto Taiichi(RevComm)、Makino Shoji(Waseda Univ./Univ. of Tsukuba)
- NELE-GANの学習に用いる音声データ量および多様性の影響についての調査
- 加藤 集平、橋本 泰一 (RevComm)
- ICASSP 2022
- Selective Multi-Task Learning For Speech Emotion Recognition Using Corpora Of Different Styles
- Heran Zhang, Masato Mimura, Tatsuya Kawahara(Kyoto Univ.), Kenkichi Ishizuka(Revcomm)
- INTERSPEECH 2022
- End-to-end Speech-to-Punctuated-Text Recognition
- Jumon Nozaki, Tatsuya Kawahara(Kyoto Univ.), Kenkichi Ishizuka, Taiichi Hashimoto(Revcomm)
- Performance Improvement of Speech Emotion Recognition by Neutral Speech Detection Using Autoencoder and Intermediate Representation
- Jennifer Santoso, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm), Shoji Makino(Waseda Univ./Univ. of Tsukuba)
- APSIPA ASC 2022
- Speech Emotion Recognition Based on the Reconstruction of Acoustic and Text Features in Latent Space
- Jennifer Santoso, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm), Shoji Makino(Waseda Univ.//Univ. of Tsukuba)
- IEEE Access
- Speech Emotion Recognition Based on Self-Attention Weight Correction for Acoustic and Text Features
- Jennifer Santoso, Takeshi Yamada(Tsukuba Univ.), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm), Shoji Makino(Waseda Univ./Tsukuba Univ.)
さいごに
RevComm では、音声解析、自然言語処理、画像処理の研究者や機械学習エンジニアを大募集しています。新しい技術を使ってユーザのコミュニケーションに革命を起こしませんか?
Research Engineer 採用ページ:https://hrmos.co/pages/revcomm/jobs
PRTIMES STORY「AIがコミュニケーションの質を可視化する。レブコムに聞く「音声DX」の未来とは?」:https://prtimes.jp/story/detail/wrVWQOieZZb