Pages

Sunday, June 4, 2023

自動翻訳とは:深層学習で精度アップ、多言語や専門用語に対応し ... - 日経 xTECH Active

(出所:123RF)

(出所:123RF)

 自動翻訳はコンピューターを使って、自動的に文章を他の言語に訳す仕組みである。遠く離れた場所にある企業と仕事をすることが日常的になった今、言語の違いを乗り越える翻訳も急速に進化が進んでいる。コンピューターの処理能力の向上やメモリーの大規模化、ネットワークの高速化に加えて、AIや機械学習による「質」の向上により、高速かつ安価なSaaS(Software as a Service)として提供されるようになった。

 本記事では自動翻訳とは何かを説明した後、利用するメリットとデメリット、自動翻訳の基本的な機能、料金相場、選択のポイントなどを、自動翻訳技術に詳しい情報通信研究機構(NICT)の隅田 英一郎氏が分かりやすく解説する。併せて日経クロステック Activeの記事から、注目の自動翻訳サービスや代表的な事例などをまとめて紹介する。

初回公開:2022/06/05

「1. 自動翻訳とは」「2. 自動翻訳のメリットとデメリット(注意点)」「6. 自動翻訳サービスの選択・活用のポイント」は隅田 英一郎氏が執筆

1. 自動翻訳とは

 今や、コンピューターによる自動翻訳は、日本人のTOEICの平均点を大きく上回る実力を持っている1。自動翻訳というと、2016年に米Googleが自動翻訳サービスをAI(人工知能)で高精度化し2たことで市場が活性化しだしたという印象が強い。さらに最近はドイツのDeepLという事業者のサービスが高精度であると世間を賑わせている一方で、NICTの技術を応用した高精度な日本製のサービス3も出てきている。

 このように現在は高精度の自動翻訳サービスがいくつもある状況となっており、どれを使ったらよいのか迷っている企業の担当者もいるだろう。そこで本稿では、テキストを翻訳するものを対象に、自動翻訳サービスの選択に役立つ指針を紹介していく。

 コンピューターを用いた翻訳は人工知能の対象であり、80年近い研究開発の歴史を持つ。本記事では特に、深層学習によって急激に高精度化した最新の自動翻訳技術にフォーカスする。

 翻訳は深層学習と相性が良い。深層学習は特定の入力と出力の対からなるビッグデータを用意し、これを再現するようにニューラルネットを構築することである。そして翻訳は、原文を訳文(あるいはその逆)に変換することであり、もともと入力・出力対(原文・訳文対)が保存される特性があるので深層学習に向いている。

 対戦記録が残されているチェスや将棋で深層学習を適用しやすかったように、翻訳は人工知能の代表的な成功事例となっている。そして原文・訳文対の蓄積が続き、これを深層学習に再投入すればさらに翻訳を高精度化できる。その上、特定分野の原文・訳文対を深層学習に投入することで、分野に特化した非常に高い翻訳精度を実現できる点は特筆に値する。

 そして、コンピューターの処理能力向上・メモリーの大規模化、ネットワークの高速化、クラウド関連技術の進化により、自動翻訳はSaaSとして高速かつ安価に(または無料で)提供されるようになってきた。既に、1件当たりA4数十ページに及ぶ特許、頻繁に改正される海外規制、年間万単位のページを翻訳する製薬、数ページから数十ページに及ぶ科学技術論文、各種マニュアルなど多くの分野で自動翻訳は日常的に利用されている。国際ビジネスを支える重要技術といってよいだろう。

1 「AI翻訳革命」朝日新聞出版(2022年8月出版)のp.22を参照
2 実は中国のBaiduがGoogleに1年先行していたのは、知る人ぞ知るサイドストーリーである。出典はhttps://ift.tt/qjHNOtx
3 https://ift.tt/5OhJyoG

(出所:123RF)

(出所:123RF)

2. 自動翻訳のメリットとデメリット(注意点)

 自動翻訳を利用することによるメリット、およびデメリット(利用時の注意点)は以下の通りである。

自動翻訳を利用するメリット

 自動翻訳には、以下に挙げる利用メリットがある。

(1)翻訳作業時間の短縮

 自動翻訳は人間による翻訳に比べて圧倒的に高速であるため、訳文を入手するまで長時間待たずに済む。人間による翻訳は、他者に依頼する場合も自ら翻訳する場合も、キーボードをたたいて訳文を入力する時間が発生するため、すぐには完了しない。言い換えると、時短が自動翻訳の明確なメリットで、それによって残業が減り、働き方改革の推進につながる。

 英語が達者な社員が多いはずの商事会社で、自動翻訳が導入されているケースもある。これは英語を読むよりも自動翻訳で出力される日本語を読む方が、仕事の効率が上がるということの証しだろう。

 停電しておらず通信回線が利用可能であれば、コンピューターによる自動翻訳は24時間365日利用可能だ。急ぎの翻訳案件は夜間や休日に発生することも多く、これに対応可能な自動翻訳は便利である。また利用者は、帰宅前に大量の原文をコンピューターに投入し、翌日悠々と出勤して翻訳結果を取り出すといったこともできる。これも働き方改革であり、本人にとっても組織にとってもメリットは明白である。

(2)翻訳精度の向上

 世界に展開している企業の場合、自社の商品・サービスに関わる情報を母語で用意した後、急いで多言語に翻訳するのが一般的だ。ここが人手による翻訳だと、時間が相当かかる。その結果、原文の発信と多言語の発信に時差が生じ、言語によってサービスレベルが異なることになり、それが非母語の利用者の不満につながる。

 欧米系のテクノロジー企業で採用されている方法に、自動翻訳で全文を訳し、「自動翻訳なので誤訳も含まれ得る」と明記して発信する方法がある。日本の企業は「誤訳を含む発信なんて許されない」と考えがちだが、翻訳の質よりも時間の方が重要だと考えて、自動翻訳を歓迎する利用者もいる。

(3)多言語や専門用語への対応

 人間の翻訳者の育成には年単位の時間が不可欠であるのに対して、自動翻訳は対訳データを用意できれば、短期間で実現できる。提供中であるサービスも、少なくとも日英中韓の4言語、多いものだと100言語ぐらいまで対応可能である。

 また自動翻訳は、専門用語がたくさんある分野(特許、製薬、法令、金融など)でも対応できる。実際に、対訳データを用意して専門用語を含む文章を、高精度に翻訳できるサービスが提供されている。専用用語へ対応するためにカスタマイズされた自動翻訳システムは、汎用的な自動翻訳システムよりも、誤訳率が圧倒的に小さくなる。

 NICTでは、総務省と協力して高精度な自動翻訳を多分野で利用可能にするため、翻訳文書の公的集積所としての活動(「翻訳バンク4」と呼ぶプロジェクト)を展開している。金融庁の指導5の下、金融関係の複数の業界団体から大量の翻訳文書を翻訳バンクに集め、この翻訳文書を学習に適した形に変換し、精製し得た高品質の日英対訳の文(約8万文)を深層学習に用いて、金融分野向けの自動翻訳システムを開発した。

 この自動翻訳で得られた訳文100文について、第三者(翻訳者)が文ごとに翻訳品質を5段階評価し、金融専業翻訳者に匹敵する最上位品質の訳文が、全訳文の5割弱を占めることを確認した。従来の汎用自動翻訳では、最上位品質の訳文の割合が約2割だったので、大きな改善である。また、最下位のNGレベルは汎用から半減した(下図)。

汎用的な自動翻訳システムと金融分野向けの自動翻訳システムで得られた訳文100文に対して、第三者(翻訳者)が文ごとに翻訳品質を5段階評価した結果

汎用的な自動翻訳システムと金融分野向けの自動翻訳システムで得られた訳文100文に対して、第三者(翻訳者)が文ごとに翻訳品質を5段階評価した結果

(出所:NICT)

[画像のクリックで拡大表示]

4 https://ift.tt/x5bzUGy
5 https://ift.tt/E1tYhpI

(出所:123RF)

(出所:123RF)

自動翻訳システムのデメリット(注意点)

 自動翻訳には利用上の注意点が2つある。

(1)原文の情報漏洩リスク

 多くの自動翻訳サービスは、クラウドサービスとして提供されている6。こうしたサービスでは、入力はいったん外部の(クラウド上の)サーバーに送信され、そのサーバーで翻訳した結果が、利用者の端末に戻される。よって、利用規約に「入力情報はサービス改善のために機械学習などで活用する」と書いてあるサービスでは、ユーザーがこの条件をのんだ上で使うという意味になる。「活用しない」と書いてあったとしても、サーバーの所在が国外である場合は、データそのものが国境を越えるという懸念が残る。

 セキュリティの観点から、自動翻訳のクラウドサービスを含むインターネット上のサービスの利用を禁止している企業もあり、中には物理的に業務用PCをインターネットに接続させなくしているところもある。こうした企業で高精度の自動翻訳を利用するには、オンプレミスの製品を使うことになる。

 上記の背景から、オンプレミスで実装可能な高精度自動翻訳に対するニーズは大きい。実際、電機会社や自動車会社、証券会社、保険会社などの民間組織、警察庁や特許庁、総務省といった中央官庁など、情報管理に厳しい組織では、オンプレミスの自動翻訳エンジンを採用している。

 ここまでではなくても、自動翻訳のサーバーが国内に置かれていることを求める企業は多い。実際に複数のベンダーから、このニーズに応えるサービスが提供されている。

(2)訳文の正確さは保証されない

 翻訳には「100%正しい翻訳が求められる場合」と「100%でなくても許される場合」の2つのケースがある。前者は、規制当局への提出書類や災害情報のように誤訳が許容されないケースで、不用意に自動翻訳を利用すればトラブルになり得る。自動翻訳の出力をそのまま使えないため、何らかの方法で人間がチェックし、誤りを検出・修正する必要がある。

 後者はリアルタイム性、同時性、即時性が重視されるケースだ。正確性が犠牲になっても十分コミュニケーションが成立する場合が多くあり、それらは自動翻訳で用が足りる。

6 スタンドアロンの自動翻訳ソフトは少なく、また翻訳精度が落ちる

3. 自動翻訳の基本的な機能

 自動翻訳の機能は、大きく以下の3つに分けられる。

(1)原文の入力と訳文の表示を出力するUI

 自動翻訳のクラウドサービスの場合、翻訳したいテキスト(原⽂)を⼊⼒するとクラウド上にあるサーバーへ送られ、翻訳され出⼒されたテキストが表⽰される。翻訳結果に誤りがあった場合の修正や追記などをする編集も、このUIでできるのが基本である。

(2)自動翻訳エンジン

 サーバー内にある(またはサーバーと連携している)翻訳処理を行う機能を指す。クラウドサービスの場合は、自動翻訳エンジンはクラウド上にある。

(3)辞書データの取り込み機能

 自動翻訳サービスまたは製品は、専門分野を⾼精度で翻訳できるよう専門辞書を取り込む機能を備える。

(出所:123RF)

(出所:123RF)

4. 代表的な自動翻訳サービス

 国内では、多様な事業者が自動翻訳サービスを提供している。ここでは、日本企業を対象にした日本語の翻訳が可能な代表的なサービスをまとめた(日経クロステック Active調べ)。

(1)ATOM KNOWLEDGE:CMCエクスマニコム
   ATOM KNOWLEDGEのWebページ
(2)COTOHA Translator:NTTコミュニケーションズ
   COTOHA TranslatorのWebページ
(3)Cloud Translation:米Google Cloud TranslationのWebページ
(4)CRYSTALTRANSLATOR:マインドワード
   CRYSTALTRANSLATORのWebページ
(5)DeepL Pro:独DeepL DeepL ProのWebページ
(6)DOCCAI翻訳:東芝デジタルソリューションズ
   DOCCAI翻訳のWebページ
(7)FinTra、PharmaTra:凸版印刷
   FinTraのWebページ PharmaTraのWebページ
(8)Fujitsu Translation Service:富士通
   Fujitsu Translation ServiceのWebページ
(9)Mirai Translator:みらい翻訳 Mirai TranslatorのWebページ
(10)T-4OO:ロゼッタ T-4OOのWebページ
(11)T-tact AN-ZIN:十印 T-tact AN-ZINのWebページ
(12)XMAT:川村インターナショナル XMATのWebページ

5. 自動翻訳サービスの料金相場

 法人向け自動翻訳サービスの多くは、「翻訳するワード数に応じた従量制」「定額制」の2種類の料金の一方、または両方を設定している。料金は導入するID数によっても変わってくる。

 セキュリティや管理機能などに差がある、複数のプランを用意しているサービスもある。

(出所:123RF)

(出所:123RF)

6 自動翻訳サービスの選択・活用のポイント

 自動翻訳サービスを活用する際に、組織が意識すべきポイントを以下にまとめた。

(1)翻訳品質に関する方針と目標レベルを決めておく

 自動翻訳は魔法のツールではなく限界があることを、利用開始前に理解しなくてはならない。翻訳にどこまでの品質を求めるか、それは自動翻訳で達成できるか、足りない場合は何を追加する必要があるかを、組織内で合意しておく必要がある。これを怠ると、後でトラブルが起こる可能性がある。

 翻訳品質の目標レベルを決めておくことは重要だ。目標レベルとは、通じる品質であれば多少の誤訳などは気に掛けないのか、あるいは最高品質を追求するのかといったことである。

 ここで、農産品について思い起こしてみよう。農産品はこれまで、厳しい規格で検査を通過したものだけ流通させることを基本としており、例えば「いびつな形をしたキュウリ」は廃棄されていた。しかし最近は、いびつな形をしたキュウリも「ワケありキュウリ」として流通し始めた。キュウリの調理方法には形が無関係なものも多いので、味が同じで安ければ買う消費者がいる。翻訳もこれと同じことで、多少の誤訳があっても「ワケあり」と理解した上で必要とする人はいる。最高品質を望むならば、プロの翻訳者による検査と修正という、追加のコストが不可欠になる。

(2)自社が利用する言語に対応しているかを確認する

 サービスによって、多言語対応に差があることを認識しておく必要がある。対応言語を多くすること(例えば1000)を目的としているサービスがある一方で、言語数は控えめにして、他の長所を訴求するサービスもある。またサービスによっては、欧米言語中心の場合もあれば、アジア言語重視の場合もある。

 対応言語数が多いと得をしたと感じるかもしれないが、それは必ずしもメリットではない。言語数が多いと希少言語も翻訳できることになるが、その精度は英語などに比べて大きく劣ると思ってよい。サーバーをはじめとするコストを上げる要因にもなる。

 多言語対応を必要としないケースも存在する。例えば日英だけでよいという組織もあるだろう。いずれにしろ各組織のニーズにあったサービスを選ぶ必要がある。

(3)使い方や使い勝手のサービスごとの違いを確認する

 サービスによって、使い方や使い勝手が異なる。原文と訳文の対になるテキストボックスがあるWebブラウザー画面から使う方法、WordやExcelなどのアプリのプラグインを使う方法、翻訳に便利な機能を組み込んだ専用のエディタを使う方法、ファイルをやり取りする方法、APIを呼ぶ方法など、多様な使い方がある。

 検討時に、自らの仕事に適した使い方ができるか確認しておくことをお勧めする。ただし、PDF文書は処理が難しく、どのサービスでも翻訳後にレイアウトは崩れることが多い。各サービスは使い方や使い勝手に関してさまざまな工夫をこらしており、UIを含め利用者の好みもいろいろである。多くのサービスはお試し期間を設けているので、実際に使ってみて決めるのがこつだ。

(4)誤訳が減るよう原文の書き方を工夫する

 冒頭で自動翻訳はTOEICの平均点を大きく上回ると述べたが、これはプロの翻訳者の能力を下回る。自動翻訳の翻訳精度は9割前後であり、翻訳結果は10文に1文の割合で、何らかの誤りを含んでいる。自動翻訳は誤訳することを明記し、免責で済まされない場合は、誤訳をなくすための対策が必要となる。

 誤訳の主たる原因は、原文の曖昧性である。人間の翻訳者は文意が曖昧であることに気づけば、そのままでは翻訳せず原文作成者に確認するか自らの専門知識で判断する。これに対して自動翻訳の場合は、入力の曖昧性を確率的に処理するために誤訳をしやすい。

 また原文が長いと、曖昧性が爆発的に増え誤訳も増える。さらに日本語は、主語が曖昧どころか省略されることが多い一方、英語では基本的に主語なしでは文が成立しないので、主語推定の誤りは誤訳に直結する。

 曖昧性をなくすように原文を修正することを「翻訳の前処理」と呼び、翻訳の前処理に関する参考資料として脚注の3つを挙げる7。共通点も多いので気に入った1冊を読めば曖昧性をなくす前処理ができるので、利用開始前に準備することをお勧めする。

7(1)自動翻訳大全(三才ブックス)、(2)理工系のAI英作文術(化学同人)、(3)特許ライティングマニュアル(日本特許情報機構、https://tech-jpn.jp/tokkyo-writing-manual/)

7. 自動翻訳の代表的な事例

8. 注目の自動翻訳サービス

 以下では、注目の自動翻訳関連サービスを紹介する。

ロゼッタ

みらい翻訳

9. 自動翻訳関連の新着プレスリリース

隅田 英一郎
情報通信研究機構フェロー アジア太平洋機械翻訳協会会長

隅田 英一郎 京都大学大学院博士(工学)。日本IBM東京基礎研究所、国際電気通信基礎技術研究所を経て情報通信研究機構に勤務。音声翻訳のスマホアプリ「VoiceTra(ボイストラ)」、テキスト翻訳サイト「TexTra(テキストラ)」を公開。2017年から総務省と協力して自動翻訳の高精度化のために「翻訳バンク」を運営。また、音声翻訳の国プロ「グローバルコミュニケーション計画2025」を推進中。日本オープンイノベーション大賞総務大臣賞など受賞。

Adblock test (Why?)


からの記事と詳細 ( 自動翻訳とは:深層学習で精度アップ、多言語や専門用語に対応し ... - 日経 xTECH Active )
https://ift.tt/fNwxTHl

No comments:

Post a Comment