中国語で書かれた特許情報を上手に処理したいなら
ディープランゲージ
〒114-0003 東京都北区豊島5-2-20
地下鉄南北線「王子神谷駅」1a出口から徒歩15分
京浜東北線「王子駅」北口から10分(都営バス王55 王子駅から新豊橋駅まで)
お気軽にお問合せください
中国語で書かれた文献(例えば特許文献)は爆発的に増えています。中国語を正しく深く理解できるAIが求められています。しかし、従来の中国語自然言語処理技術においては形態素解析という最初の段階から、精度が十分でないという課題があります。その根本的な原因は英語処理に成功した基盤技術をそのまま中国語に適用することにあります。高品質の中国語自然言語処理技術を実現するために、英語処理に成功した基盤技術をそのまま中国語に適用するのでなく、中国語の文法特徴をうまく取り扱う基盤技術の確立が必要です。
当社は、中国語の深層文法特徴を熟慮したうえで設計された独自の中国語深層理解基盤技術とノウハウを持っています。それを生かし、中国語をもっと正しく、もっと深く理解できるAIを実現したい方をご支援いたします。
従来の中国語処理技術においては、英語処理に成功した形式文法枠組み(例えば、Context-free Phrase Structure Grammar)をそのまま中国語に適用する特徴があります。現状では、中国語の形態素解析、構文解析、深層格解析などの各段階の解析精度は英語より大幅に低下し、いまだに実用レベルに達していません。その根本的な原因は、中国語の文法制約は英語処理に成功した形式文法枠組みで十分に取り扱えないことにあると考えられます。
それに対して、弊社の基盤技術は中国語文法の深層特徴を熟慮したうえで設計した独自の文法枠組みの考えに基づいて確立されているものです。独自の中国語単語分割基準、品詞体系、文法規則解釈体系に従って構築された中国語文法知識資源とノウハウを活用することにより、高品質な中国語深層理解基盤技術を確立し続けています。
既存中国語形態素技術おいては精度が十分でないという課題があります。下記の例のような、既存技術では発生しがちな誤りは、独自の品詞体系と単語分割基準により有効に回避できるので、高精度の形態素解析技術を実現しました。
例:可广泛应用于汽车领域。
(自動車領域に幅広く応用できる。)
誤:可 广泛 应 用于 汽车 领域 。
(自動車 領域 に用 幅広く 応 できる 。)
正:可 广泛 应用 于 汽车 领域 。
(自動車 領域 に 幅広く 応用 できる 。)
「于(に)」は、独自の品詞体系では、特殊な品詞として設計されています。独自の単語分割基準よると、「用于(に用いられる)」は一つの単語ではありません。そのため、上記の誤りは回避されています。
既存技術では回避できない非文(文法的正しくない文)の生成を、独自の文法規則体系により回避できます。シンプルな例で説明いたします。
例:
文:他 比 你 瘦(彼があなたより細い)
非文:他 比 你 跑(彼があなたより走る)
上記の例のような非文は人間なら簡単に排除できますが、コンピュータの場合は、適切な知識を与えられないと排除できないです。独自の文法規則体系では、「瘦(ほそい)」のような比較形のある動詞と、「跑(走る)」のような比較形のない動詞に対応する規則が精密に分けられています。「他 比 你 瘦(彼があなたよりほそい)」のような文法の正しい文に対応する深層文構造規則が存在していますが、「他 比 你 跑(彼があなたより走る)」のような文法的正しくない文に対応する規則は存在しません。そのため、上記の非文の生成が回避されています。
既存の中国語文解析技術では、構文解析と深層格解析は2つの段階に分けられています。まず構文解析の段階で句構造情報を得て、次に深層格解析の段階で深層格情報を獲得します。そのため、深層格解析の精度は、構文解析の精度に影響され、さらに低下することになります。
それに対して、独自の文法枠組みによる文法規則体系は、動詞と各構文要素の深層的関係を取り扱うため、句構造情報と深層格情報との両方が生成されています。つまり独自の文法枠組みによる文法規則は、精密な深層文法制約を提供することで、従来の文法規則により回避できない非文の生成を回避し、高精度を達成すると同時に、深層格情報も生成しています。
中国語処理技術を研究・開発している機関は、普通、既存の単語分割基準、品詞体系、文法規則体系(例えば、Penn Chinese Treebank )に従って、文法知識資源(例えば、単語分割コーパス、品詞付け文コーパス、構文木コーパス)を構築し、それを学習データとして利用し、中国語処理技術を開発します。つまり、文法知識資源の設計者と開発者は別々です。そのため、構築された文法知識資源は設計者の設計に完全に合致するのが難しく、中国語処理技術の品質に悪影響を与えます。また、言語知識資源の設計を調整することで、お客様のニーズに柔軟に対応するのも難しいです。
それに対して、弊社の場合、形式文法枠組み、品詞体系、単語分割基準、深層文法規則体系の設計者は単語品詞辞書、文法規則資源の開発者でもあります。そのため、独自の中国語深層理解基盤技術は既存技術に勝る高度な一貫性を保っています。高品質の中国語処理技術を提供するうえで、お客様の様々なニーズに柔軟に対応させていただきます。
研究者時代の研究成果を生かし、だれかのお役に立つものにしたいため、会社を設立しました。「お客様のお役に立つ」ことを最優先に考えています。
事前にお客さまの抱える課題やご期待をしっかりとお聞きし、お客さまが抱える課題をどのように解けるのか、期待することをどのように実現するのかをお客さまの立場で考えさせていただき、確実にご支援いたします。
お客さまに対して、十分に時間をとり、状況の確認やご要望をお伺いいたします。また、不安・不明点がなくなるまで丁寧にご説明いたします。
お客さまにご納得いただかないまま、話を進めるようなことはございませんのでご安心ください。
研究・開発・応用のニーズに合わせて、ご所望のサービスを提供いたします。中国語で書かれた情報の処理に関して、なにかお困りのことがございましたら、下記のお問合せフォームよりお気軽にお問合せください。お問合せは24時間受け付けております。