メインイメージ

ライズの形態素解析

栗林卓也氏の目指すインターネットの新しい形

ライズの形態素解析

株式会社ライズデータ処理の専門家集団であり、特に栗林卓也氏の得意分野であるリスティングやSEO対策を支えているのは形態素解析技術です。

形態素解析とは

画像解析が人間の画像認識の学習だとすると、形態素解析はコンピュータに文字認識を学習させます。
画像認識と同様に文字認識もコンピュータにとっては難しいことでした。コンピュータの言語であるプログラミング言語は一切の曖昧性がなく、どのコンピュータにとっても「A」は「A」ですが、人々が使う自然言語は話し手·書き手が「A」のつもりでも状況や受け手によって「B」にも「C」にもなり得るからです。

特に日本語は複雑な文法構造を持っていますが、形態素解析を行うことでその文章の意味を取得できるようになります。例えば「私は公園で犬の散歩をしています」という文章は「私(名詞)は(助詞)公園(名詞)で(助詞)犬(名詞)の(助詞)散歩(名詞)を(助詞)し(動詞)て(助詞)い(助動詞)ます(助動詞)」という形態素(意味を持つ最小単位)に分解されます。

品詞分解の詳細については形態素解析ツールによって異なりますが、その中でもライズの形態素解析の精度は抜群です。

活用事例

形態素解析の活用事例としては、

·日本語の変換機能

平仮名のみから名詞や動詞を割り出して文章を区切り、文法的におかしい変換は省きながら処理しています。ただ単語ごとに区切るアルファベット圏と異なり、日本語は単語が続けて書かれるため形態素に分けることは困難で、かつ語順にあまり囚われないという特性から複数の解釈が可能ということがより変換を難しくしています。

·検索エンジン

検索エンジンでは、入力した文でそのまま検索されるのではありません。例えば「東京にあるおすすめのイタリアン」なら形態素解析された助詞「に」「の」動詞「ある」が省かれ、表示されるのは「東京 おすすめ イタリアン」の検索結果です。形態素解析することで余分な品詞を省き、データ処理が減って検索速度·精度ともに向上します。

·SNSのトレンド分析

単純に多く使われた文字がトレンド入りするなら「い」「う」など意味のない文字がランクインしてしまいますが、形態素に分解することで名詞や動詞といったキーワードとなる言葉を抽出し、固有名詞などで更に候補を限定しています。

·YouTubeなどの自動字幕生成

音声認識技術で捉えた文章を即座に形態素解析し字幕に変換しています。「音声→文字」の変換システムは聴覚障害者向け電話などにも活用され、今後もより精度が求められています。

拡がる応用

他にも近年はニュースアプリの自動改行など応用の幅も広がっており、身近な暮らしを支える便利な技術ではありますが、変換ミスなど未だ発展途上の分野であることも確かです。栗林卓也氏はリスティングやSEOなどへの応用と共に聴覚障害者向けの福祉利用に関心を寄せ株式会社ライズはその稀有なデータ処理技術をもって形態素解析システムを向上させるべく進化を続けています。