製品自体についてのご質問
解析対象のデータ量に制限はありません。また、ひとつのデータに含まれるテキストの量にも制限はありませんので、数語のメモ記録から数百行に亘るレポート文書まで解析可能です。 はい、可能です。一般的なテキスト抽出ツール(一万円ほどで市販されています)を使って、テキストデータだけを簡単に取り出せますので、その後は通常のプレーンテキストを読み込む方法でツールに取り込むことが出来ます。この方法にて、HTMLデータも読み込めますので掲示板やブログ記事も解析可能です。 はい、連携可能です。Oracle以外にもODBC接続に対応している一般的なリレーショナルDBでしたらオンラインで連携することが可能です。 Excelや多くのリレーショナルDBがサポートしている、CSV形式でのデータ入出力が可能です。例えば、リレーショナルDBに蓄積された膨大なデータをレクシオンProで層別分類し、その結果をCSV形式でExcelに渡してグラフやレポートに加工・編集する、といった有機的な連携が可能です。
2000データ(500文字/データ程度の情報量として)を10分間ほどで分類いたします。ただし、これはツールを稼働させるマシンの性能およびデータ内容に大きく左右されますので、あくまで好条件での目安とお考えください。
下記が、数千を超える大量のデータを分析する際の推奨スペックとなります。ただし、データ量が数百〜千データ程度でしたらCPU:1GHz、搭載メモリ:256MB程度でも充分に使用することが可能です。
本ツールは大量のテキストデータを分析して重要語をリストアップし、各テキストデータの内容を把握して層別分類する処理を計算機で自動実行するものです。具体的には、下記の出力が得られます。
●“重要語リスト”や“分類のやりかた”をツールに教える必要がありますか? 解析に使う重要語は、アルゴリズムが対象データから自動抽出します。分類の指針についても、専用に開発された人工知能アルゴリズムがデータ内容から最適判断しますので、解析者がツールに設定する必要がありません。この特徴により、「どのように分類すべきか分からないデータ」から分類の目安を手早く見つけ出すのが得意なツールです。
■重要語の抽出はどのように行うのですか?(重要度の判断はどのようにするのですか?) 文章を単語に分解した後に「出現頻度」と、「共起度」という二つの指標を調べて、各語の重要度を判断しています。この独自アルゴリズムにより、“出現は稀だが文脈全体に関わる重要な語”を高精度に抽出することが可能となっています。(尚、本機能は大澤助教授(東京大学 システム量子工学専攻)が開発されたキーワード抽出アルゴリズム「キーグラフ」を装備することによって実現されています) 重要語リスト画面では、上位に位置するものほど重要度が高い語となります。また、この重要語リスト(重要度付き)をテキスト形式のファイルとして外部に取り出す事が出来ますので、レクシオンプロをキーワード抽出ツールとして活用することも可能です。 自動抽出する重要語の数は、スライドバー操作にて任意に設定可能です。このスライドバーは、通常の分類処理では最小値(レベル1)で利用します。特定カテゴリの重要語だけを使って意図的な分類をする場合等には、ベースとなる重要語をより多くリストアップできるよう、大きめのレベルに設定します。
レクシオンプロでは、以下のような辞書を利用しています。
扱うことが可能です。ツール内に専用の辞書編集画面が用意されておりますので、元データから抽出したベース情報を参照しながら必要な語を登録します。特に、複合語は登録すべき語が自動的にリストアップされますので、登録作業が非常にスムーズです。 ユーザーにて編集可能な辞書は下記の3つですが、ツール内に専用の編集画面が用意されており、特殊な手順を覚えることなしに容易に編集可能です。
高精度に抽出された重要語に基づいて、各データのポイントとなる部分を自動的に要約いたします。この機能により、生データに多量のノイズ的記述が含まれている場合でも、容易に要点を把握する事ができます。
類似した内容を持つデータの集合が“分類グループ”です。ひとつの分類グループは、ひとつの話題(トピックス)を表しています。各分類グループには、識別のためにグループ番号が付けらます。 複数の分類グループ間の関係性を情報マップで可視化していますが、このマップにおける各分類グループの階層位置を表しています(階層レベルの意味については、情報マップの項をご参照ください) 各分類グループを形成する際にキーとなった語ペアです。結果的に、各分類グループの内容を代表するラベル情報となっています。(この情報が自動的に得られますので、情報マップをみて各グループの概要を直感的に把握することが出来ます。)
|
