自然言語処理

特徴量エンジニアリング

特徴量スケーリング 正規化は、データを0から1の範囲にスケーリングします。 標準化は、データの平均を0、標準偏差を1にスケーリングします。 これらの手法は、特に距離ベースのアルゴリズム(例:k近傍法やSVM)で重要です。データのスケールが揃...
自然言語処理

テキストのベクトル表現

自然言語処理(NLP)におけるテキストのベクトル表現は、テキストデータを数値ベクトルに変換する方法です。これにより、機械学習モデルがテキストデータを理解し、処理できるようになります。このメモではN-gramベクトルとシーケンスベクトルについ...
自然言語処理

質的変数と量的変数について

自然言語処理(NLP)における特徴量エンジニアリングは、テキストデータから有用な特徴(特徴量)を抽出し、機械学習モデルの性能を向上させるプロセスです。今回の記事では、よく使われるタイタニック号のデータをもとに説明します。 質的変数と量的変数...
自然言語処理

テキストの前処理

今回は自然言語処理の中でも重要な前処理について解説しています。実行環境はGoogleのColaboratoryですので、挑戦しやすいかと思います。 現在、機械学習の勉強中ではありますが、備忘録として誰かのお役に立てればと思い書いています。 ...