2024-09

自然言語処理

RNNを使ったテキスト分類

ここまでで、単語を機械に認識させる方法について学んできましたが、それ単体ではまだ実用的な技術には及びません。ここからはもっと実用的なテキスト分類の技術について学習していきます。自然言語処理(NLP)におけるテキスト分類は、特定のテキストをあ...
自然言語処理

学習済みモデルの利用と単語分散表現の評価

実装編の第一弾で自分で一から単語分散表現を学習するモデルを作成し、第二弾では実装済みのgensimというモデルを使って単語分散表現の学習を行いました。しかし、たいていの場合、単語分散表現の学習には莫大な時間がかかるため学習済みのモデルを利用...
自然言語処理

単語分散表現について学ぼう_3(実践編)

今回は前回とは違ってgensimというすでに実装されているモデルを使って単語分散表現を学習させる方法を解説します。 gensimの使いかた まずはgensimをインストールしましょう。 事前のインストール !pip install gens...
自然言語処理

単語分散表現について学ぼう_2(実践編)

今回は前回勉強した単語の分散表現の実践編です。Wikipediaの日本語版テキストをもとに作られたコーパスを用いて学習を行います。このモデルは入力単語に対して似たような意義を持つ単語を出力するように学習させます。 事前準備 まず、データセッ...
自然言語処理

単語分散表現について学ぼう_1(座学編)

今回は単語分散表現という機械に言語を認識させるうえで重要な技術について解説します。 結構難しくて理解に苦しみました、、、 単語分散表現とは 単語分散表現とは、単語の意味を低次元の実数値ベクトルで表現する技術です。これにより、単語間の意味的な...
自然言語処理

ニューラルネットワークの実装_2

さて、今回のメモでは実際にニューラルネットワークモデルの構築を行いたいと思います。 学習するデータはアマゾンの星の数とそのレビュー内容で、文章の内容から製品に批判的か肯定的かを判定するものを作りました。 事前準備 ここでは学習データの用意と...
自然言語処理

ニューラルネットワークの実装_1

今回のメモではKerasを用いてニューラルネットワークの実装を行うためにまず、モデルの構築方法を学んでいきます。 具体的にはアマゾンのレビューを用いて学習を行い、入力された文章が評価高めなのか、低めなのかを二値分類できるように学習させます。...
自然言語処理

ニューラルネットワークとは何か

ニューラルネットワークは、人工知能(AI)の分野で非常に重要な技術の一つです。特に、画像認識や音声認識、さらにはゲームのプレイなど、さまざまな分野で使われています。この技術は、人間の脳が情報を処理する仕組みを模倣して設計されています。このメ...
自然言語処理

特徴量エンジニアリング

特徴量スケーリング 正規化は、データを0から1の範囲にスケーリングします。 標準化は、データの平均を0、標準偏差を1にスケーリングします。 これらの手法は、特に距離ベースのアルゴリズム(例:k近傍法やSVM)で重要です。データのスケールが揃...
自然言語処理

テキストのベクトル表現

自然言語処理(NLP)におけるテキストのベクトル表現は、テキストデータを数値ベクトルに変換する方法です。これにより、機械学習モデルがテキストデータを理解し、処理できるようになります。このメモではN-gramベクトルとシーケンスベクトルについ...