PDFからテキスト抽出

PDFからテキスト抽出して要約するため、ChatGPTを使ってpythonのスクリプトを生成した。 Step1:PDFからテキスト抽出するスクリプトのベースを作成 プロンプト pypdf2を使用、pdfファイル名を引数にする、指定されたpdfファイルからテキストを抽出するサンプルコード コマンドライン引数が必須になるように 生成されたコード import sys import PyPDF2 def extract_text_from_pdf(pdf_file_name): # PDFファイルをバイナリモードで開く with open(pdf_file_name, 'rb') as file: # PyPDF2のPdfFileReaderオブジェクトを作成 pdf_reader = PyPDF2.PdfFileReader(file) # ページごとにテキストを抽出 text = '' for page_num in range(pdf_reader.numPages): page = pdf_reader.getPage(page_num) text += page.extract_text() return text # コマンドライン引数の数をチェック if len(sys....

July 6, 2023