PDFからテキスト抽出

PDFからテキスト抽出して要約するため、ChatGPTを使ってpythonのスクリプトを生成した。 Step1:PDFからテキスト抽出するスクリプトのベースを作成 プロンプト pypdf2を使用、pdfファイル名を引数にする、指定されたpdfファイルからテキストを抽出するサンプルコード コマンドライン引数が必須になるように 生成されたコード import sys import PyPDF2 def extract_text_from_pdf(pdf_file_name): # PDFファイルをバイナリモードで開く with open(pdf_file_name, 'rb') as file: # PyPDF2のPdfFileReaderオブジェクトを作成 pdf_reader = PyPDF2.PdfFileReader(file) # ページごとにテキストを抽出 text = '' for page_num in range(pdf_reader.numPages): page = pdf_reader.getPage(page_num) text += page.extract_text() return text # コマンドライン引数の数をチェック if len(sys....

July 6, 2023

IoTの定義

ISO IEC 27402のドラフト(Cybersecurity — IoT security and privacy — Device baseline requirements)にて、IoTが定義されている。 3.1.4 internet of things IoT infrastructure of interconnected entities, people, systems and information resources together with services which processes and reacts to information from the physical world and virtual world...

July 4, 2023